すべてのプロダクト
Search
ドキュメントセンター

DataWorks:AI アシスト処理

最終更新日:Feb 13, 2026

この機能は、大規模 AI モデルの処理能力を DataWorks データ統合パイプラインにネイティブ統合します。これにより、従来の単純なデータ転送からデータ同期が、知的なデータ処理へと進化します。データをソースからターゲットへ転送する際に、リアルタイムで AI モデルを呼び出して、データの分析・処理・強化が可能です。このプロセスにより、非構造化データに隠された価値を引き出すことができます。

機能概要

  • 対象顧客:データ同期中に高度な分析および処理を実行する必要がある企業ユーザー向けです。特に、AI を活用してデータ品質を向上させ、データから価値を抽出したい企業に有効です。

  • 同期パイプラインへのシームレス統合:AI 処理は、Data Integration に組み込まれた標準ステップであり、ソースからのデータ読み取りおよびターゲットへのデータ書き込みプロセスと完全に連携します。

  • 多様な自然言語処理(NLP)タスクに対応:同期中にテキストデータに対して、感情分析、要約生成、キーワード抽出、テキスト翻訳などの複数の自然言語処理(NLP)タスクを実行できます。

シナリオ

業界

代表的な利用シーン

カスタマーサポート/E コマース

ユーザーのコメントおよびサービスチケットの感情をリアルタイムで分析し、主要な課題および重要なフィードバックポイントを自動抽出します。

コンプライアンス/法務/科学研究

同期中に、ポリシードキュメント、法的契約書、研究論文から要約を自動生成し、重要情報を抽出します。

製造業/サプライチェーン/医療

デバイスログ、サプライチェーンのフィードバック、医師と患者のコミュニケーション記録を知的に分析し、脅威アラートおよびサービス品質最適化を実現します。

多言語連携

同期中に、SNS のコメント、ニュース記事、ビジネスドキュメントを一括して単一の言語に自動翻訳し、集約分析を可能にします。

事前準備

  • Data Studio(新バージョン)を使用するワークスペースを作成します。

  • AI アシスト処理に必要な大規模モデルサービスを準備します。準備手順は選択した大規模モデルサービスプロバイダーによって異なります:

  • オフライン同期タスクでは、データソース情報を手動で設定することも、既存のデータソースを利用することもできます。

  • ワークスペースがリソースグループにアタッチされていること、およびそのリソースグループがデータソースに接続できることを確認してください。

課金

DataWorks のサブスクリプション料金およびリソースグループ料金に加え、本機能ではモデル推論(呼び出し)料金も発生します。

操作例

この例では、Hologres を使用して、1 つの Hologres テーブルから別の Hologres テーブルへのオフライン同期タスクにおいて、AI アシスト処理機能を活用する方法を説明します。目的は、ソーステーブルの feedback_info カラムのデータを英語に翻訳し、ターゲットテーブルに同期することです。

ソーステーブルのデータを準備します

CREATE TABLE customer_feedback (
    id BIGINT PRIMARY KEY,
    device STRING,
    feedback_info STRING,
    pt INT
)
PARTITIONED BY (pt)
DISTRIBUTED BY HASH(id)
WITH (table_type='Duplication');

INSERT INTO customer_feedback (id, device, feedback_info, pt)
VALUES
(8, 'Huawei MateBook D14', 'Affordable, suitable for students, performance is adequate', 2020),
(1, 'iphone', 'This product is okay, I have used it for 1 year', 2013),
(10, 'Bose QuietComfort 35 II', 'A classic among noise-canceling headphones, maximum comfort', 2021);

1. オフライン同期タスクの作成

  1. DataWorks コンソールの ワークスペース ページに移動します。上部ナビゲーションバーから希望するリージョンを選択します。目的のワークスペースを見つけ、操作 列の ショートカット > Data Studio を選択します。

  2. 左側のナビゲーションウィンドウで image をクリックして Data Studio ページに移動します。ワークスペースディレクトリ の右側にある image をクリックし、ノードの作成 > データ統合 > バッチ同期 を選択します。「新規ノード」ダイアログボックスが表示されます。

  3. ノードの パスデータソースおよびターゲット名前 を設定し、OK をクリックしてオフライン同期ノードを作成します。

    本トピックでは、Hologres 間の同期タスクを例として、AI アシスト処理機能について説明します。

2. 同期タスクの構成

オフライン同期ノードを作成すると、タスク構成ページが表示されます。このページで以下の設定を行います:

1. データソース

データ同期タスクのソースおよびターゲットを構成します。

  • タイプ:「オフライン同期タスクの作成」手順で選択したソースおよびターゲットのデータソースタイプです。この設定は変更できません。データソースタイプを変更するには、新しいオフライン同期タスクを作成する必要があります。

  • データソース:ドロップダウンリストから既存のデータソースを選択するか、データソースの追加 をクリックして新規作成します。

2. 実行時リソース

  1. リソースグループ を同期タスクに選択します。サーバーレスリソースグループを使用する場合、リソース使用量(CU) フィールドでタスクに割り当てる CU 数を指定することもできます。

  2. リソースグループ を選択後、Data Integration が自動的にリソースグループとソース/ターゲットデータソース間の接続性を確認します。また、接続性チェック をクリックして手動で確認することもできます。

image

3. ソース

ソーステーブルの情報を設定します。たとえば、[スキーマ][テーブル][パーティション]、および[データフィルタリング] の条件です。[データプレビュー] をクリックして、同期されるデータをプレビューできます。

image

4. データ処理

  1. データ処理セクションで、有効化 をクリックしてデータ処理機能を有効化します。この機能は追加のコンピューティングリソースを必要とし、タスクのリソース負荷が増加します。

  2. ノードの追加 をクリックし、AI 処理 を選択します。

    image

  3. AI アシスト処理の設定を行います。

    image

    以下の表に、主なパラメーターを示します。

    パラメーター

    説明

    モデルプロバイダー

    対応しているプロバイダーは、DataWorks モデルサービスAliyun BailianPAI モデルギャラリー です。

    モデルエンドポイント

    PAI モデルギャラリー を選択し、モデル呼び出しのエンドポイントを入力します。エンドポイントの取得方法については、「サービステストの実行」をご参照ください。

    モデル名

    知的なデータ処理を担当するモデルです。必要に応じて選択します。

    API キー

    モデルへのアクセスに使用する API キーです。モデルプロバイダーから取得してください。

    処理内容の説明

    ソースフィールドに対する処理内容を自然言語で記述します。#{column_name} の形式でフィールド名を記述します。本例では、「#{feedback_info}」を英語に翻訳 と入力します。

    出力フィールド

    結果を格納するフィールド名を入力します。該当フィールドが存在しない場合は、自動的に新規作成されます。

    説明

    本例では、ソーステーブルの feedback_info フィールドを英語に翻訳し、feedback_processed フィールドに格納します。

  4. AI アシスト処理セクションの右上隅にある 出力データプレビュー をクリックして、最終的な出力データをプレビューできます。

  5. (任意)複数のデータ処理フローを順次実行するように構成できます。

    image

5. 宛先

  1. データ同期の宛先テーブルの [スキーマ][テーブル][パーティション] などの情報を設定します。

    • ターゲットテーブルスキーマの生成 をクリックして、ターゲットテーブルのスキーマを迅速に生成できます。

    • 既に存在するターゲットテーブルがある場合は、それを選択できます。

  2. 書き込みモード および 書き込み競合戦略 を構成します。

    image

  3. Hologres テーブルの既存データを同期前に削除するかどうかを構成します。

  4. (任意)最大接続数 を構成します。

    最大接続数 の設定は、書き込みモードが SQL(INSERT INTO) の場合にのみ有効です。タスクを開始する際には、Hologres インスタンスに十分な空き接続数があることを確認してください。1 つのタスクで最大 9 接続まで使用できます。

6. ターゲットフィールドのマッピング

ソース、データ処理、ターゲットの構成が完了すると、ソーステーブルとターゲットテーブル間のフィールドマッピングが表示されます。デフォルトでは、フィールドは名前および位置に基づいてマッピングされます。必要に応じてマッピングを変更できます。

説明

本例では、既存のソーステーブルフィールド(iddevicefeedback_infopt)を名前でマッピングするのに加え、ソーステーブルの翻訳結果を格納する feedback_processed フィールドを、ターゲットテーブルの translate_feedback フィールドに手動でマッピングする必要があります。

image

3. タスクのテスト

  1. オフライン同期タスク構成ページの右ペインで、Run Configuration をクリックします。テストに使用する リソースグループ および関連する スクリプトパラメーター を構成します。

  2. ノード構成ページ上部のツールバーで、保存 をクリックし、その後 実行 をクリックします。タスクの実行が完了したら、結果が正常であることを確認します。その後、ターゲットデータベースを確認して、テーブルデータが正しいことを検証できます。

4. スケジューリングの構成

オフライン同期ノードを定期的に実行するには、ページ右側の スケジューリング セクションで スケジューリングポリシー を設定し、関連する ノードスケジューリングプロパティ を構成する必要があります。

5. ノードの公開

ノードツールバーの 公開 アイコンをクリックして、公開フロー を開始します。このフローにより、タスクが本番環境に公開されます。定期的なスケジューリングは、タスクが公開された後にのみ有効になります。

次のステップ:タスクの運用管理

ノードが公開された後、[データのバックフィル] をクリックするか、公開フローで O&M を実行できます。

  • データバックフィル:現在のノードのみのデータバックフィルに使用できます。より複雑なデータバックフィル機能については、オペレーションセンターをご利用ください。詳細については、「データバックフィルタスクの実行およびデータバックフィルインスタンスの表示(新)」をご参照ください。

  • 実行 O&M: タスクが公開されると、オペレーションセンターによって自動的に管理されます。オペレーションセンターでは、タスクの実行状態を表示したり、手動で実行をトリガーしたりできます。詳細については、「オペレーションセンター」をご参照ください。