この機能は、大規模 AI モデルの処理能力を DataWorks データ統合パイプラインにネイティブ統合します。これにより、従来の単純なデータ転送からデータ同期が、知的なデータ処理へと進化します。データをソースからターゲットへ転送する際に、リアルタイムで AI モデルを呼び出して、データの分析・処理・強化が可能です。このプロセスにより、非構造化データに隠された価値を引き出すことができます。
機能概要
対象顧客:データ同期中に高度な分析および処理を実行する必要がある企業ユーザー向けです。特に、AI を活用してデータ品質を向上させ、データから価値を抽出したい企業に有効です。
同期パイプラインへのシームレス統合:AI 処理は、Data Integration に組み込まれた標準ステップであり、ソースからのデータ読み取りおよびターゲットへのデータ書き込みプロセスと完全に連携します。
多様な自然言語処理(NLP)タスクに対応:同期中にテキストデータに対して、感情分析、要約生成、キーワード抽出、テキスト翻訳などの複数の自然言語処理(NLP)タスクを実行できます。
シナリオ
業界 | 代表的な利用シーン |
カスタマーサポート/E コマース | ユーザーのコメントおよびサービスチケットの感情をリアルタイムで分析し、主要な課題および重要なフィードバックポイントを自動抽出します。 |
コンプライアンス/法務/科学研究 | 同期中に、ポリシードキュメント、法的契約書、研究論文から要約を自動生成し、重要情報を抽出します。 |
製造業/サプライチェーン/医療 | デバイスログ、サプライチェーンのフィードバック、医師と患者のコミュニケーション記録を知的に分析し、脅威アラートおよびサービス品質最適化を実現します。 |
多言語連携 | 同期中に、SNS のコメント、ニュース記事、ビジネスドキュメントを一括して単一の言語に自動翻訳し、集約分析を可能にします。 |
事前準備
Data Studio(新バージョン)を使用するワークスペースを作成します。
AI アシスト処理に必要な大規模モデルサービスを準備します。準備手順は選択した大規模モデルサービスプロバイダーによって異なります:
Alibaba Cloud DataWorks モデルサービス: Model Service Management でモデルをデプロイし、モデルサービスを起動します。
Alibaba Cloud Model Studio: Alibaba Cloud Model Studio を有効化し、API キーを取得します。
Alibaba Cloud PAI-Marketplace: Platform for AI (PAI) を有効化し、モデルサービス用のトークンを取得します。
オフライン同期タスクでは、データソース情報を手動で設定することも、既存のデータソースを利用することもできます。
ワークスペースがリソースグループにアタッチされていること、およびそのリソースグループがデータソースに接続できることを確認してください。
課金
DataWorks のサブスクリプション料金およびリソースグループ料金に加え、本機能ではモデル推論(呼び出し)料金も発生します。
操作例
この例では、Hologres を使用して、1 つの Hologres テーブルから別の Hologres テーブルへのオフライン同期タスクにおいて、AI アシスト処理機能を活用する方法を説明します。目的は、ソーステーブルの feedback_info カラムのデータを英語に翻訳し、ターゲットテーブルに同期することです。
1. オフライン同期タスクの作成
DataWorks コンソールの ワークスペース ページに移動します。上部ナビゲーションバーから希望するリージョンを選択します。目的のワークスペースを見つけ、操作 列の を選択します。
左側のナビゲーションウィンドウで
をクリックして Data Studio ページに移動します。ワークスペースディレクトリ の右側にある
をクリックし、 を選択します。「新規ノード」ダイアログボックスが表示されます。ノードの パス、データソースおよびターゲット、名前 を設定し、OK をクリックしてオフライン同期ノードを作成します。
本トピックでは、Hologres 間の同期タスクを例として、AI アシスト処理機能について説明します。
2. 同期タスクの構成
オフライン同期ノードを作成すると、タスク構成ページが表示されます。このページで以下の設定を行います:
1. データソース
データ同期タスクのソースおよびターゲットを構成します。
タイプ:「オフライン同期タスクの作成」手順で選択したソースおよびターゲットのデータソースタイプです。この設定は変更できません。データソースタイプを変更するには、新しいオフライン同期タスクを作成する必要があります。
データソース:ドロップダウンリストから既存のデータソースを選択するか、データソースの追加 をクリックして新規作成します。
2. 実行時リソース
リソースグループ を同期タスクに選択します。サーバーレスリソースグループを使用する場合、リソース使用量(CU) フィールドでタスクに割り当てる CU 数を指定することもできます。
リソースグループ を選択後、Data Integration が自動的にリソースグループとソース/ターゲットデータソース間の接続性を確認します。また、接続性チェック をクリックして手動で確認することもできます。

3. ソース
ソーステーブルの情報を設定します。たとえば、[スキーマ]、[テーブル]、[パーティション]、および[データフィルタリング] の条件です。[データプレビュー] をクリックして、同期されるデータをプレビューできます。

4. データ処理
データ処理セクションで、有効化 をクリックしてデータ処理機能を有効化します。この機能は追加のコンピューティングリソースを必要とし、タスクのリソース負荷が増加します。
ノードの追加 をクリックし、AI 処理 を選択します。

AI アシスト処理の設定を行います。

以下の表に、主なパラメーターを示します。
パラメーター
説明
モデルプロバイダー
対応しているプロバイダーは、DataWorks モデルサービス、Aliyun Bailian、PAI モデルギャラリー です。
モデルエンドポイント
PAI モデルギャラリー を選択し、モデル呼び出しのエンドポイントを入力します。エンドポイントの取得方法については、「サービステストの実行」をご参照ください。
モデル名
知的なデータ処理を担当するモデルです。必要に応じて選択します。
API キー
モデルへのアクセスに使用する API キーです。モデルプロバイダーから取得してください。
Alibaba Cloud Model Studio:「Model Studio API キーの取得」をご参照ください。
Alibaba Cloud PAI-Marketplace:デプロイ済みの EAS タスクに移動し、「オンラインデバッグの開始」を実行してトークンを取得し、これを API キーとして入力します。
処理内容の説明
ソースフィールドに対する処理内容を自然言語で記述します。
#{column_name}の形式でフィールド名を記述します。本例では、「#{feedback_info}」を英語に翻訳と入力します。出力フィールド
結果を格納するフィールド名を入力します。該当フィールドが存在しない場合は、自動的に新規作成されます。
説明本例では、ソーステーブルの
feedback_infoフィールドを英語に翻訳し、feedback_processedフィールドに格納します。AI アシスト処理セクションの右上隅にある 出力データプレビュー をクリックして、最終的な出力データをプレビューできます。
(任意)複数のデータ処理フローを順次実行するように構成できます。

5. 宛先
データ同期の宛先テーブルの [スキーマ]、[テーブル]、[パーティション] などの情報を設定します。
ターゲットテーブルスキーマの生成 をクリックして、ターゲットテーブルのスキーマを迅速に生成できます。
既に存在するターゲットテーブルがある場合は、それを選択できます。
書き込みモード および 書き込み競合戦略 を構成します。

Hologres テーブルの既存データを同期前に削除するかどうかを構成します。
(任意)最大接続数 を構成します。
最大接続数 の設定は、書き込みモードが
SQL(INSERT INTO)の場合にのみ有効です。タスクを開始する際には、Hologres インスタンスに十分な空き接続数があることを確認してください。1 つのタスクで最大 9 接続まで使用できます。
6. ターゲットフィールドのマッピング
ソース、データ処理、ターゲットの構成が完了すると、ソーステーブルとターゲットテーブル間のフィールドマッピングが表示されます。デフォルトでは、フィールドは名前および位置に基づいてマッピングされます。必要に応じてマッピングを変更できます。
本例では、既存のソーステーブルフィールド(id、device、feedback_info、pt)を名前でマッピングするのに加え、ソーステーブルの翻訳結果を格納する feedback_processed フィールドを、ターゲットテーブルの translate_feedback フィールドに手動でマッピングする必要があります。

3. タスクのテスト
オフライン同期タスク構成ページの右ペインで、Run Configuration をクリックします。テストに使用する リソースグループ および関連する スクリプトパラメーター を構成します。
ノード構成ページ上部のツールバーで、保存 をクリックし、その後 実行 をクリックします。タスクの実行が完了したら、結果が正常であることを確認します。その後、ターゲットデータベースを確認して、テーブルデータが正しいことを検証できます。
4. スケジューリングの構成
オフライン同期ノードを定期的に実行するには、ページ右側の スケジューリング セクションで スケジューリングポリシー を設定し、関連する ノードスケジューリングプロパティ を構成する必要があります。
5. ノードの公開
ノードツールバーの 公開 アイコンをクリックして、公開フロー を開始します。このフローにより、タスクが本番環境に公開されます。定期的なスケジューリングは、タスクが公開された後にのみ有効になります。
次のステップ:タスクの運用管理
ノードが公開された後、[データのバックフィル] をクリックするか、公開フローで O&M を実行できます。
データバックフィル:現在のノードのみのデータバックフィルに使用できます。より複雑なデータバックフィル機能については、オペレーションセンターをご利用ください。詳細については、「データバックフィルタスクの実行およびデータバックフィルインスタンスの表示(新)」をご参照ください。
実行 O&M: タスクが公開されると、オペレーションセンターによって自動的に管理されます。オペレーションセンターでは、タスクの実行状態を表示したり、手動で実行をトリガーしたりできます。詳細については、「オペレーションセンター」をご参照ください。