この機能は、大規模 AI モデルの処理能力を DataWorks のデータ統合パイプラインにネイティブに統合します。これにより、従来のデータ同期が単純なデータ転送からインテリジェントな処理へとアップグレードされます。ソースから宛先へのデータ転送中に AI モデルをリアルタイムで呼び出し、データの分析、処理、拡張を行うことができます。このプロセスにより、非構造化データの隠れた価値を引き出すことが可能になります。
機能紹介
対象となるお客様:この機能は、データ同期中にデータに対して高度な分析と処理を行う必要があるエンタープライズユーザー向けに設計されています。特に、AI を活用してデータ品質を向上させ、データから価値を抽出したい企業に役立ちます。
同期パイプラインへのシームレスな統合:AI 処理はデータ統合に組み込まれたステップであり、ソースからのデータ読み取りと宛先へのデータ書き込みのプロセスとシームレスに連携します。
さまざまな NLP タスクのサポート:同期中にテキストデータに対して、感情分析、要約生成、キーワード抽出、テキスト翻訳など、複数の自然言語処理 (NLP) タスクを実行できます。
利用シーン
業界 | 典型的なアプリケーション |
カスタマーサービス / E コマース | ユーザーコメントやカスタマーサービスのサービスチケットの感情をリアルタイムで分析します。中心的な問題や主要なフィードバックポイントを自動的に抽出します。 |
コンプライアンス / 法務 / 科学研究 | 同期中に、ポリシー文書、法的契約書、研究論文から要約を自動生成し、キー情報を抽出します。 |
製造 / サプライチェーン / ヘルスケア | デバイスログ、サプライチェーンのフィードバック、または医師と患者のコミュニケーション記録をインテリジェントに分析し、脅威アラートやサービス品質の最適化を可能にします。 |
多言語コラボレーション | 同期中にソーシャルメディアのコメント、ニュース記事、ビジネス文書を単一言語に自動翻訳し、一元的な分析を可能にします。 |
事前準備
Data Studio (新バージョン) を使用するワークスペースを作成します。
AI 支援処理に必要な大規模モデルサービスを準備します。準備プロセスは、選択した大規模モデルサービスプロバイダーによって異なります:
Alibaba Cloud DataWorks モデルサービス:モデルサービス管理でモデルをデプロイし、モデルサービスを開始します。
Alibaba Cloud Model Studio:Alibaba Cloud Model Studio をアクティブ化し、API キーを取得します。
Alibaba Cloud PAI-Marketplace:Platform for AI (PAI) をアクティブ化し、モデルサービスのトークンを取得します。
データソース情報を手動で設定するか、オフライン同期タスクに既存のデータソースを使用できます。
ワークスペースがリソースグループにアタッチされており、そのリソースグループがデータソースに接続できることを確認してください。
課金
DataWorks のサブスクリプション料金とリソースグループ料金に加えて、この機能ではモデル推論 (呼び出し) 料金も発生します。
例
この例では、Hologres を使用して、ある Hologres テーブルから別のテーブルへのオフライン同期タスク中に AI 支援処理機能を使用する方法を説明します。目標は、ソーステーブルの feedback_info 列のデータを英語に翻訳し、宛先テーブルに同期することです。
1. オフライン同期タスクの作成
DataWorks コンソールのワークスペースページに移動します。上部のナビゲーションバーで、目的のリージョンを選択します。目的のワークスペースを見つけ、[操作] 列で を選択します。
左側のナビゲーションウィンドウで、
をクリックして Data Studio ページに移動します。[ワークスペースディレクトリ] の右側にある
をクリックし、 を選択します。[新規ノード] ダイアログボックスが表示されます。ノードの [パス]、[データソースと宛先]、[名前] を設定し、[OK] をクリックしてオフライン同期ノードを作成します。
このトピックでは、Hologres から Hologres への同期タスクを例に、AI 支援処理機能について説明します。
2. 同期タスクの設定
オフライン同期ノードを作成すると、タスク設定ページが表示されます。このページで、以下の設定を行います:
1. データソース
データ同期タスクのソースと宛先を設定します。
[タイプ]:オフライン同期タスクの作成ステップで選択したソースと宛先のデータソースタイプです。この設定は変更できません。データソースタイプを変更するには、新しいオフライン同期タスクを作成する必要があります。
[データソース]:ドロップダウンリストから既存のデータソースを選択するか、[データソースの追加] をクリックして新しいデータソースを作成します。
2. ランタイムリソース
同期タスクの [リソースグループ] を選択します。サーバーレスリソースグループを使用する場合、[リソース使用量 (CU)] フィールドでタスクに割り当てる CU 数を指定することもできます。
[リソースグループ] を選択すると、Data Integration はリソースグループとソースおよび宛先データソース間の接続性を自動的にチェックします。[接続性チェック] をクリックして手動でチェックを実行することもできます。

3. ソース
[スキーマ]、[テーブル]、[パーティション]、[データフィルタリング] 条件など、ソーステーブルの情報を設定します。[データプレビュー] をクリックして、同期されるデータをプレビューできます。

4. データ処理
データ処理セクションで、データ処理機能を [有効化] できます。この機能は追加の計算リソースを必要とし、タスクのリソースオーバーヘッドを増加させます。
[ノードの追加] をクリックし、[AI プロセス] を選択します。

AI 支援処理の設定を行います。

次の表に、主要なパラメーターを示します。
パラメーター
説明
モデルプロバイダー
サポートされているプロバイダーは、DataWorks モデルサービス、Alibaba Cloud Model Studio、PAI-Marketplace です。
モデルエンドポイント
[PAI-Marketplace] を選択し、モデル呼び出しのエンドポイントを入力します。エンドポイントを取得する方法については、「サービス呼び出しのテスト」をご参照ください。
[モデル名]
インテリジェントなデータ処理を担当するモデルです。必要に応じて選択します。
API キー
モデルにアクセスするための API キーです。モデルプロバイダーから取得します。
Alibaba Cloud Model Studio:Model Studio API キーの取得。
Alibaba Cloud PAI-Marketplace:デプロイされた EAS タスクに移動し、オンラインデバッグを開始してトークンを取得します。取得したトークンを API キーとして入力します。
[処理の説明]
自然言語を使用して、ソースフィールドの処理を記述します。フィールド名は
#{column_name}の形式で記述します。例えば、このケースではTranslate '#{feedback_info}' into Englishと入力します。[出力フィールド]
結果を格納するフィールドの名前を入力します。フィールドが存在しない場合は、新しいフィールドが自動的に作成されます。
説明この例では、ソーステーブルの
feedback_infoフィールドが英語に翻訳され、feedback_processedフィールドに保存されます。AI 支援処理セクションの右上隅にある [データ出力プレビュー] をクリックして、最終的な出力データをプレビューできます。
(オプション) 複数のデータ処理フローを順番に実行するように設定できます。

5. 宛先
[スキーマ]、[テーブル]、[パーティション] など、データ同期の宛先テーブルの情報を設定します。
[ターゲットテーブルスキーマの生成] をクリックすると、宛先テーブルのスキーマを迅速に生成できます。
宛先テーブルが既に存在する場合は、それを選択できます。
[書き込みモード] と [書き込み競合ポリシー] を設定します。

同期前に Hologres テーブルの既存データを削除するかどうかを設定します。
(オプション) [最大接続数] を設定します。
[最大接続数] の設定は、書き込みモードが
SQL(INSERT INTO)の場合にのみ有効です。タスクを開始する際は、Hologres インスタンスに十分なアイドル接続があることを確認してください。1 つのタスクで最大 9 つの接続を使用できます。
6. 宛先フィールドのマッピング
ソース、データ処理、宛先を設定すると、ソーステーブルと宛先テーブル間のフィールドマッピングが表示されます。デフォルトでは、フィールドは名前と位置によってマッピングされます。必要に応じてマッピングを変更できます。
この例では、既存のソーステーブルフィールド (id、device、feedback_info、pt) を名前でマッピングするだけでなく、ソーステーブルから翻訳された結果を格納する feedback_processed フィールドを、宛先テーブルの translate_feedback フィールドに手動でマッピングする必要もあります。

3. タスクのテスト
オフライン同期タスク設定ページの右側のパネルで、[デバッグ設定] をクリックします。このノードのテストに使用する [リソースグループ] と関連する [スクリプトパラメーター] を設定します。
ノード設定ページの上部にあるツールバーで、[保存] をクリックし、次に [実行] をクリックします。タスクの実行が完了したら、結果が成功したことを確認します。その後、宛先データベースをチェックして、テーブルデータが正しいことを確認できます。
4. スケジューリングの設定
オフライン同期ノードを定期的に実行するには、ページ右側の [スケジューリング] セクションで [スケジューリングポリシー] を設定し、関連するノードスケジューリングプロパティを設定する必要があります。
5. ノードの公開
ノードツールバーの [公開] アイコンをクリックして、公開フローを開始します。このフローにより、タスクが本番環境に公開されます。定期的なスケジューリングは、タスクが公開された後にのみ有効になります。
次のステップ:タスクの O&M
ノードが公開された後、公開フローで [データ補完] または [O&M の実行] をクリックできます。
[データ補完]:このオプションを使用して、現在のノードのデータのみを補完できます。より複雑なデータ補完機能については、オペレーションセンターに移動してください。詳細については、「データ補完タスクの実行とデータ補完インスタンスの表示 (新)」をご参照ください。
実行 O&M: タスクが公開されると、オペレーションセンターによって自動的に管理されます。オペレーションセンターでは、タスクの実行ステータスを表示したり、手動で実行をトリガーしたりできます。詳細については、「オペレーションセンター」をご参照ください。