AI アシスト処理機能を用いたデータ統合タスクの作成 - DataWorks

この機能は、大規模 AI モデルの処理能力を DataWorks データ統合パイプラインにネイティブ統合します。これにより、従来の単純なデータ転送からデータ同期が、知的なデータ処理へと進化します。データをソースからターゲットへ転送する際に、リアルタイムで AI モデルを呼び出して、データの分析・処理・強化が可能です。このプロセスにより、非構造化データに隠された価値を引き出すことができます。

機能概要

対象顧客：データ同期中に高度な分析および処理を実行する必要がある企業ユーザー向けです。特に、AI を活用してデータ品質を向上させ、データから価値を抽出したい企業に有効です。
同期パイプラインへのシームレス統合：AI 処理は、Data Integration に組み込まれた標準ステップであり、ソースからのデータ読み取りおよびターゲットへのデータ書き込みプロセスと完全に連携します。
多様な自然言語処理（NLP）タスクに対応：同期中にテキストデータに対して、感情分析、要約生成、キーワード抽出、テキスト翻訳などの複数の自然言語処理（NLP）タスクを実行できます。

シナリオ

業界	代表的な利用シーン
カスタマーサポート／E コマース	ユーザーのコメントおよびサービスチケットの感情をリアルタイムで分析し、主要な課題および重要なフィードバックポイントを自動抽出します。
コンプライアンス／法務／科学研究	同期中に、ポリシードキュメント、法的契約書、研究論文から要約を自動生成し、重要情報を抽出します。
製造業／サプライチェーン／医療	デバイスログ、サプライチェーンのフィードバック、医師と患者のコミュニケーション記録を知的に分析し、脅威アラートおよびサービス品質最適化を実現します。
多言語連携	同期中に、SNS のコメント、ニュース記事、ビジネスドキュメントを一括して単一の言語に自動翻訳し、集約分析を可能にします。

事前準備

Data Studio（新バージョン）を使用するワークスペースを作成します。
AI アシスト処理に必要な大規模モデルサービスを準備します。準備手順は選択した大規模モデルサービスプロバイダーによって異なります：
- Alibaba Cloud DataWorks モデルサービス： Model Service Management でモデルをデプロイし、モデルサービスを起動します。
- Alibaba Cloud Model Studio： Alibaba Cloud Model Studio を有効化し、API キーを取得します。
- Alibaba Cloud PAI-Marketplace： Platform for AI (PAI) を有効化し、モデルサービス用のトークンを取得します。
オフライン同期タスクでは、データソース情報を手動で設定することも、既存のデータソースを利用することもできます。
ワークスペースがリソースグループにアタッチされていること、およびそのリソースグループがデータソースに接続できることを確認してください。

課金

DataWorks のサブスクリプション料金およびリソースグループ料金に加え、本機能ではモデル推論（呼び出し）料金も発生します。

操作例

この例では、Hologres を使用して、1 つの Hologres テーブルから別の Hologres テーブルへのオフライン同期タスクにおいて、AI アシスト処理機能を活用する方法を説明します。目的は、ソーステーブルの feedback_info カラムのデータを英語に翻訳し、ターゲットテーブルに同期することです。

ソーステーブルのデータを準備します

CREATE TABLE customer_feedback (
    id BIGINT PRIMARY KEY,
    device STRING,
    feedback_info STRING,
    pt INT
)
PARTITIONED BY (pt)
DISTRIBUTED BY HASH(id)
WITH (table_type='Duplication');

INSERT INTO customer_feedback (id, device, feedback_info, pt)
VALUES
(8, 'Huawei MateBook D14', 'Affordable, suitable for students, performance is adequate', 2020),
(1, 'iphone', 'This product is okay, I have used it for 1 year', 2013),
(10, 'Bose QuietComfort 35 II', 'A classic among noise-canceling headphones, maximum comfort', 2021);

1. オフライン同期タスクの作成

DataWorks コンソールのワークスペースページに移動します。上部ナビゲーションバーから希望するリージョンを選択します。目的のワークスペースを見つけ、操作列の ショートカット > Data Studio を選択します。
左側のナビゲーションウィンドウでをクリックして Data Studio ページに移動します。ワークスペースディレクトリ の右側にあるをクリックし、ノードの作成 > データ統合 > バッチ同期 を選択します。「新規ノード」ダイアログボックスが表示されます。
ノードのパス、データソースおよびターゲット、名前を設定し、OK をクリックしてオフライン同期ノードを作成します。
本トピックでは、Hologres 間の同期タスクを例として、AI アシスト処理機能について説明します。

2. 同期タスクの構成

オフライン同期ノードを作成すると、タスク構成ページが表示されます。このページで以下の設定を行います：

1. データソース

データ同期タスクのソースおよびターゲットを構成します。

タイプ：「オフライン同期タスクの作成」手順で選択したソースおよびターゲットのデータソースタイプです。この設定は変更できません。データソースタイプを変更するには、新しいオフライン同期タスクを作成する必要があります。
データソース：ドロップダウンリストから既存のデータソースを選択するか、データソースの追加 をクリックして新規作成します。

2. 実行時リソース

リソースグループ を同期タスクに選択します。サーバーレスリソースグループを使用する場合、リソース使用量（CU） フィールドでタスクに割り当てる CU 数を指定することもできます。
リソースグループ を選択後、Data Integration が自動的にリソースグループとソース／ターゲットデータソース間の接続性を確認します。また、接続性チェック をクリックして手動で確認することもできます。

3. ソース

ソーステーブルの情報を設定します。たとえば、[スキーマ]、[テーブル]、[パーティション]、および[データフィルタリング] の条件です。[データプレビュー] をクリックして、同期されるデータをプレビューできます。

4. データ処理

データ処理セクションで、有効化 をクリックしてデータ処理機能を有効化します。この機能は追加のコンピューティングリソースを必要とし、タスクのリソース負荷が増加します。
ノードの追加 をクリックし、AI 処理 を選択します。

AI アシスト処理の設定を行います。

以下の表に、主なパラメーターを示します。

パラメーター	説明
モデルプロバイダー	対応しているプロバイダーは、DataWorks モデルサービス、Aliyun Bailian、PAI モデルギャラリーです。
モデルエンドポイント	PAI モデルギャラリーを選択し、モデル呼び出しのエンドポイントを入力します。エンドポイントの取得方法については、「サービステストの実行」をご参照ください。
モデル名	知的なデータ処理を担当するモデルです。必要に応じて選択します。
API キー	モデルへのアクセスに使用する API キーです。モデルプロバイダーから取得してください。 Alibaba Cloud Model Studio：「Model Studio API キーの取得」をご参照ください。 Alibaba Cloud PAI-Marketplace：デプロイ済みの EAS タスクに移動し、「オンラインデバッグの開始」を実行してトークンを取得し、これを API キーとして入力します。
処理内容の説明	ソースフィールドに対する処理内容を自然言語で記述します。`#{column_name}` の形式でフィールド名を記述します。本例では、`「#{feedback_info}」を英語に翻訳` と入力します。
出力フィールド	結果を格納するフィールド名を入力します。該当フィールドが存在しない場合は、自動的に新規作成されます。

説明

本例では、ソーステーブルの feedback_info フィールドを英語に翻訳し、feedback_processed フィールドに格納します。

AI アシスト処理セクションの右上隅にある 出力データプレビュー をクリックして、最終的な出力データをプレビューできます。
（任意）複数のデータ処理フローを順次実行するように構成できます。

5. 宛先

データ同期の宛先テーブルの [スキーマ]、[テーブル]、[パーティション] などの情報を設定します。
- ターゲットテーブルスキーマの生成 をクリックして、ターゲットテーブルのスキーマを迅速に生成できます。
- 既に存在するターゲットテーブルがある場合は、それを選択できます。
書き込みモード および 書き込み競合戦略 を構成します。
Hologres テーブルの既存データを同期前に削除するかどうかを構成します。
（任意）最大接続数 を構成します。
最大接続数 の設定は、書き込みモードが SQL(INSERT INTO) の場合にのみ有効です。タスクを開始する際には、Hologres インスタンスに十分な空き接続数があることを確認してください。1 つのタスクで最大 9 接続まで使用できます。

6. ターゲットフィールドのマッピング

ソース、データ処理、ターゲットの構成が完了すると、ソーステーブルとターゲットテーブル間のフィールドマッピングが表示されます。デフォルトでは、フィールドは名前および位置に基づいてマッピングされます。必要に応じてマッピングを変更できます。

説明

本例では、既存のソーステーブルフィールド（id、device、feedback_info、pt）を名前でマッピングするのに加え、ソーステーブルの翻訳結果を格納する feedback_processed フィールドを、ターゲットテーブルの translate_feedback フィールドに手動でマッピングする必要があります。

3. タスクのテスト

オフライン同期タスク構成ページの右ペインで、Run Configuration をクリックします。テストに使用する リソースグループ および関連する スクリプトパラメーター を構成します。
ノード構成ページ上部のツールバーで、保存をクリックし、その後実行をクリックします。タスクの実行が完了したら、結果が正常であることを確認します。その後、ターゲットデータベースを確認して、テーブルデータが正しいことを検証できます。

4. スケジューリングの構成

オフライン同期ノードを定期的に実行するには、ページ右側の スケジューリング セクションで スケジューリングポリシー を設定し、関連するノードスケジューリングプロパティを構成する必要があります。

5. ノードの公開

ノードツールバーの公開アイコンをクリックして、公開フローを開始します。このフローにより、タスクが本番環境に公開されます。定期的なスケジューリングは、タスクが公開された後にのみ有効になります。

次のステップ：タスクの運用管理

ノードが公開された後、[データのバックフィル] をクリックするか、公開フローで O&M を実行できます。

データバックフィル：現在のノードのみのデータバックフィルに使用できます。より複雑なデータバックフィル機能については、オペレーションセンターをご利用ください。詳細については、「データバックフィルタスクの実行およびデータバックフィルインスタンスの表示（新）」をご参照ください。
実行 O&M: タスクが公開されると、オペレーションセンターによって自動的に管理されます。オペレーションセンターでは、タスクの実行状態を表示したり、手動で実行をトリガーしたりできます。詳細については、「オペレーションセンター」をご参照ください。