ユーザーレビュー、製品説明、カスタマーサポートログなどの非構造化テキストデータを処理することは、従来のデータパイプラインにおいて一般的な課題です。DataWorks のパイプライン内に、大規模言語モデル(LLM)の機能を直接活用できるようになりました。自然言語による命令を用いて、テキスト要約、感情分析、コンテンツ分類、情報抽出といった複雑な AI タスクを実行できます。このアプローチにより、データ処理が簡素化され、データエンジニアおよびアナリストは、複雑なアルゴリズムを記述することなく、既存の抽出・変換・書き出し(ETL)パイプラインに AI 機能を統合できます。
事前準備
DataWorks 内に大規模言語モデルサービスをデプロイします。詳細については、「モデルのデプロイ」をご参照ください。
モデルの選択およびリソース仕様は、モデルサービスのパフォーマンスおよび応答速度に直接影響します。また、モデルサービスには リソースグループ料金が発生します。
大規模言語モデルノードの構成
大規模言語モデルノードを実行するために、いくつかの設定を行います。
構成項目 | 説明 |
モデルサービス | 事前準備ステージでデプロイした大規模言語モデルサービスです。 |
モデル名 | 選択したモデルサービス内のモデルです。デフォルトで選択されます。 |
システムプロンプト | 大規模言語モデルのシステム動作(ロール、機能、行動規範など)を定義します。 パラメーターを取得するには、${param} 形式を使用できます。 |
ユーザー・プロンプト | 特定の質問または命令を入力します。DataWorks では、選択可能な 4 つのテンプレートが提供されています。 パラメーターを取得するには、${param} 形式を使用できます。 たとえば、次のようにプロンプトを記述できます:` |
簡単な使用例
この例では、パイプライン内で大規模言語モデルを活用し、上流ノードと下流ノード間でパラメーターを渡す方法を示します。
DataWorks 大規模言語モデルサービス にログインします。Qwen3-1.7B をベースにモデルサービスを作成します。リソースグループ には、現在のワークスペースにアタッチ済みのリソースグループを選択します。
Data Studio に移動し、以下のノードを含むパイプラインを作成します。

右下隅のツールバーで、代入ノードの言語モードを Shell に設定します。その後、次のコードを記述します。
詳細については、「代入ノード」をご参照ください。
echo 'DataWorks';LLM ノードを構成します。
構成済みのモデルサービスおよびモデル名を選択します。
ユーザー・プロンプトを以下のように構成します:
「${title}」について、${length} 文字以内で紹介文を作成してください。右側の構成ペインで、 に移動します。モデルサービス作成時に選択したリソースグループに変更します。
右側の構成ペインで、 に移動します。title パラメーターを追加し、その値を代入ノードの出力に設定します。length パラメーターを追加し、その値を静的フィールド「300」に設定します。
値入力ボックスの右側にある
をクリックして、上流ノードの出力をアタッチします。
MaxCompute SQL ノード を構成し、大規模言語モデルからの結果を出力します。
重要MaxCompute SQL ノード の構成には、MaxCompute 計算リソースのアタッチが必要です。該当リソースがない場合は、出力のデモンストレーションとして Shell ノードを使用できます。
コードを以下のように構成します:
select '${content}';右側の構成ペインで、 に移動します。モデルサービス作成時に選択したリソースグループに変更します。
右側の構成ペインで、 に移動します。content パラメーターを追加し、その値を llmtest ノードの出力に設定します。
値入力ボックスの右側にある
をクリックして、上流ノードの出力をアタッチします。
パイプラインに戻り、上部の 実行 ボタンをクリックし、ポップアップウィンドウで今回の実行に必要なパラメーターを入力します。
パイプラインが正常に実行された後、MaxCompute SQL ノード から、以下のような大規模言語モデルの出力結果が得られます。
DataWorks は、Alibaba Cloud が提供する企業向けデータ開発およびデータ管理プラットフォームです。大規模データ処理向けのデータ収集、データクリーニング、データ統合、スケジューリング、可視化をサポートします。 視覚的なインターフェイスを備え、さまざまなデータソースに接続可能であり、強力なタスクスケジューリングおよびデータ品質モニタリング機能を特徴としています。 リアルタイム処理およびバッチ処理の両方を扱うことができ、企業がデータを資産として管理し、業務効率を向上させることを支援します。 統一されたプロセスにより、データガバナンスおよびインテリジェント分析のための信頼性の高いデータパイプラインを構築できます。