ユーザーレビュー、製品説明、カスタマーサービスログなどの非構造化テキストデータの処理は、従来のデータパイプラインにおける共通の課題です。DataWorks パイプライン内で大規模言語モデル (LLM) の能力を直接使用できるようになりました。自然言語の命令を使用して、テキスト要約、感情分析、コンテンツ分類、情報抽出などの複雑な AI タスクを実行します。このアプローチにより、データ処理が簡素化され、データエンジニアやアナリストは複雑なアルゴリズムを記述することなく、既存の抽出・変換・書き出し (ETL) パイプラインに AI 機能を統合できます。
準備
DataWorks で大規模言語モデルサービスをデプロイします。詳細については、「モデルをデプロイする」をご参照ください。
モデルの選択とリソース仕様は、モデルサービスのパフォーマンスと応答速度に直接影響します。さらに、モデルサービスにはリソースグループ料金が発生します。
大規模言語モデルノードの設定
いくつかの設定を構成して、大規模言語モデルノードを実行できます。
設定項目 | 説明 |
モデルサービス | 準備段階でデプロイした大規模言語モデルサービス。 |
モデル名 | 選択したモデルサービス内のモデル。これはデフォルトで選択されます。 |
システムプロンプト | 大規模言語モデルのロール、機能、行動規範など、システムの動作を定義します。 ${param} 形式を使用してパラメーターを取得できます。 |
ユーザープロンプト | 具体的な質問や命令を入力します。DataWorks は、選択可能な 4 つのテンプレートを提供します。 ${param} 形式を使用してパラメーターを取得できます。 たとえば、プロンプトを `Please select items that match |
簡単な例
この例では、パイプラインで大規模言語モデルを使用し、上流ノードと下流ノードの間でパラメーターを渡す方法を示します。
DataWorks 大規模言語モデルサービスにログインします。Qwen3-1.7B に基づいてモデルサービスを作成します。[リソースグループ] には、現在のワークスペースにアタッチされているリソースグループを選択します。
データ開発に移動し、次のノードを含むパイプラインを作成します。

右下隅のツールバーで、代入ノードの言語モードを Shell に設定します。次に、次のコードを記述します。
詳細については、「代入ノード」をご参照ください。
echo 'DataWorks';大規模言語モデルノードを設定します。
設定したモデルサービスとモデル名を選択します。
次のようにユーザープロンプトを設定します:
Write an introduction about ${title} with a word limit of ${length}.右側の設定ペインで、 に移動します。リソースグループを、モデルサービスの作成時に選択したものに変更します。
右側の設定ペインで、 に移動します。title パラメーターを追加し、その値を上流ノードの出力に設定します。length パラメーターを追加し、その値を静的フィールド 300 に設定します。
値の入力ボックスの右側にある
をクリックして、上流ノードからの出力をアタッチします。
MaxCompute SQL ノードを設定して、大規模言語モデルからの結果を出力します。
重要MaxCompute SQL ノードを設定するには、MaxCompute 計算リソースをアタッチする必要があります。お持ちでない場合は、Shell ノードを使用して出力をデモンストレーションできます。
次のようにコードを設定します:
select '${content}';右側の設定ペインで、 に移動します。リソースグループを、モデルサービスの作成時に選択したものに変更します。
右側の設定ペインで、 に移動します。content パラメーターを追加し、その値を上流ノードの出力に設定します。
値の入力ボックスの右側にある
をクリックして、上流ノードからの出力をアタッチします。
パイプラインに戻り、上部にある [実行] ボタンをクリックし、ポップアップウィンドウでこの実行のパラメーターを入力します。
パイプラインが正常に実行されると、MaxCompute SQL ノードは、次のような大規模言語モデルからの結果を出力します。
DataWorks は、Alibaba Cloud のエンタープライズ向けデータ開発および管理プラットフォームです。大規模なデータ処理のために、データ収集、クレンジング、統合、スケジューリング、および可視化をサポートします。 視覚的なインターフェイスを提供し、さまざまなデータソースに接続し、強力なタスクスケジューリングとデータ品質モニタリング機能を備えています。 DataWorks はリアルタイム処理とバッチ処理の両方を処理し、企業がデータを資産として管理し、効率を向上させるのに役立ちます。 その統一されたプロセスは、データガバナンスとインテリジェントな分析のための信頼性の高いデータパイプラインの構築に役立ちます。