Use large language models - DataWorks - Alibaba Cloud ドキュメントセンター

モデルをデプロイした後、ネットワーク接続が利用可能であれば、同じリージョン内の任意の DataWorks ワークスペースでそのモデルを使用できます。このトピックでは、デプロイされた大規模言語モデルを DataWorks で呼び出して使用する方法について説明します。

前提条件

Serverless リソースグループが DataWorks ワークスペースにアタッチされていること。
Serverless リソースグループに大規模言語モデルサービスがデプロイされていること。詳細については、「大規模言語モデルのデプロイ」をご参照ください。

事前準備

モデルを呼び出す前に、アプリケーションがご利用の大規模言語モデルサービスにアクセスできることを確認してください。モデルを呼び出すには、まずサービス呼び出しアドレスと ID 認証用の API キーを取得する必要があります。

1. ネットワーク接続の構成

モデルの呼び出しに使用する DataWorks リソースグループにアタッチされている Virtual Private Cloud (VPC) が、モデルサービスに接続できる VPC のリストに含まれていることを確認します。

リソースグループにアタッチされている最初の VPC を表示します。
1. DataWorks リソースグループリストページに移動します。上部のナビゲーションバーで、対象のリソースグループが配置されているリージョンに切り替えます。次に、リストから対象のリソースグループを見つけます。
2. 対象リソースグループの [操作] 列で、[ネットワーク設定] をクリックして [VPC バインディング] ページを開きます。
3. データスケジューリングおよびデータ統合 以下で、VSwitch CIDR ブロック を表示できます。
  重要
  大規模言語モデルを呼び出す際には、リソースグループのネットワーク構成にリストされている最初の VPC を通信に使用する必要があります。
接続可能な VPC のリストを表示したり、モデルサービスのネットワークバインディングを追加したりするには、「モデルネットワークの管理」をご参照ください。

2. 呼び出し情報の取得

モデルがデプロイされると、内部の同一リージョンエンドポイントが自動的に生成されます。モデルサービスの詳細ページに移動して、このエンドポイントを取得できます。ドメイン名のフォーマットは http://<model-service-id>.<region>.dataworks-model.aliyuncs.com です。エンドポイントの取得方法の詳細については、「モデルサービスの表示」をご参照ください。

3. API キーの取得

権限認証用の API キーを取得するには、「API キーの管理」をご参照ください。

大規模言語モデルサービスの呼び出し

Data Integration と Data Studio で大規模言語モデルを呼び出して、インテリジェントなデータ処理を実行できます。

Data Integration での呼び出し

単一テーブルオフライン同期タスクでは、大規模言語モデルサービスを使用して、同期中にデータに対してAI 支援処理を実行できます。

Data Studio での呼び出し

1. 大規模言語モデルノードでの大規模言語モデルの呼び出し

DataWorks の Data Studio (新バージョン) では、大規模言語モデルノードを使用してデータを処理できます。大規模言語モデルノードでは、大規模言語モデルサービスを構成し、モデルを呼び出すことができます。

2. Shell ノードでの大規模言語モデルの呼び出し

この例では、Shell ノードで大規模言語モデルを呼び出して、特定の質問に回答する方法を示します。

Shell ノードを作成し、次のサンプルコマンドをノードに追加します。
説明
http で始まる大規模言語モデルサービスの呼び出しアドレスと、DW で始まるトークンを、「事前準備」セクションで取得した実際の値に置き換えてください。
```
curl -X POST http://ms-xxx.cn-beijing.dataworks-model.aliyuncs.com/v1/completions -H "Authorization: DW-ms-xxx" -H "Content-Type: application/json" -d '{"prompt":"AI、機械学習、ディープラーニングの違いと関連性は何ですか？", "stream":"false", "max_tokens": 1024}' -v    
```
ノードの内容を編集した後、ノードエディターの右側にある Run Configuration セクションで、モデルサービスへのネットワーク接続設定が完了しているリソースグループを選択します。
[実行] をクリックして、デプロイされたモデルサービスを呼び出し、コマンドを実行します。
説明
- ノードのスケジューリング設定：モデルサービスを呼び出すノードを定期的に実行する場合は、右側の [スケジューリング] セクションに移動します。モデルサービスとのネットワーク接続設定が完了しているリソースグループを選択します。次に、[スケジューリングポリシー] セクションでスケジューリングプロパティを設定します。
- ノードの公開：タスクを本番環境で実行する必要がある場合は、アイコンをクリックしてタスクを公開します。ノードは、本番環境に公開された後にのみ定期的に実行されます。

3. Python ノードでの大規模言語モデルの呼び出し

この例では、Python ノードで大規模言語モデルを呼び出して、命令に従って詩を作成する方法を示します。

この例は、Python の requests ライブラリに依存しています。次のパラメーターを使用して、DataWorks の公式イメージに基づいてカスタムイメージを作成し、依存関係をインストールします。

カスタムイメージパラメーター	設定の説明
イメージ名/ID	DataWorks イメージリストから Python ノードに適したイメージを選択できます。
サポートされるタスクタイプ	Python を選択します。
パッケージ	Python 3： `requests`。スクリプト： `/home/tops/bin/pip3 install 'urllib3<2.0'`。

Python ノードを作成し、次のサンプルコードをノードに追加します。

説明

http で始まる大規模言語モデルサービスの呼び出しアドレスと、DW で始まるトークンを、「事前準備」セクションで取得した実際の値に置き換えてください。

import requests
import json
import time
import sys

def stream_print_response():
    httpUrl = "http://ms-xxxx.cn-beijing.dataworks-model.aliyuncs.com"
    apikey = "DW-ms-xxxx"
    url = httpUrl + "/v1/completions"
    headers = {
        "Authorization": apikey,
        "Content-Type": "application/json"
    }
    data = {
        "prompt": "春についての詩を書いてください",
        "stream": True,
        "max_tokens": 512
    }

    try:
        response = requests.post(url, headers=headers, json=data, stream=True)
        response.raise_for_status()

        full_text = ""  # 完全な応答を蓄積して損失を防ぎます。
        buffer = ""     # 不完全な JSON 行を処理するために使用します (任意)。

        for line in response.iter_lines():
            if not line:
                continue  # 空行をスキップします。

            line_str = line.decode('utf-8').strip()
            # print(f"[DEBUG] Received line: {line_str}")  # デバッグ用。

            if line_str.startswith("data:"):
                data_str = line_str[5:].strip()  # "data: " を削除します。

                if data_str == "[DONE]":
                    print("\n[ストリーム応答が終了しました]")
                    break

                # JSON の解析を試みます。
                try:
                    parsed = json.loads(data_str)
                    choices = parsed.get("choices", [])
                    if choices:
                        delta_text = choices[0].get("text", "")
                        if delta_text:
                            # 全文に蓄積します。
                            full_text += delta_text

                            # 新しい文字を 1 つずつ出力します。
                            for char in delta_text:
                                print(char, end='', flush=True)
                                sys.stdout.flush()
                                time.sleep(0.03)  # タイプライター効果。

                except json.JSONDecodeError as e:
                    # print(f"[WARNING] JSON parsing failed: {e}, original text: {data_str}")
                    continue

        print(f"\n\n[完全な応答の長さ: {len(full_text)} 文字]")
        print(f"[ 全文]:\n{full_text}")

    except requests.exceptions.RequestException as e:
        print(f" リクエストに失敗しました: {e}")
    except Exception as e:
        print(f" その他のエラー: {e}")

if __name__ == "__main__":
    stream_print_response()

ノードの内容を編集した後、ノードエディターの右側にある Run Configuration セクションで、ネットワーク接続設定が完了しているリソースグループと、ステップ 1 で作成した requests ライブラリがインストールされているカスタム [イメージ] を選択します。
[実行] をクリックして、デプロイされたモデルサービスを呼び出し、コマンドを実行します。
説明
- ノードのスケジューリング設定：モデルサービスを呼び出すノードを定期的に実行するには、右側の [スケジューリング設定] セクションに移動します。ネットワーク接続設定が完了しているリソースグループと、ステップ 1 で作成した requests ライブラリがインストールされているカスタム [イメージ] を選択します。次に、[スケジューリングポリシー] セクションでスケジューリングプロパティを設定します。
- ノードの公開：タスクを本番環境で実行する必要がある場合は、アイコンをクリックしてタスクを公開します。ノードは、本番環境に公開された後にのみ定期的に実行されます。

ベクトルモデルサービスの呼び出し

Data Integration と Data Studio で大規模言語モデルを呼び出して、データをベクトル化できます。以下の例では、DataWorks リソースグループにデプロイされたベクトルモデルサービス (BGE-M3) を呼び出す方法を示します。

Data Integration での呼び出し

単一テーブルオフライン同期タスクでは、大規模言語モデルサービスを使用して、同期中にデータのベクトル化を実行できます。

Data Studio での呼び出し

1. 大規模言語モデルノードでのベクトルモデルサービスの呼び出し

DataWorks の Data Studio (新バージョン) では、大規模言語モデルノードを使用してデータを処理できます。大規模言語モデルノードでは、大規模言語モデルサービスを構成し、ベクトルモデルを呼び出すことができます。

2. Shell ノードでのベクトルモデルの呼び出し

この例では、Shell ノードでベクトルモデルを呼び出して、テキストをベクトルに変換する方法を示します。

Shell ノードを作成し、次のサンプルコマンドをノードに追加します。
説明
http で始まる大規模言語モデルサービスの呼び出しアドレスと、DW で始まるトークンを、「事前準備」セクションで取得した実際の値に置き換えてください。
```
curl -X POST "http://ms-xxx.cn-beijing.dataworks-model.aliyuncs.com/v1/embeddings" \
  -H "Authorization: DW-ms-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "input": "This is a piece of text that needs to be converted into a vector",
    "model": "bge-m3"
      }'
```
ノードの内容を編集した後、ノードエディターの右側にある Run Configuration セクションで、モデルサービスのネットワーク接続設定が完了しているリソースグループを選択します。
[実行] をクリックしてコマンドを実行し、デプロイされたモデルサービスを呼び出します。
説明
- ノードのスケジューリング設定：モデルサービスを呼び出すノードを定期的に実行するには、右側の [スケジューリング] セクションに移動します。モデルサービスのネットワーク接続設定が完了しているリソースグループを選択します。次に、[スケジューリングポリシー] セクションでスケジューリングプロパティを設定します。
- ノードの公開：タスクを本番環境で実行する必要がある場合は、アイコンをクリックしてタスクを公開します。ノードは、本番環境に公開された後にのみ定期的に実行されます。

3. Python ノードでのベクトルモデルの呼び出し

この例では、Python ノードでベクトルモデルを呼び出して、テキストをベクトルに変換する方法を示します。

カスタムイメージパラメーター	設定の説明
イメージ名/ID	DataWorks イメージリストから Python ノードに適したイメージを選択できます。
サポートされるタスクタイプ	Python を選択します。
パッケージ	Python 3： `requests`。スクリプト： `/home/tops/bin/pip3 install 'urllib3<2.0'`。

Python ノードを作成し、次のサンプルコードをノードに追加します。

説明

import requests
import json
import sys

# ご利用の API アドレスとトークンに置き換えてください。
api_url = "http://ms-xxx.cn-beijing.dataworks-model.aliyuncs.com" + "/v1/embeddings"
token = "DW-ms-xxx"

print("api_url:"+api_url)
print("token:"+token)

headers = {
    "Authorization": f"{token}",
    "Content-Type": "application/json"
}

payload = {
    "input": "Test text",
    "model": "bge-m3"
}

try:
    response = requests.post(api_url, headers=headers, data=json.dumps(payload))
    print("Response status code:", response.status_code)
    print("Response content:", response.text)  # 詳細なエラーメッセージを表示します。
except Exception as e:
    print("Request exception:", e)

ノードの内容を編集した後、ノードエディターの右側にある Run Configuration セクションで、ネットワーク接続設定が完了しているリソースグループと、ステップ 1 で作成した requests ライブラリがインストールされているカスタム [イメージ] を選択します。
[実行] をクリックしてコマンドを実行し、デプロイされたモデルサービスを呼び出します。
説明
- ノードのスケジューリング設定：モデルサービスを呼び出すノードを定期的に実行するには、右側の [スケジューリング設定] セクションに移動します。モデルサービスへのネットワーク接続設定が完了しているリソースグループを選択します。次に、[スケジューリングポリシー] セクションでスケジューリングプロパティを設定します。
- ノードの公開：タスクを本番環境で実行する必要がある場合は、アイコンをクリックしてタスクを公開します。ノードは、本番環境に公開された後にのみ定期的に実行されます。

DataWorks:大規模言語モデルの使用

前提条件

事前準備

1. ネットワーク接続の構成

2. 呼び出し情報の取得

3. API キーの取得

大規模言語モデルサービスの呼び出し

Data Integration での呼び出し

Data Studio での呼び出し

1. 大規模言語モデルノードでの大規模言語モデルの呼び出し

2. Shell ノードでの大規模言語モデルの呼び出し

3. Python ノードでの大規模言語モデルの呼び出し

ベクトルモデルサービスの呼び出し

Data Integration での呼び出し

Data Studio での呼び出し

1. 大規模言語モデルノードでのベクトルモデルサービスの呼び出し

2. Shell ノードでのベクトルモデルの呼び出し

3. Python ノードでのベクトルモデルの呼び出し

関連資料