このトピックでは、OpenAI 互換インターフェイスまたは DashScope API を介して Qwen-MT モデルを呼び出す際の入出力パラメーターについて説明します。
リファレンス: 機械翻訳 (Qwen-MT)
OpenAI 互換
シンガポールリージョン
SDK 呼び出しの場合、base_url を https://dashscope-intl.aliyuncs.com/compatible-mode/v1 に設定します。
HTTP リクエストアドレス: POST https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions
米国 (バージニア) リージョン
SDK 呼び出しの場合、base_url を https://dashscope-us.aliyuncs.com/compatible-mode/v1 に設定します。
HTTP リクエストアドレス: POST https://dashscope-us.aliyuncs.com/compatible-mode/v1/chat/completions
北京リージョン
SDK 呼び出しの場合、base_url を https://dashscope.aliyuncs.com/compatible-mode/v1 に設定します。
HTTP リクエストアドレス: POST https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions
まず、API キーを取得し、API キーを環境変数として設定する (非公開予定、API キーの設定にマージ) 必要があります。OpenAI SDK を使用して呼び出しを行う場合は、SDK をインストールする必要があります。
リクエストボディ | 基本的な使用法PythonNode.jscurl各リージョンでリクエストエンドポイントと API キーが異なります。以下はシンガポールリージョンのリクエストエンドポイントです。 用語介入PythonNode.jscurl各リージョンでリクエストエンドポイントと API キーが異なります。以下はシンガポールリージョンのリクエストエンドポイントです。 翻訳メモリPythonNode.jscurl各リージョンでリクエストエンドポイントと API キーが異なります。以下はシンガポールリージョンのリクエストエンドポイントです。 ドメインプロンプティングPythonNode.jscurl各リージョンでリクエストエンドポイントと API キーが異なります。以下はシンガポールリージョンのリクエストエンドポイントです。 |
model モデル名。サポートされているモデル:qwen-mt-plus、qwen-mt-flash、qwen-mt-lite、qwen-mt-turbo。 | |
messages 大規模言語モデル (LLM) にコンテキストを提供するメッセージの配列。ユーザーメッセージのみがサポートされています。 | |
stream 応答をストリーミング出力モードで返すかどうかを指定します。 有効値:
説明 現在、qwen-mt-flash および qwen-mt-lite モデルのみが増分的にデータを返すことをサポートしています。返される各データチャンクには、新しく生成されたコンテンツのみが含まれます。qwen-mt-plus および qwen-mt-turbo モデルは、非増分的にデータを返します。返される各データチャンクには、これまでに生成されたシーケンス全体が含まれます。この動作は変更できません。例: I I didn I didn't I didn't laugh I didn't laugh after ... | |
stream_options ストリーミング出力の設定項目。このパラメーターは、 | |
max_tokens 生成するトークンの最大数。生成されたコンテンツがこの値を超えると、応答は切り捨てられます。 デフォルト値と最大値は、モデルの最大出力長です。詳細については、「モデルの選択」をご参照ください。 | |
seed 乱数シード。これにより、同じ入力とパラメーターで結果が再現可能になります。呼び出しで同じ 有効値: | |
temperature サンプリング温度。生成されるテキストの多様性を制御します。 温度の値が高いほど、テキストの多様性が高くなります。温度の値が低いほど、テキストの決定性が高くなります。 有効値: [0, 2) temperature と top_p の両方が、生成されるテキストの多様性を制御します。どちらか一方のみを設定してください。 | |
top_p ニュークリアスサンプリングの確率しきい値。生成されるテキストの多様性を制御します。 top_p の値が高いほど、テキストの多様性が高くなります。top_p の値が低いほど、テキストの決定性が高くなります。 有効値: (0, 1.0] temperature と top_p の両方が、生成されるテキストの多様性を制御します。どちらか一方のみを設定してください。 | |
top_k 生成中のサンプリングの候補セットのサイズ。たとえば、このパラメーターを 50 に設定すると、単一の生成で最もスコアの高い 50 トークンのみがランダムサンプリングの候補セットを形成するために使用されます。値が大きいほどランダム性が増します。値が小さいほど決定性が増します。値が None または 100 より大きい場合、top_k ポリシーは無効になり、top_p ポリシーのみが有効になります。 値は 0 以上である必要があります。 このパラメーターは標準の OpenAI パラメーターではありません。Python SDK を使用する場合、このパラメーターを extra_body オブジェクトに配置します。例: | |
repetition_penalty モデル生成中の連続したシーケンスにおける繰り返しのペナルティ。repetition_penalty の値が高いほど、繰り返しが減少します。1.0 の値はペナルティがないことを示します。値は 0 より大きい必要がありますが、厳密な値の範囲はありません。 このパラメーターは標準の OpenAI パラメーターではありません。Python SDK を使用する場合、このパラメーターを extra_body オブジェクトに配置します。例: | |
translation_options 設定する翻訳パラメーター。 このパラメーターは標準の OpenAI パラメーターではありません。Python SDK を使用する場合、このパラメーターを extra_body オブジェクトに配置します。例: |
チャット応答オブジェクト (非ストリーミング出力) | |
id リクエストの一意の ID。 | |
choices モデルによって生成されたコンテンツの配列。 | |
created リクエストが作成されたときの UNIX タイムスタンプ。 | |
model リクエストに使用されたモデル。 | |
object これは常に | |
service_tier このパラメーターは現在 | |
system_fingerprint このパラメーターは現在 | |
usage リクエストのトークン消費情報。 |
チャット応答チャンクオブジェクト (ストリーミング出力) | 増分出力非増分出力 |
id 呼び出しの一意の ID。各チャンクオブジェクトは同じ ID を持ちます。 | |
choices モデルによって生成されたコンテンツの配列。 | |
created リクエストが作成されたときの UNIX タイムスタンプ。各チャンクは同じタイムスタンプを持ちます。 | |
model リクエストに使用されたモデル。 | |
object これは常に | |
service_tier このパラメーターは現在 | |
system_fingerprint このパラメーターは現在 | |
usage リクエストによって消費されたトークン。これは |
DashScope
シンガポールリージョン
HTTP リクエストアドレス: POST https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/text-generation/generation
SDK 呼び出しの場合、base_url を次のように設定します:
Python コード
dashscope.base_http_api_url = 'https://dashscope-intl.aliyuncs.com/api/v1'Java コード
メソッド 1:
import com.alibaba.dashscope.protocol.Protocol; Generation gen = new Generation(Protocol.HTTP.getValue(), "https://dashscope-intl.aliyuncs.com/api/v1");メソッド 2:
import com.alibaba.dashscope.utils.Constants; Constants.baseHttpApiUrl="https://dashscope-intl.aliyuncs.com/api/v1";
米国 (バージニア) リージョン
HTTP リクエストアドレス: POST https://dashscope-us.aliyuncs.com/api/v1/services/aigc/text-generation/generation
SDK 呼び出しの場合、base_url を次のように設定します:
Python コード
dashscope.base_http_api_url = 'https://dashscope-us.aliyuncs.com/api/v1'Java コード
メソッド 1:
import com.alibaba.dashscope.protocol.Protocol; Generation gen = new Generation(Protocol.HTTP.getValue(), "https://dashscope-us.aliyuncs.com/api/v1");メソッド 2:
import com.alibaba.dashscope.utils.Constants; Constants.baseHttpApiUrl="https://dashscope-us.aliyuncs.com/api/v1";
北京リージョン
HTTP リクエストアドレス: POST https://dashscope.aliyuncs.com/api/v1/services/aigc/text-generation/generation
SDK 呼び出しに base_url を設定する必要はありません。デフォルト値は https://dashscope.aliyuncs.com/api/v1 です。
API キーを作成し、API キーを環境変数としてエクスポートする (このトピックは非公開予定であり、API キーの設定にマージされます) 必要があります。DashScope SDK を使用する場合は、DashScope SDK をインストールします。
リクエストボディ | 基本的な使用法PythonJavacurl各リージョンでリクエストエンドポイントと API キーが異なります。以下はシンガポールリージョンのリクエストエンドポイントです。 用語介入PythonJavacurl各リージョンでリクエストエンドポイントと API キーが異なります。以下はシンガポールリージョンのリクエストエンドポイントです。 翻訳メモリPythonJavacurl各リージョンでリクエストエンドポイントと API キーが異なります。以下はシンガポールリージョンのリクエストエンドポイントです。 ドメインプロンプティングPythonJavacurl各リージョンでリクエストエンドポイントと API キーが異なります。以下はシンガポールリージョンのリクエストエンドポイントです。 |
model モデル名。サポートされているモデル:qwen-mt-plus、qwen-mt-flash、qwen-mt-lite、qwen-mt-turbo。 | |
messages 大規模言語モデル (LLM) にコンテキストを提供するメッセージの配列。ユーザーメッセージのみがサポートされています。 | |
max_tokens 生成するトークンの最大数。生成されたコンテンツがこの値を超えると、応答は切り捨てられます。 デフォルト値と最大値は、モデルの最大出力長です。詳細については、「モデルの選択」をご参照ください。 Java SDK では、パラメーターは maxTokens です。HTTP 呼び出しの場合は、max_tokens を parameters オブジェクトに配置します。 | |
seed 乱数シード。これにより、同じ入力とパラメーターで結果が再現可能になります。呼び出しで同じ 有効値: HTTP 呼び出しを行う場合は、seed を parameters オブジェクトに配置します。 | |
temperature サンプリング温度。生成されるテキストの多様性を制御します。 温度の値が高いほど、テキストの多様性が高くなります。温度の値が低いほど、テキストの決定性が高くなります。 有効値: [0, 2) temperature と top_p の両方が、生成されるテキストの多様性を制御します。どちらか一方のみを設定してください。 HTTP 呼び出しを行う場合は、temperature を parameters オブジェクトに配置します。 | |
top_p ニュークリアスサンプリングの確率しきい値。生成されるテキストの多様性を制御します。 top_p の値が高いほど、テキストの多様性が高くなります。top_p の値が低いほど、テキストの決定性が高くなります。 有効値: (0, 1.0] temperature と top_p の両方が、生成されるテキストの多様性を制御します。どちらか一方のみを設定してください。 Java SDK では、パラメーターは topPparameters オブジェクトです。 | |
repetition_penalty モデル生成中の連続したシーケンスにおける繰り返しのペナルティ。repetition_penalty の値が高いほど、繰り返しが減少します。1.0 の値はペナルティがないことを示します。値は 0 より大きい必要がありますが、厳密な値の範囲はありません。 Java SDK では、パラメーターは repetitionPenalty です。HTTP 呼び出しの場合は、repetition_penalty を parameters オブジェクトに追加します。 | |
top_k 生成中のサンプリングの候補セットのサイズ。たとえば、このパラメーターを 50 に設定すると、単一の生成で最もスコアの高い 50 トークンのみがランダムサンプリングの候補セットを形成するために使用されます。値が大きいほどランダム性が増します。値が小さいほど決定性が増します。値が None または 100 より大きい場合、top_k ポリシーは無効になり、top_p ポリシーのみが有効になります。 値は 0 以上である必要があります。 Java SDK では、パラメーターは topK です。HTTP 呼び出しを行う場合は、top_k を parameters オブジェクトに設定します。 | |
stream 応答をストリーミング出力モードで返すかどうかを指定します。 有効値:
説明 現在、qwen-mt-flash および qwen-mt-lite モデルのみが増分的にデータを返すことをサポートしています。返される各データチャンクには、新しく生成されたコンテンツのみが含まれます。qwen-mt-plus および qwen-mt-turbo モデルは、非増分的にデータを返します。返される各データチャンクには、これまでに生成されたシーケンス全体が含まれます。この動作は変更できません。例: I I didn I didn't I didn't laugh I didn't laugh after ... このパラメーターは Python SDK でのみサポートされています。Java SDK でストリーミング出力を実装するには、 | |
translation_options 設定する翻訳パラメーター。 Java SDK では、パラメーターは |
チャット応答オブジェクト (ストリーミングおよび非ストリーミング出力で共通) | |
status_code リクエストのステータスコード。値が 200 の場合はリクエストが成功したことを示します。それ以外の場合は、リクエストが失敗したことを示します。 Java SDK はこのパラメーターを返しません。呼び出しが失敗した場合、例外がスローされます。例外メッセージには、status_code と message の内容が含まれます。 | |
request_id 呼び出しの一意の ID。 Java SDK では、返されるパラメーターは requestId | |
code エラーコード。呼び出しが成功した場合、これは空です。 Python SDK のみがこのパラメーターを返します。 | |
output 呼び出し結果に関する情報。 | |
usage リクエストのトークン使用情報。 |
エラーコード
モデルの呼び出しが失敗し、エラーメッセージが返された場合は、「エラーメッセージ」を参照して問題を解決してください。