AI Search Open Platform では、Alibaba の独自モデル基盤上に構築された RAG 専用の大規模モデルを含む、大規模モデルサービスへの API 呼び出しが可能です。このサービスは RAG シナリオに最適で、ドキュメント処理および取得サービスと併用することで、回答の精度を高め、ハルシネーション率を低減します。
サービス | サービス ID(service_id) | サービスの説明 | API 呼び出しの QPS 制限(Alibaba Cloud アカウントおよび RAM ユーザー向け) |
Qwen3-235B-A22B | qwen3-235b-a22b | このモデルは、広範にトレーニングされた新世代の Qwen シリーズ大規模言語モデル(LLM)です。 Qwen3 は、推論、指示の追従、エージェント機能、多言語サポートにおいて大きな進歩を遂げており、100 を超える言語と方言をサポートでき、強力な多言語理解、推論、生成機能を備えています。 | 3 説明 より高い QPS を申請するには、チケットを送信してください。 |
QwQ deepseek モデル | qwq-32b | このモデルは、Qwen2.5-32B モデルに基づいてトレーニングされた QwQ 推論モデルであり、強化学習を通じてモデルの推論機能を大幅に向上させます。このモデルの数学とコーディング(AIME 24/25 および LiveCodeBench)のパフォーマンスと、IFEval や LiveBench などの一部の一般的なパフォーマンス指標は、DeepSeek-R1 フルバージョンのレベルに達しています。 | |
OpenSearch-Qwen-Turbo | ops-qwen-turbo | qwen-turbo 大規模言語モデルを活用して教師ありファインチューニングを行い、取得機能を強化し、有害性を低減します。 | |
Qwen-Turbo | qwen-turbo | 高速かつ低コストで、単純なタスクに適した Qwen モデルです。 | |
Qwen-Plus | qwen-plus | 推論パフォーマンス、コスト、速度が Qwen-Max と Qwen-Turbo の間に位置するモデルで、中程度の複雑さのタスクに適しています。 | |
Qwen-Max | qwen-max | Qwen モデルの中で最高のパフォーマンスを備え、複雑で複数ステップのタスクに適した Qwen モデルです。 | |
DeepSeek-R1 | deepseek-r1 | 複雑な推論タスクに焦点を当てた LLM で、複雑な指示の理解と結果の精度の確保に優れており、Web 検索機能をサポートしています。 | |
DeepSeek-V3 | deepseek-v3 | 長いテキスト、コーディング、数学、百科事典的知識、中国語能力に優れた Mixture of Experts(MoE)モデルです。 | |
DeepSeek-R1-distill-qwen-7b | deepseek-r1-distill-qwen-7b | このモデルは、知識蒸留技術に基づいて DeepSeek-R1 によって生成されたトレーニングサンプルに基づいて Qwen-7B をファインチューニングすることによって得られます。 | |
DeepSeek-R1-distill-qwen-14b | deepseek-r1-distill-qwen-14b | このモデルは、知識蒸留技術に基づいて DeepSeek-R1 によって生成されたトレーニングサンプルに基づいて Qwen-14B をファインチューニングすることによって得られます。 |
前提条件
認証情報が取得されていること。
API を使用して AI Search Open Platform サービスを呼び出す場合は、呼び出し元の ID を認証する必要があります。
サービスアクセスアドレスが取得されていること。
インターネットまたは VPC(Virtual Private Cloud)経由でサービスを呼び出すことができます。 詳細については、「サービス登録アドレスを取得する」をご参照ください。
リクエストの説明
共通の説明
リクエストボディのサイズは 8 MB を超えることはできません。
HTTP リクエストメソッド
POST
URL
{host}/v3/openapi/workspaces/{workspace_name}/text-generation/{service_id}パラメーターの説明:
host:サービスを呼び出すためのアドレス。インターネットまたは VPC(Virtual Private Cloud)経由でサービスを呼び出すことができます。 詳細については、「サービスエンドポイントを照会する」をご参照ください。
workspace_name:ワークスペースの名前(例:default)。
service_id:システムの組み込みサービスの ID(例:ops-qwen-turbo)。
リクエストパラメーター
ヘッダーパラメーター
API キー認証
パラメーター | タイプ | 必須 | 説明 | 例 |
Content-Type | 文字列 | はい | リクエストタイプ。有効な値:application および json。 | application/json |
Authorization | 文字列 | はい | 認証用の API キー。 | Bearer OS-d1**2a |
ボディパラメーター
パラメーター | タイプ | 必須 | 説明 | 例 |
messages | リスト | はい | ユーザーとモデル間の会話履歴。各リスト要素は、「role」キーと「content」キーを持つ JSON オブジェクトです。「role」は「system」、「user」、または「assistant」です。
| |
stream | ブール値 | いいえ | ストリーミングモードで結果を返すかどうかを示します。デフォルトでは、false に設定されています。 このパラメーターを true に設定すると、各出力は、その時点までに生成されたシーケンス全体となり、最後の出力は最終的な完全な結果となります。 | false |
enable_search | ブール値 | いいえ | Web 検索を有効にするかどうかを示します。デフォルト値:false。 このパラメーターを true に設定すると、大規模モデルは組み込みのプロンプトを使用して Web 検索を有効にするかどうかを判断します。 説明 deepseek-r1 のみサポートされています。 | false |
csi_level | 文字列 | いいえ | コンテンツモデレーションフィルタリングレベル。デフォルト値:strict。 有効な値:
| strict |
parameters | マップ | いいえ | 大規模モデルリクエストの調整可能なパラメーターのセット。 | |
parameters.search_return_result | ブール値 | いいえ | このパラメーターは、enable_search を true に設定した場合にのみ有効になります。有効な値:
| false |
parameters.search_top_k | 整数 | いいえ | Web 検索によって返される出力の数。 説明 このパラメーターは、enable_search を true に設定した場合にのみ有効になります。このパラメーターは、deepseek-r1 モデルのみをサポートします。 | 5 |
parameters.search_way | 文字列 | いいえ | Web 検索戦略。Web 検索 API と同じです。
説明 このパラメーターは、enable_search を true に設定した場合にのみ有効になります。このパラメーターは、deepseek-r1 モデルのみをサポートします。 | normal |
parameters.seed | 整数 | いいえ | コンテンツ生成中に使用されるランダムシード。このパラメーターは、モデルによって生成されるコンテンツのランダム性を制御します。有効な値:64 ビット符号なし整数。ランダムシードを指定すると、モデルは各モデル呼び出しの出力に対して同じまたは類似のコンテンツを生成しようとします。ただし、モデルは、各モデル呼び出しで出力がまったく同じになることを保証できません。 | "parameters":{"seed":666} |
parameters.max_tokens | 整数 | いいえ | モデルによって生成できるトークンの最大数。 qwen-turbo モデルを使用する場合、最大値とデフォルト値は 1500 です。 qwen-max および qwen-plus モデルを使用する場合、最大値とデフォルト値は 2000 です。 | "parameters":{"max_tokens":1500} |
parameters.top_p | 浮動小数点数 | いいえ | 生成プロセスで使用される核サンプリング法の確率しきい値。たとえば、このパラメーターを 0.8 に設定すると、累積確率が少なくとも 0.8 になる最も可能性の高いトークンの最小サブセットのみが候補セットとして保持されます。有効な値:(0、1.0)。値が大きいほど、生成されるコンテンツのランダム性が高くなります。値が小さいほど、生成されるコンテンツのランダム性が低くなります。 | "parameters":{"top_p":0.7} |
parameters.top_k | 整数 | いいえ | 生成プロセス中にトークンがサンプリングされる候補セットのサイズ。たとえば、このパラメーターを 50 に設定すると、一度に生成されるスコアが最も高い 50 個のトークンのみがランダムサンプリングの候補セットとして使用されます。値が大きいほど、生成されるコンテンツのランダム性が高くなります。値が小さいほど、生成されるコンテンツの精度が高くなります。このパラメーターを空のままにするか、100 より大きい値に設定すると、top_k ポリシーは無効になります。この場合、top_p ポリシーのみが有効になります。 | "parameters":{"top_k":50} |
parameters.repetition_penalty | 浮動小数点数 | いいえ | モデルによって生成されるコンテンツの繰り返しレベル。値が大きいほど、繰り返しが少なくなります。値 1.0 はペナルティがないことを示します。このパラメーターには有効な値が指定されていません。このパラメーターを 0 より大きい値に設定することをお勧めします。 | "parameters":{"repetition_penalty":1.0} |
parameters.presence_penalty | 浮動小数点数 | いいえ | 生成されたコンテンツ内の単語の繰り返し。値が大きいほど、繰り返しが少なくなります。有効な値:[-2.0、2.0]。 | "parameters":{"presence_penalty":1.0} |
parameters.temperature | 浮動小数点数 | いいえ | モデルによって生成されるコンテンツのランダム性と多様性のレベル。具体的には、このパラメーターの値は、テキスト生成の各候補語の確率分布の滑らかさを決定します。値が大きいほど、確率分布のピーク値が小さくなります。この場合、低確率の単語がより多く選択され、生成されるコンテンツが多様化されます。値が小さいほど、確率分布のピーク値が大きくなります。この場合、高確率の単語がより多く選択され、生成されるコンテンツの精度が高くなります。 有効な値:[0、2)。このパラメーターを 0 に設定しないことをお勧めします。これは意味がありません。 | "parameters":{"temperature":0.85} |
parameters.stop | string/array | いいえ | モデルによって生成されるコンテンツの精度。モデルによって生成されるコンテンツに指定された文字列またはトークン ID が含まれそうになると、モデルはコンテンツの生成を自動的に停止します。このパラメーターの値は、文字列または配列です。
| "parameters":{"stop":["Hello","Weather"]} |
注:ops-qwen-turbo のトークン制限は最大 4000 です。
レスポンスパラメーター
パラメーター | タイプ | 説明 | 値の例 |
result.text | 文字列 | 現在のインタラクション中にモデルによって生成されたテキスト。 | 鄭州は… |
result.search_results | List<SearchResult> | Web 検索を有効にし、search_return_source を true に設定すると、Web 検索結果が返されます。 | [] |
result.search_results[].title | 文字列 | 検索結果のタイトル。 | 今日の鄭州の天気 |
result.search_results[].url | 文字列 | 検索結果リンク。 | https://xxxx.com |
result.search_results[].snippet | 文字列 | 検索結果の Web ページからのコンテンツの要約。 | 鄭州は晴れています。 |
usage.output_tokens | 整数 | モデルによって生成されたコンテンツのトークン数。 | 100 |
usage.input_tokens | 整数 | ユーザーの入力コンテンツのトークン数。 | 100 |
usage.total_tokens | 整数 | ユーザーの入力とモデルによって生成されたコンテンツの合計トークン数。 | 200 |
cURL リクエスト例
curl -X POST \
-H "Content-Type: application/json" \
-H "Authorization: Your API key" \
"http://xxxx-hangzhou.opensearch.aliyuncs.com/v3/openapi/workspaces/default/text-generation/qwen-max" \
-d '{
"messages":[
{
"role":"system",
"content":"You are an AI assistant." // AI アシスタントです。
},
{
"role":"user",
"content":"What is the capital of Henan Province?" // 河南省の省都はどこですか?
},
{
"role":"assistant",
"content":"Zhengzhou" // 鄭州
},
{
"role":"user",
"content":"What is the weather like in Zhengzhou?" // 鄭州の天気はどうですか?
}
],
"parameters":{
"search_return_result":true,
"search_top_k":5, //This parameter supports only the deepseek-r1 model. // このパラメーターは deepseek-r1 モデルのみをサポートします。
"search_way":"normal" // This parameter supports only the deepseek-r1 model. // このパラメーターは deepseek-r1 モデルのみをサポートします。
},
"stream":false,
"enable_search":true //Enable the web search feature. // Web 検索機能を有効にします。
}'レスポンス例
成功例
{
"request_id": "450fcb80-f796-****-8d69-e1e86d29aa9f",
"latency": 564.903929,
"result": {
"text":"According to the latest weather forecast, Zhengzhou will be cloudy during the day, with the temperature ranging from approximately 9°C to 19°C and a northeast wind at about level 2...." // 最新の天気予報によると、鄭州は日中曇りで、気温は約 9°C から 19°C の間で、北東の風がレベル 2 程度になります…。
"search_results":[
{
"url":"https://xxxxx.com",
"title":"xxxx", // xxxx
"snippet":" It is sunny in Zhengzhou." // 鄭州は晴れています。
}
]
},
"usage": {
"output_tokens": 934,
"input_tokens": 798,
"total_tokens": 1732
}
}エラー例
リクエスト中にエラーが発生した場合、出力はコードとメッセージによってエラーの理由を提供します。
{
"request_id": "45C8C9E5-6BCB-****-80D3-E298F788512B",
"latency": 0,
"code": "InvalidParameter",
"message": "JSON parse error: Unexpected character ..." // JSON 解析エラー:予期しない文字…
}ステータスコードの説明
詳細については、AI Search Open Platform の「ステータスコード」をご参照ください。