AI Search Open Platform がサポートする LLM サービス - OpenSearch

AI Search Open Platform では、Alibaba の独自モデル基盤上に構築された RAG 専用の大規模モデルを含む、大規模モデルサービスへの API 呼び出しが可能です。このサービスは RAG シナリオに最適で、ドキュメント処理および取得サービスと併用することで、回答の精度を高め、ハルシネーション率を低減します。

サービス	サービス ID（service_id）	サービスの説明	API 呼び出しの QPS 制限（Alibaba Cloud アカウントおよび RAM ユーザー向け）
Qwen3-235B-A22B	qwen3-235b-a22b	このモデルは、広範にトレーニングされた新世代の Qwen シリーズ大規模言語モデル（LLM）です。 Qwen3 は、推論、指示の追従、エージェント機能、多言語サポートにおいて大きな進歩を遂げており、100 を超える言語と方言をサポートでき、強力な多言語理解、推論、生成機能を備えています。	3 説明より高い QPS を申請するには、チケットを送信してください。
QwQ deepseek モデル	qwq-32b	このモデルは、Qwen2.5-32B モデルに基づいてトレーニングされた QwQ 推論モデルであり、強化学習を通じてモデルの推論機能を大幅に向上させます。このモデルの数学とコーディング（AIME 24/25 および LiveCodeBench）のパフォーマンスと、IFEval や LiveBench などの一部の一般的なパフォーマンス指標は、DeepSeek-R1 フルバージョンのレベルに達しています。
OpenSearch-Qwen-Turbo	ops-qwen-turbo	qwen-turbo 大規模言語モデルを活用して教師ありファインチューニングを行い、取得機能を強化し、有害性を低減します。
Qwen-Turbo	qwen-turbo	高速かつ低コストで、単純なタスクに適した Qwen モデルです。
Qwen-Plus	qwen-plus	推論パフォーマンス、コスト、速度が Qwen-Max と Qwen-Turbo の間に位置するモデルで、中程度の複雑さのタスクに適しています。
Qwen-Max	qwen-max	Qwen モデルの中で最高のパフォーマンスを備え、複雑で複数ステップのタスクに適した Qwen モデルです。
DeepSeek-R1	deepseek-r1	複雑な推論タスクに焦点を当てた LLM で、複雑な指示の理解と結果の精度の確保に優れており、Web 検索機能をサポートしています。
DeepSeek-V3	deepseek-v3	長いテキスト、コーディング、数学、百科事典的知識、中国語能力に優れた Mixture of Experts（MoE）モデルです。
DeepSeek-R1-distill-qwen-7b	deepseek-r1-distill-qwen-7b	このモデルは、知識蒸留技術に基づいて DeepSeek-R1 によって生成されたトレーニングサンプルに基づいて Qwen-7B をファインチューニングすることによって得られます。
DeepSeek-R1-distill-qwen-14b	deepseek-r1-distill-qwen-14b	このモデルは、知識蒸留技術に基づいて DeepSeek-R1 によって生成されたトレーニングサンプルに基づいて Qwen-14B をファインチューニングすることによって得られます。

前提条件

認証情報が取得されていること。
API を使用して AI Search Open Platform サービスを呼び出す場合は、呼び出し元の ID を認証する必要があります。
サービスアクセスアドレスが取得されていること。
インターネットまたは VPC（Virtual Private Cloud）経由でサービスを呼び出すことができます。詳細については、「サービス登録アドレスを取得する」をご参照ください。

リクエストの説明

共通の説明

リクエストボディのサイズは 8 MB を超えることはできません。

HTTP リクエストメソッド

POST

URL

{host}/v3/openapi/workspaces/{workspace_name}/text-generation/{service_id}

パラメーターの説明:

host：サービスを呼び出すためのアドレス。インターネットまたは VPC（Virtual Private Cloud）経由でサービスを呼び出すことができます。詳細については、「サービスエンドポイントを照会する」をご参照ください。
workspace_name：ワークスペースの名前（例：default）。
service_id：システムの組み込みサービスの ID（例：ops-qwen-turbo）。

リクエストパラメーター

ヘッダーパラメーター

API キー認証

パラメーター	タイプ	必須	説明	例
Content-Type	文字列	はい	リクエストタイプ。有効な値：application および json。	application/json
Authorization	文字列	はい	認証用の API キー。	Bearer OS-d1**2a

ボディパラメーター

パラメーター	タイプ	必須	説明	例
messages	リスト	はい	ユーザーとモデル間の会話履歴。各リスト要素は、「role」キーと「content」キーを持つ JSON オブジェクトです。「role」は「system」、「user」、または「assistant」です。「system」：システムレベルのメッセージを示し、会話履歴の最初のメッセージ（messages[0]）のみ可能です。使用は任意ですが、存在する場合はリストの最初に配置する必要があります。「user」と「assistant」：ユーザーとモデル間の対話を示します。会話では交互に表示され、最後のメッセージは「user」からのメッセージです。
stream	ブール値	いいえ	ストリーミングモードで結果を返すかどうかを示します。デフォルトでは、false に設定されています。このパラメーターを true に設定すると、各出力は、その時点までに生成されたシーケンス全体となり、最後の出力は最終的な完全な結果となります。	false
enable_search	ブール値	いいえ	Web 検索を有効にするかどうかを示します。デフォルト値：false。このパラメーターを true に設定すると、大規模モデルは組み込みのプロンプトを使用して Web 検索を有効にするかどうかを判断します。説明 deepseek-r1 のみサポートされています。	false
csi_level	文字列	いいえ	コンテンツモデレーションフィルタリングレベル。デフォルト値：strict。有効な値： none loose strict rigorous	strict
parameters	マップ	いいえ	大規模モデルリクエストの調整可能なパラメーターのセット。
parameters.search_return_result	ブール値	いいえ	このパラメーターは、enable_search を true に設定した場合にのみ有効になります。有効な値： true：Web 検索結果を返します。 false：Web 検索結果を返しません。	false
parameters.search_top_k	整数	いいえ	Web 検索によって返される出力の数。説明このパラメーターは、enable_search を true に設定した場合にのみ有効になります。このパラメーターは、deepseek-r1 モデルのみをサポートします。	5
parameters.search_way	文字列	いいえ	Web 検索戦略。Web 検索 API と同じです。 normal（デフォルト）：大規模モデルを使用してクエリを書き直し、Web 検索を実行し、検索結果にベクターベースのフィルタリングを適用します。 fast：大規模モデルを使用してクエリを書き直し、Web 検索を実行します。検索結果はフィルタリングされません。 full：大規模モデルを使用してクエリを書き直し、Web 検索を実行し、大規模モデルを使用して検索結果を評価およびフィルタリングします。説明このパラメーターは、enable_search を true に設定した場合にのみ有効になります。このパラメーターは、deepseek-r1 モデルのみをサポートします。	normal
parameters.seed	整数	いいえ	コンテンツ生成中に使用されるランダムシード。このパラメーターは、モデルによって生成されるコンテンツのランダム性を制御します。有効な値：64 ビット符号なし整数。ランダムシードを指定すると、モデルは各モデル呼び出しの出力に対して同じまたは類似のコンテンツを生成しようとします。ただし、モデルは、各モデル呼び出しで出力がまったく同じになることを保証できません。	"parameters":{"seed":666}
parameters.max_tokens	整数	いいえ	モデルによって生成できるトークンの最大数。 qwen-turbo モデルを使用する場合、最大値とデフォルト値は 1500 です。 qwen-max および qwen-plus モデルを使用する場合、最大値とデフォルト値は 2000 です。	"parameters":{"max_tokens":1500}
parameters.top_p	浮動小数点数	いいえ	生成プロセスで使用される核サンプリング法の確率しきい値。たとえば、このパラメーターを 0.8 に設定すると、累積確率が少なくとも 0.8 になる最も可能性の高いトークンの最小サブセットのみが候補セットとして保持されます。有効な値：（0、1.0）。値が大きいほど、生成されるコンテンツのランダム性が高くなります。値が小さいほど、生成されるコンテンツのランダム性が低くなります。	"parameters":{"top_p":0.7}
parameters.top_k	整数	いいえ	生成プロセス中にトークンがサンプリングされる候補セットのサイズ。たとえば、このパラメーターを 50 に設定すると、一度に生成されるスコアが最も高い 50 個のトークンのみがランダムサンプリングの候補セットとして使用されます。値が大きいほど、生成されるコンテンツのランダム性が高くなります。値が小さいほど、生成されるコンテンツの精度が高くなります。このパラメーターを空のままにするか、100 より大きい値に設定すると、top_k ポリシーは無効になります。この場合、top_p ポリシーのみが有効になります。	"parameters":{"top_k":50}
parameters.repetition_penalty	浮動小数点数	いいえ	モデルによって生成されるコンテンツの繰り返しレベル。値が大きいほど、繰り返しが少なくなります。値 1.0 はペナルティがないことを示します。このパラメーターには有効な値が指定されていません。このパラメーターを 0 より大きい値に設定することをお勧めします。	"parameters":{"repetition_penalty":1.0}
parameters.presence_penalty	浮動小数点数	いいえ	生成されたコンテンツ内の単語の繰り返し。値が大きいほど、繰り返しが少なくなります。有効な値：[-2.0、2.0]。	"parameters":{"presence_penalty":1.0}
parameters.temperature	浮動小数点数	いいえ	モデルによって生成されるコンテンツのランダム性と多様性のレベル。具体的には、このパラメーターの値は、テキスト生成の各候補語の確率分布の滑らかさを決定します。値が大きいほど、確率分布のピーク値が小さくなります。この場合、低確率の単語がより多く選択され、生成されるコンテンツが多様化されます。値が小さいほど、確率分布のピーク値が大きくなります。この場合、高確率の単語がより多く選択され、生成されるコンテンツの精度が高くなります。有効な値：[0、2）。このパラメーターを 0 に設定しないことをお勧めします。これは意味がありません。	"parameters":{"temperature":0.85}
parameters.stop	string/array	いいえ	モデルによって生成されるコンテンツの精度。モデルによって生成されるコンテンツに指定された文字列またはトークン ID が含まれそうになると、モデルはコンテンツの生成を自動的に停止します。このパラメーターの値は、文字列または配列です。文字列モデルによって生成されるコンテンツに指定されたストップワードが含まれそうになると、モデルはコンテンツの生成を停止します。たとえば、このパラメーターを Hello に設定すると、モデルによって生成されるコンテンツに Hello が含まれそうになると、モデルはコンテンツの生成を停止します。配列配列の要素は、トークン ID、文字列、または要素がトークン ID である配列です。モデルによって生成されるトークンまたはトークンの ID が stop 配列に含まれている場合、モデルはコンテンツの生成を停止します。たとえば、トークン Hello の ID は 108386、トークン Weather の ID は 104307 です。 stop パラメーターの値が配列 `["Hello","Weather"]` または `[108386,104307]` に設定されている場合、コンテンツに Hello または Weather が含まれそうになると、モデルはコンテンツの生成を停止します。トークン Hello の ID は 108386、トークン There の ID は 103924、トークン I の ID は 35946、トークン Am Fine の ID は 101243 です。 stop パラメーターの値が配列 `[[108386, 103924],[35946, 101243]]` に設定されている場合、コンテンツに Hello There または I Am Fine が含まれそうになると、モデルはコンテンツの生成を停止します。注 stop パラメーターの値が配列に設定されている場合、配列にトークン ID と文字列の両方を含めることはできません。たとえば、stop パラメーターを `["Hello",104307]` に設定することはできません。	"parameters":{"stop":["Hello","Weather"]}

注：ops-qwen-turbo のトークン制限は最大 4000 です。

レスポンスパラメーター

パラメーター	タイプ	説明	値の例
result.text	文字列	現在のインタラクション中にモデルによって生成されたテキスト。	鄭州は…
result.search_results	List<SearchResult>	Web 検索を有効にし、search_return_source を true に設定すると、Web 検索結果が返されます。	[]
result.search_results[].title	文字列	検索結果のタイトル。	今日の鄭州の天気
result.search_results[].url	文字列	検索結果リンク。	https://xxxx.com
result.search_results[].snippet	文字列	検索結果の Web ページからのコンテンツの要約。	鄭州は晴れています。
usage.output_tokens	整数	モデルによって生成されたコンテンツのトークン数。	100
usage.input_tokens	整数	ユーザーの入力コンテンツのトークン数。	100
usage.total_tokens	整数	ユーザーの入力とモデルによって生成されたコンテンツの合計トークン数。	200

cURL リクエスト例

curl -X POST \
-H "Content-Type: application/json" \
-H "Authorization: Your API key" \
"http://xxxx-hangzhou.opensearch.aliyuncs.com/v3/openapi/workspaces/default/text-generation/qwen-max" \
-d '{
      "messages":[
      {
          "role":"system",
          "content":"You are an AI assistant." // AI アシスタントです。
      },
      {
          "role":"user",
          "content":"What is the capital of Henan Province?" // 河南省の省都はどこですか？
      },
      {
          "role":"assistant",
          "content":"Zhengzhou" // 鄭州
      },
      {
          "role":"user",
          "content":"What is the weather like in Zhengzhou?" // 鄭州の天気はどうですか？
      }
      ],
      "parameters":{
          "search_return_result":true,
          "search_top_k":5,  //This parameter supports only the deepseek-r1 model. // このパラメーターは deepseek-r1 モデルのみをサポートします。
          "search_way":"normal"  // This parameter supports only the deepseek-r1 model. // このパラメーターは deepseek-r1 モデルのみをサポートします。
      },
       "stream":false,
       "enable_search":true  //Enable the web search feature. // Web 検索機能を有効にします。
}'

レスポンス例

成功例

{
  "request_id": "450fcb80-f796-****-8d69-e1e86d29aa9f",
  "latency": 564.903929,
  "result": {
    "text":"According to the latest weather forecast, Zhengzhou will be cloudy during the day, with the temperature ranging from approximately 9°C to 19°C and a northeast wind at about level 2...." // 最新の天気予報によると、鄭州は日中曇りで、気温は約 9°C から 19°C の間で、北東の風がレベル 2 程度になります…。
     "search_results":[
      {
        "url":"https://xxxxx.com",
        "title":"xxxx", // xxxx
        "snippet":" It is sunny in Zhengzhou." // 鄭州は晴れています。
      }
    ]
   },
  "usage": {
      "output_tokens": 934,
      "input_tokens": 798,
      "total_tokens": 1732
  }
}

エラー例

リクエスト中にエラーが発生した場合、出力はコードとメッセージによってエラーの理由を提供します。

{
    "request_id": "45C8C9E5-6BCB-****-80D3-E298F788512B",
    "latency": 0,
    "code": "InvalidParameter",
    "message": "JSON parse error: Unexpected character ..." // JSON 解析エラー：予期しない文字…
}

ステータスコードの説明

詳細については、AI Search Open Platform の「ステータスコード」をご参照ください。