リアルタイム推論の 50 % のコストで、大量のリクエストを非同期的に処理します。バッチ推論は OpenAI 互換であり、モデル評価、データラベリング、その他の一括ワークロードに適しています。
仕組み
タスクを送信します:リクエストを含む JSONL ファイルをアップロードします。
非同期で処理します:システムがバックグラウンドキューでタスクを処理します。コンソールまたは API を使用して、タスクの進捗とステータスをモニタリングします。
結果をダウンロードします:タスクが完了すると、システムは成功した応答を含む結果ファイルと、失敗の詳細を含むエラーファイルを生成します。
範囲
国際
国際のデプロイメント範囲を選択した場合、モデル推論の計算リソースは中国本土を除く世界中で動的にスケジュールされます。静的データは、選択したリージョンに保存されます。サポートされているリージョン:シンガポール。
サポートされるモデル:qwen-max、qwen-plus、qwen-flash、qwen-turbo。
中国本土
中国本土のデプロイメント範囲を選択した場合、モデル推論の計算リソースは中国本土内に限定されます。静的データは、選択したリージョンに保存されます。サポートされているリージョン:中国 (北京)。
サポートされるモデル:
テキスト生成モデル:Qwen-Max、Plus、Flash、Long の安定版および一部の
latest版。QwQ シリーズ (qwq-plus) および一部のサードパーティモデル (deepseek-r1、deepseek-v3.2、deepseek-v3) もサポートされています。マルチモーダルモデル:Qwen-VL-Max、Plus、Flash の安定版および一部の
latest版。Qwen-OCR モデルもサポートされています。テキスト埋め込みモデル:text-embedding-v4 モデル。
バッチ処理のシナリオでは、
qwen3.6-plus、qwen3.5-plus、およびqwen3.5-flashの各リクエストあたりの最大入力トークン数は 256 K です。一部のモデルは思考モードをサポートしています。このモードを有効にすると、思考用の
トークンが生成され、コストが増加します。qwen3.6-plusおよびqwen3.5シリーズのモデル(例:qwen3.5-plus、qwen3.5-flash)は、デフォルトで思考モードが有効になっています。ハイブリッド思考モデルを使用する場合は、enable_thinkingパラメーターを明示的に設定する必要があります。trueに設定するとモードが有効になり、falseに設定すると無効になります。
バッチ推論の実行
ステップ 1:入力ファイルの準備
タスクを作成する前に、次の要件を満たす JSONL ファイルを準備します。
形式:UTF-8 エンコードの JSONL(1 行につき 1 つの JSON オブジェクト)。
-
規模制限:1 ファイルあたり最大 50,000 件のリクエスト、最大 500 MB。
より大規模なデータセットは、別々のタスクに分割してください。
1 件あたりの制限:JSON オブジェクト 1 つあたり最大 6 MB、かつモデルのコンテキストウィンドウ内であること。
一貫性:すべてのリクエストは、同じモデル を使用する必要があります。
一意の識別子:各リクエストには一意の
custom_idフィールドを含める必要があります。この識別子は、出力ファイル内のリクエストとその結果を照合するために使用されます。
各 JSON オブジェクトは、次のスキーマに従う必要があります。
|
フィールド |
タイプ |
必須 |
説明 |
|
|
string |
はい |
ファイル内でのリクエストの一意の識別子 |
|
|
string |
はい |
HTTP メソッド。 |
|
|
string |
はい |
リクエストエンドポイント。 |
|
|
object |
はい |
|
サンプルファイル
{"custom_id":"1","method":"POST","url":"/v1/chat/completions","body":{"model":"qwen-max","messages":[{"role":"system","content":"You are a helpful assistant."},{"role":"user","content":"Hello!"}]}}
{"custom_id":"2","method":"POST","url":"/v1/chat/completions","body":{"model":"qwen-max","messages":[{"role":"system","content":"You are a helpful assistant."},{"role":"user","content":"What is 2+2?"}]}}
JSONL バッチ生成ツール
このツールを使用して、JSONL ファイルを迅速に生成できます。
ステップ 2:タスクの作成
バッチ推論 ページで、Create Batch をクリックします。
-
ダイアログボックスで、タスク名 と 説明 を入力し、Maximum Waiting Time(1~14 日)を設定して、JSONL ファイルをアップロードします。
Download Sample File をクリックしてテンプレートをダウンロードします。

準備ができたら、OK をクリックします。
ステップ 3:タスクのモニタリングと管理
-
表示:
タスクリストページで、各タスクの [進捗](処理済み/総リクエスト数)および 状態 を確認します。
タスク名または ID で検索するか、ワークスペースで絞り込んで特定のタスクを検索します。

-
管理:
キャンセル:実行中のタスクを Actions 列からキャンセルします。
トラブルシューティング:失敗したタスクについては、ステータスにカーソルを合わせてエラーの概要を表示し、詳細を確認するためにエラーファイルをダウンロードします。

ステップ 4:結果のダウンロード
タスクが完了したら、View Results をクリックして出力ファイルをダウンロードします:
結果ファイル:すべての成功したリクエストとその
response結果を含みます。エラーファイル(存在する場合):すべての失敗したリクエストとその
error詳細を含みます。
両方のファイルには、入力リクエストと結果を照合するための custom_id が含まれています。
ステップ 5:使用量統計の表示(任意)
モデルモニタリング ページで、バッチ推論の使用量統計をフィルターして表示します。
-
データ概要の表示:[期間](最大 30 日)を選択し、推論タイプ を Batches に設定して、以下を表示します。
モニタリングデータ:選択した期間における全モデルの集計統計(総呼び出し回数および失敗回数を含む)。
モデルリスト:各モデルの詳細メトリック(総呼び出し回数、失敗率、平均呼び出し持続時間など)。

30 日を超える推論データを表示するには、 [請求書] ページに移動してください。
モデル詳細の表示:Models で、特定のモデルの Actions をクリックし、監視 を選択して、呼び出し回数や使用量などの Call Statistics を表示します。

呼び出しデータはタスクが完了した時点で記録されます。実行中のタスクは、完了するまで呼び出しデータが表示されません。
モニタリングデータには 1~2 時間の遅延があります。
API リファレンス
OpenAI 互換 API を使用して、バッチタスクの作成および管理を自動化します。基本的なワークフローは次のとおりです。
-
POST /v1/filesを呼び出してファイルをアップロードし、返されたファイル ID を記録します。 タスクの作成 ステップ 1 で取得したファイル ID を使用して
POST /v1/batchesを呼び出し、返されたbatch_idを記録します。ステータスのポーリング
batch_idを使用してGET /v1/batches/{batch_id}をポーリングします。statusがcompletedになったら、output_file_idを記録してポーリングを停止します。結果のダウンロード
output_file_idを使用してGET /v1/files/{output_file_id}/contentを呼び出し、結果ファイルをダウンロードします。
バッチ API の完全な定義および例については、「OpenAI 互換 - バッチ(ファイル入力)」をご参照ください。
タスクライフサイクル
validating: システムがファイル形式(JSONL)およびリクエストの有効性を検証しています。
in_progress: システムがリクエストを処理しています。
completed: 結果ファイルおよびエラーファイルのダウンロード準備が完了しています。
failed: 検証に失敗しました(形式が正しくない、またはファイルが大きすぎる)。リクエストは実行されていません。
expired: タスクが最大待機時間を超過しました。タイムアウトを長く設定して新しいタスクを作成し、再試行してください。
cancelled: タスクが手動でキャンセルされました。開始されていないリクエストは終了されました。
課金
単価:すべての成功したリクエストの入力および出力トークンは、対応するモデルのリアルタイム推論価格の 50 % で課金されます。詳細については、「モデル一覧」をご参照ください。
課金範囲:
タスク内で正常に実行されたリクエストのみが課金対象となります。
ファイルの解析エラー、タスク実行の失敗、または行レベルのエラーにより失敗したリクエストは、課金されません。
キャンセルされたタスクについて、キャンセル前に正常に完了したリクエストは通常どおり課金されます。
バッチ推論は個別の課金項目です。AI 汎用節約プラン はサポートされていますが、サブスクリプション(その他の節約プラン)や 新規ユーザー向け無料クォータ などの割引は適用されません。また、コンテキストキャッシュ などの機能もサポートされていません。
qwen3.5-plus や qwen3.5-flash などの一部のモデルは、デフォルトで思考モードが有効になっています。このモードでは追加の思考トークンが生成され、出力トークン価格で課金されるため、コストが増加します。コストを抑えるには、タスクの複雑さに応じて `enable_thinking` パラメーターを設定してください。詳細については、「ディープシンキング」をご参照ください。
よくある質問
-
追加で何かを購入または有効にする必要がありますか?
いいえ。Model Studio を有効にして、従量課金でお使いいただけます。
-
タスクを送信した直後に失敗するのはなぜですか?
これは通常、ファイルレベルのエラーを示しており、推論リクエストは実行されていません。以下の点を確認してください。
ファイル形式:1 行につき 1 つの完全な JSON オブジェクトを含む厳密な JSONL 形式を使用していることを確認します。
ファイル規模:ファイルサイズおよび行数が制限を超えていないことを確認します。詳細については、「入力ファイルの準備」をご参照ください。
モデルの一貫性:
body.modelフィールドがすべてのリクエストで同一であり、モデルが選択したリージョンで利用可能であることを確認します。
-
バッチタスクの処理にはどのくらい時間がかかりますか?
処理時間はシステム負荷によって異なります。ピーク時にはタスクがキューに並ぶ可能性があります。結果は指定されたタイムアウト内に返されます。
エラーコード
呼び出しがエラーメッセージとともに失敗した場合は、「エラーメッセージ」をご参照ください。