バッチ API は、リアルタイムの応答を必要としないシナリオ向けに設計されています。大量のデータリクエストを非同期で処理し、コストはリアルタイム応答の価格のわずか 50% で、OpenAI と互換性があります。これにより、評価や大規模データのラベリングなどのバッチジョブに最適です。
ワークフロー
非同期バッチ処理:
タスクの送信:複数のリクエストを含むファイルをアップロードして、バッチタスクを作成します。
非同期処理:システムはバックグラウンドでキューからタスクを処理します。コンソールまたは API を使用して、タスクの進捗とステータスをクエリできます。
結果のダウンロード:タスクが完了すると、システムは成功した応答を含む結果ファイルと、失敗の詳細を含むエラーファイルを生成します。
利用可能リージョン
北京リージョン
サポート対象モデル:
テキスト生成モデル:Qwen Max、Plus、Flash、Long の安定版および一部の
latestバージョン。また、QwQ シリーズ (qwq-plus) および deepseek-r1、deepseek-v3 などのサードパーティモデルもサポートします。マルチモーダルモデル:Qwen VL Max、Plus、Flash の安定版および一部の
latestバージョン。また、Qwen OCR モデルもサポートします。テキスト埋め込みモデル:text-embedding-v4 モデル。
シンガポールリージョン
サポート対象モデル:qwen-max、qwen-plus、qwen-turbo。
クイックスタート
ステップ 1:バッチファイルの準備
次の要件を満たす UTF-8 エンコードの .jsonl ファイルを準備します。
フォーマット:1 行に 1 つの JSON オブジェクトを記述し、それぞれが個別のリクエストを表します。
サイズ制限:ファイルごとに最大 50,000 リクエスト、サイズは 500 MB 以下。
これらの制限を超えるファイルは、より小さなバッチに分割してください。
行制限:各 JSON オブジェクトは最大 6 MB で、モデルのコンテキストウィンドウ内に収まる必要があります。
一貫性:ファイル内のすべてのリクエストは、同じ API エンドポイント (
url) をターゲットとし、同じモデル (body.model)を使用する必要があります。一意の識別子:各リクエストには、ファイル内で一意の
custom_idが必要です。これは、完了後に結果を参照するために使用できます。
リクエスト例
以下のサンプルには、Qwen-Max に送信される 2 つのリクエストが含まれています:
{"custom_id":"1","method":"POST","url":"/v1/chat/completions","body":{"model":"qwen-max","messages":[{"role":"system","content":"You are a helpful assistant."},{"role":"user","content":"Hello!"}]}}
{"custom_id":"2","method":"POST","url":"/v1/chat/completions","body":{"model":"qwen-max","messages":[{"role":"system","content":"You are a helpful assistant."},{"role":"user","content":"What is 2+2?"}]}}JSONL バッチ生成ツール
このツールを使用して、JSONL ファイルを迅速に生成できます。パフォーマンスの問題を避けるため、一度に 10,000 行以上を処理しないでください。データ量が多い場合は、データをバッチで処理してください。
ステップ 2:バッチの作成
コンソールまたはバッチ API を通じてバッチタスクを作成および管理します。
コンソール
(1) バッチの作成
バッチ ページで、[バッチタスクの作成] をクリックします。
表示されるダイアログボックスで、[タスク名] と [タスクの説明] を入力します。[最大待機時間] (1〜14日) を設定し、JSONL ファイルをアップロードします。
テンプレートについては、[サンプルファイルのダウンロード] をクリックしてください。

[確認] をクリックします。
(2) バッチの表示と管理
表示:
タスクリストページには、各バッチの [進捗] (処理済みリクエスト数/総リクエスト数) と [ステータス] が表示されます。
バッチをすばやく見つけるには、タスク名または ID で検索するか、ワークスペースでフィルターします。

管理:
キャンセル:[操作] 列で `in_progress` ステータスのタスクをキャンセルします。
トラブルシューティング:`failed` ステータスのタスクについては、ステータスにカーソルを合わせると概要が表示されます。エラーファイルをダウンロードして詳細を確認します。

(3) 結果のダウンロードと分析
タスクが完了したら、[結果の表示] をクリックして出力ファイルをダウンロードします:
結果ファイル:すべての成功したリクエストとその
response結果が含まれます。エラーファイル (存在する場合):すべての失敗したリクエストとその
error詳細が含まれます。
両方のファイルには custom_id フィールドが含まれています。これを使用して、結果を元の入力データと照合し、結果を関連付けたり、エラーを特定したりします。
API
自動化と統合が必要な本番環境では、OpenAI 互換のバッチ API を使用します。主要なワークフロー:
バッチの作成
POST /v1/batchesエンドポイントを呼び出してタスクを作成し、返されたbatch_idを記録します。ステータスのポーリング
batch_idを使用してGET /v1/batches/{batch_id}エンドポイントをポーリングします。statusフィールドがcompletedに変わったら、返されたoutput_file_idを記録し、ポーリングを停止します。結果のダウンロード
output_file_idを使用してGET /v1/files/{output_file_id}/contentエンドポイントを呼び出し、結果ファイルをダウンロードします。
API 定義、パラメーター、コード例については、「バッチ API リファレンス」をご参照ください。
ステップ 3:データ統計の表示 (オプション)
モデル観測 ページで、バッチの使用状況統計をフィルターして表示します。
データ概要の表示:[時間] の範囲 (最大 30 日) を選択します。[推論タイプ] を [バッチ推論] に設定します:
モニタリングデータ:時間範囲内のすべてのモデルの集計統計 (総呼び出し数、総失敗数など)。
モデル:各モデルの詳細データ (総呼び出し数、失敗率、平均呼び出し時間など)。

30 日以上前の推論データを表示するには、請求書 ページに移動してください。
モデル詳細の表示:[モデル] リストで、特定のモデルの [操作] 列にある [モニタリング] をクリックして、その [呼び出し統計] の詳細 (総呼び出し回数や使用量など) を表示します。

バッチの使用状況データはタスク終了時間に記録され、1〜2 時間の遅延が発生する場合があります。`in_progress` のタスクは完了するまで利用できません。
モニタリングデータには 1〜2 時間の遅延があります。
バッチのステータス
validating:バッチファイルが JSONL 仕様および API フォーマット要件に対して検証されています。
in_progress:バッチファイルが検証され、処理中です。
completed:バッチが完了しました。出力ファイルとエラーファイルがダウンロード可能です。
failed:バッチファイルが検証プロセスに失敗しました。これは通常、無効な JSONL フォーマットやファイルサイズ超過などのファイルレベルのエラーが原因です。リクエストは処理されず、出力ファイルは生成されません。
expired:バッチが作成時に設定された最大待機時間内に完了できませんでした。より長い待機時間を設定してください。
cancelled:バッチがキャンセルされました。未処理のリクエストは終了します。
課金
単価:成功したリクエストの入力および出力トークンは、そのモデルの標準的な同期 API の 50% で課金されます。料金詳細:モデル。
範囲:
タスク内で正常に実行されたリクエストのみが課金されます。
ファイル解析の失敗、実行の失敗、または行レベルのリクエストエラーは課金されません。
キャンセルされたタスクの場合、キャンセル前に正常に完了したリクエストは引き続き課金されます。
バッチは別途課金され、節約プラン、新規ユーザー無料クォータ、または コンテキストキャッシュなどの機能はサポートしていません。
よくある質問
バッチ推論を使用するために、追加で何かを購入したり有効にしたりする必要はありますか?
いいえ。Alibaba Cloud Model Studio を有効にすると、API キーでバッチ API を呼び出すことができます。使用量は従量課金で請求され、アカウント残高から差し引かれます。
なぜタスクが送信直後に失敗するのですか (ステータスが
failedに変わる)?これは通常、ファイルレベルのエラーが原因です。以下を確認してください:
フォーマット:ファイルは厳密な JSONL フォーマットである必要があり、1行に1つの完全な JSON オブジェクトが含まれている必要があります。
サイズ:ファイルサイズと行数が「ステップ 1:バッチファイルの準備」の制限を超えていないこと。
モデルの一貫性:ファイル内のすべてのリクエストで
body.modelが同一である必要があります。モデルとリージョンはバッチをサポートしている必要があります。
タスクの処理にはどのくらい時間がかかりますか?
システムの負荷によって異なります。負荷が高い場合、バッチはリソースを待つためにキューで待機することがあります。バッチが成功するか失敗するかにかかわらず、結果は設定した最大待機時間内に返されます。
エラーコード
呼び出しが失敗し、エラーメッセージが返された場合は、「エラーメッセージ」でソリューションをご参照ください。