すべてのプロダクト
Search
ドキュメントセンター

Alibaba Cloud Model Studio:バッチ推論

最終更新日:Mar 26, 2026

リアルタイム推論コストの 50 % で、大量のリクエストを非同期的に処理します。バッチ推論は OpenAI 互換であり、モデル評価、データラベル付け、その他の一括ワークロードに最適です。

ワークフロー

ワークフロー:

  1. タスクを送信: 複数のリクエストを含むファイルをアップロードします。

  2. 非同期処理: システムはバックグラウンドのキューでタスクを処理します。コンソールまたは API を通じて、タスクの進捗状況およびステータスを監視できます。

  3. 結果のダウンロード: タスクが完了すると、システムは成功した応答を含む結果ファイルと、失敗に関する詳細情報を含むエラーファイルを生成します。

可用性

国際

国際デプロイモード」では、エンドポイントおよびデータストレージの両方が シンガポール リージョンに配置されます。モデル推論の計算リソースは、中国本土を除くグローバルなリージョン間で動的にスケジュールされます。

サポートされるモデル: qwen-max、qwen-plus、qwen-flash、qwen-turbo。

中国本土

中国本土デプロイモード」では、エンドポイントおよびデータストレージの両方が 中国 (北京) リージョンに配置されます。モデル推論の計算リソースは、中国本土内でのみ利用可能です。

サポートされるモデル:

  • テキスト生成モデル: Qwen-Max、Plus、Flash、Long の安定版および一部の latest バージョン。QwQ シリーズ (qwq-plus) および一部のサードパーティモデル (deepseek-r1、deepseek-v3) もサポートされています。

  • マルチモーダルモデル: Qwen-VL-Max、Plus、Flash の安定版および一部の latest バージョン。Qwen-OCR モデルもサポートされています。

  • テキスト埋め込みモデル: text-embedding-v4。

サポートされるモデル名

重要
  • 一部のモデルは思考モードをサポートしています。このモードを有効化すると、思考 トークン が生成され、コストが増加します。

  • qwen3.5 シリーズ (例: qwen3.5-plus および qwen3.5-flash) では、思考モードがデフォルトで有効化されています。ハイブリッド思考モデルを使用する場合、enable_thinking パラメーター (true または false) を明示的に設定してください。

操作手順

ステップ 1: 入力ファイルの準備

タスクを作成する前に、以下の要件を満たすファイルを準備してください:

  • フォーマット: UTF-8 エンコーディングの JSONL (各行に独立した JSON オブジェクトを 1 つずつ記述)。

  • 規模制限: ファイルあたり最大 50,000 リクエスト、最大 500 MB。

    より大規模なデータセットは、別々のタスクに分割してください。
  • 1 リクエストあたりの制限: 各 JSON オブジェクトは最大 6 MB まで、かつモデルのコンテキストウィンドウ内に収める必要があります。

  • 一貫性: すべてのリクエストで同じモデル を使用する必要があります。

  • 一意の識別子: 各リクエストには、ファイル内で一意である custom_id フィールドを含める必要があります。この識別子は、リクエストとその結果を照合するために使用されます。

サンプルファイル

サンプルファイル test_model.jsonl をダウンロードできます。

{"custom_id":"1","method":"POST","url":"/v1/chat/completions","body":{"model":"qwen-max","messages":[{"role":"system","content":"You are a helpful assistant."},{"role":"user","content":"Hello!"}]}}
{"custom_id":"2","method":"POST","url":"/v1/chat/completions","body":{"model":"qwen-max","messages":[{"role":"system","content":"You are a helpful assistant."},{"role":"user","content":"What is 2+2?"}]}}

JSONL バッチ生成ツール

このツールを使用して、JSONL ファイルをすばやく生成できます。

JSONL バッチ生成ツール
モードを選択してください:

ステップ 2: タスクの送信および結果の確認

(1) タスクの作成

  1. バッチ推論 ページで、Create Batch をクリックします。

  2. ダイアログボックスで、タスク名 および 説明 を入力し、Maximum Waiting Time (1~14 日) を設定して、JSONL ファイルをアップロードします。

    Download Sample File をクリックして、テンプレートをダウンロードできます。

    image

  3. 準備ができたら、OK をクリックします。

タスクの表示および管理

  • 表示:

    • タスクリストページで、各タスクの [進捗状況] (処理済み/合計リクエスト数) および 状態 を確認できます。

    • タスク名または ID で検索するか、ワークスペースでフィルターを適用して、特定のタスクをすばやく見つけられます。image

  • 管理:

    • キャンセル: Actions 列から実行中のタスクをキャンセルできます。

    • トラブルシューティング: 失敗したタスクについては、ステータス上にカーソルを合わせるとエラーの概要が表示され、詳細情報の確認のためにエラーファイルをダウンロードできます。image

結果のダウンロードおよび分析

タスクが完了すると、View Results をクリックして出力ファイルをダウンロードできます:image

  • 結果ファイル: 成功したすべてのリクエストおよびその 応答 結果を含みます。

  • エラーファイル (該当する場合): 失敗したすべてのリクエストおよびその エラー 詳細を含みます。

両方のファイルには、入力リクエストと結果を照合するための custom_id が含まれています。

ステップ 3: 使用統計の表示 (任意)

モデルモニタリング ページで、バッチ推論の使用統計をフィルターして表示できます。

  • データ概要の表示: [時間] (最大 30 日) を選択し、推論タイプBatches に設定すると、以下が表示されます:

    • モニタリングデータ: 選択された期間におけるすべてのモデルの概要統計 (合計呼び出し数および失敗数を含む)。

    • モデルリスト: 各モデルの詳細メトリック (合計呼び出し数、失敗率、平均呼び出し時間など)。

    image

    30 日を超える推論データを表示するには、「請求書」ページに移動してください。
  • モデルの詳細表示: Models で、特定のモデルの Actions をクリックし、「監視」を選択して、「Call Statistics」 (呼び出し回数および使用量など) を表示します。image

重要
  • 呼び出しデータは、タスクが完了したときに記録されます。実行中のタスクについては、完了するまで呼び出しデータは表示されません。

  • モニタリングデータには 1~2 時間の遅延があります。

API リファレンス

OpenAI 互換 API を使用して、バッチタスクの作成および管理を自動化できます。基本的なワークフローは以下のとおりです:

  1. ファイルのアップロード

    POST /v1/files を呼び出してファイルをアップロードし、返されたファイル ID を記録します。

  2. タスクの作成
    アップロード時のファイル ID または OSS パス

  3. ステータスのポーリング
    batch_id を使用して GET /v1/batches/{batch_id} エンドポイントをポーリングします。status フィールドが completed に変更されたら、output_file_id を記録してポーリングを停止します。

  4. 結果のダウンロード
    output_file_id を使用して GET /v1/files/{output_file_id}/content エンドポイントを呼び出して結果ファイルをダウンロードします。

完全なバッチ API 定義およびサンプルについては、「OpenAI 互換 - バッチ (ファイル入力)」をご参照ください。

タスクライフサイクル

  • validating: システムがファイル形式 (JSONL) およびリクエストの有効性を検証しています。

  • in_progress: システムがリクエストを処理しています。

  • completed: 結果ファイルおよびエラーファイルのダウンロードが可能です。

  • failed: 検証に失敗しました (不正な形式またはファイルサイズ超過)。リクエストは実行されていません。

  • expired: タスクが最大待機時間を超過しました。再試行するには、タイムアウト時間を長く設定した新しいタスクを作成してください。

  • cancelled: タスクが手動でキャンセルされました。未開始のリクエストは終了しました。

課金

  • 単価: 成功したすべてのリクエストの入力および出力トークンは、対応するモデルのリアルタイム推論価格の 50 % で課金されます。詳細については、「モデル一覧」をご参照ください。

  • 課金対象範囲:

    • タスク内で正常に実行されたリクエストのみが課金対象となります。

    • ファイル解析エラー、タスク実行失敗、または行レベルのエラーによって失敗したリクエストは課金されません

    • キャンセルされたタスクについては、キャンセル前に正常に完了したリクエストは通常通り課金されます。

説明
  • バッチ推論は、個別の課金項目です。割引 (例: サブスクリプション (セービングプラン) や新規ユーザー向けの 無料クォータ) の対象外です。また、コンテキストキャッシュ などの機能もサポートされていません。

  • qwen3.5-plus や qwen3.5-flash などの一部のモデルでは、思考モードがデフォルトで有効化されています。このモードでは追加の思考トークンが生成され、出力トークン価格で課金され、コストが増加します。コストをコントロールするには、タスクの複雑さに応じて enable_thinking パラメーターを設定してください。詳細については、「ディープシンキング」をご参照ください。

よくある質問

  1. 追加で購入または有効化する必要があるものはありますか?

    追加の設定は不要です。Model Studio を有効化して、従量課金でご利用いただけます。

  2. タスクを送信直後に失敗 (ステータスが failed に変更) するのはなぜですか?

    これは通常、ファイルレベルのエラーを示しています。タスクは推論リクエストを実行しません。以下の点を確認してください:

    • ファイル形式: 1 行に 1 つの完全な JSON オブジェクトを記述する厳密な JSONL 形式を使用していることを確認してください。

    • ファイル規模: ファイルサイズおよび行数が制限を超えていないことを確認してください。詳細については、「入力ファイルの準備」をご参照ください。

    • モデルの一貫性: body.model フィールドがすべてのリクエストで同一であり、そのモデルがご利用のリージョンで利用可能であることを確認してください。

  3. バッチタスクの処理にはどのくらい時間がかかりますか?

    処理時間はシステム負荷によって異なります。ピーク時にはタスクがキューに並ぶことがあります。結果は指定されたタイムアウト内に返されます。

エラーコード

呼び出しがエラーメッセージで失敗した場合は、「エラーメッセージ」をご参照ください。