すべてのプロダクト
Search
ドキュメントセンター

:モデルの課金

最終更新日:Nov 26, 2025

料金概要

Alibaba Cloud Model Studio の有効化は無料です。テキスト生成、画像生成、音声合成などのタスクを実行するためにモデルを呼び出すと、モデルの推論 (呼び出し) 料金が発生します。

請求書の表示[請求明細] および [コスト分析] ページに移動します。 統計の表示モデル観測 (シンガポールまたは北京) ページに移動します。

課金対象

モデルの推論 (呼び出し)

方法

モデル呼び出し量による

数式

料金 = 使用量 × 単価

説明

無料クォータ無料クォータはシンガポールリージョンでのみ利用可能です。リアルタイム呼び出しは無料クォータ内では課金されません。残りクォータデータは 1 時間ごとに更新され、ピーク時には 1 時間の遅延が発生する場合があります。

単価価格の表示

モデルの推論 (呼び出し)

課金概要と無料クォータ

モデル呼び出しの価格については、モデルをご参照ください。1 分あたりのリクエスト数 (RPM) や 1 分あたりのトークン数 (TPM) などの制限については、レート制限をご参照ください。

説明

無料クォータはシンガポールリージョンでのみ利用可能です。無料クォータの取得方法と残り無料クォータの表示方法の詳細については、新規ユーザー無料クォータをご参照ください。

[モデル観測 (シンガポール または 北京)] ページで、特定のモデルの呼び出し回数と消費トークン数を確認できます。

サブスクリプション (節約プラン)

1 つ以上の節約プランを購入して、無料クォータを使い切った後に発生する推論料金を相殺できます。節約プランを使い切ると、システムはアカウント残高から料金の引き落としを開始します。

大規模言語モデル

購入方法

LLM 推論節約プランの購入はこちら

レベル

Alibaba Cloud Model Studio では、$10、$50、$100、$500、$1,000、$5,000、$50,000 の購入レベルを提供しています。

有効期間

  • $10、$50、$100 のレベルでは、有効期間は 3 か月です。

  • $500、$1,000、$5,000、$50,000 のレベルでは、有効期間は 6 か月です。

適用モデル

シンガポールリージョンおよび北京リージョンのすべてのテキスト生成モデル (以下を含む:Qwen 商用版、Qwen オープンソース版、DeepSeek、Kimi)。モデルに移動して、これらのモデルとその呼び出し価格を表示します。

使用方法

Model Studio を使用する場合、まず節約プランのクォータが消費されます。複数の節約プランを購入した場合、有効期限の順に引き落とされます。有効期限が同じ場合は、最初に購入した節約プランが先に引き落とされます。

節約プランの請求書照会

詳細については、節約プランの請求書の照会方法をご参照ください。

Wan モデル

購入方法

Wan 節約プランの購入はこちら

購入手順

Alibaba Cloud Model Studio では 5 つの購入レベルを提供しています:

  • $10:割引なし

  • $50:割引なし

  • $100:割引なし

  • $500:2% 割引

  • $1,000:5% 割引

  • $5,000:10% 割引

割引例:$500 のレベルを例にとると、動画生成に $1 かかる場合、節約プランから実際に引き落とされる金額は $1 × 0.98 = $0.98 となります。

有効期間

  • $10、$50、$100 のレベルでは、有効期間は 3 か月です。

  • $500、$1,000、$5,000 のレベルでは、有効期間は 6 か月です。

使用方法

Model Studio を使用する場合、まず節約プランのクォータが消費されます。複数の節約プランを購入した場合、有効期限の順に引き落とされます。

請求書の照会

節約プランの請求書の照会方法をご参照ください。

適用モデル

画像生成:wan2.5-t2i-preview、wan2.5-i2i-preview、wan2.2-t2i-plus、wan2.2-t2i-flash、wanx2.1-imageedit、wan2.1-t2i-plus、wan2.1-t2i-turbo、wanx2.0-t2i-turbo

動画生成:wan2.5-t2v-preview、wan2.5-i2v-preview、wan2.2-i2v-flash、wan2.2-i2v-plus、wan2.2-t2v-plus、wan2.1-vace-plus、wan2.1-kf2v-plus、wan2.1-i2v-plus、wan2.1-i2v-turbo、wan2.1-t2v-plus、wan2.1-t2v-turbo

モデルに移動して、すべてのモデルとその呼び出し価格を表示します。

バッチ割引 (シンガポールリージョンのみ)

バッチ推論 (バッチ API) サービスは、リアルタイム呼び出しの 50% のコストで大規模なデータセットを非同期に処理します。

コンソールまたは API を介してファイルを送信し、バッチタスクを作成できます。システムはオフピーク時にデータを処理し、タスクが完了するか最大待機時間に達したときに結果を返します。

サポート対象モデル

テキスト生成モデル:qwen-max、qwen-plus、qwen-turbo

制限事項

バッチ推論は、サブスクリプション(節約プラン)、無料クォータ、または Context Cache などのサービスや割引をサポートしていません。

コンテキストキャッシュ割引

暗黙的キャッシュと明示的キャッシュが含まれます:

  • 暗黙的キャッシュ

    暗黙的キャッシュモードを有効にするための追加料金はありません。

    image.png

    応答cached_tokens 属性からキャッシュされたトークン数を取得できます。

    OpenAI 互換バッチメソッドはキャッシュ割引の対象外です。
  • 明示的キャッシュ

    以下の料金が含まれます:

    • キャッシュの作成:キャッシュの作成に使用されるトークンの料金は、標準入力単価の 125% で計算されます。既存のキャッシュが新しいキャッシュのプレフィックスである場合、新しいコンテンツ (新しいキャッシュブロックトークン数 - 既存のキャッシュブロックトークン数) のみが課金されます。

      1,200 トークンの既存のキャッシュブロック A があるとします。新しいリクエストが 1,500 トークンのコンテンツ AB をキャッシュする必要がある場合、1,200 トークンはヒット価格の 10% で課金され、新しい 300 トークンは作成価格の 125% で課金されます。

      キャッシュの作成に使用されるトークン数は、cache_creation_input_tokens パラメーターで表示できます。
    • キャッシュのヒット:単価は標準入力トークンの 10% です。

      キャッシュにヒットしたトークン数は、cached_tokens パラメーターで表示できます。
    • その他のトークン:キャッシュにヒットせず、キャッシュの作成に使用されないトークンは、元の価格で課金されます。

よくある質問

全般

支払い方法またはアカウントへのチャージ方法

モデル呼び出し料金は自動的に引き落とされます。請求書は 1 時間ごとに生成されます。詳細については、支払い方法の概要をご参照ください。

サブスクリプション方法:

モデルの推論 (呼び出し):LLM 推論節約プランの購入はこちら

サービスの更新方法

2024 年 3 月 15 日以降、Model Studio は商用サービスをアップグレードしました。すべてのサブスクリプションサービスは従量課金サービスに変更されました。そのため、手動でサービスを更新する必要はありません。従量課金方法が自動的に使用されます。

課金を停止する方法

  • モデルの推論とモデルのトレーニング

    関連機能の使用を停止すると、料金は発生しなくなります。モデル推論の場合、API キー (シンガポールまたは北京) を削除することで、意図しない呼び出しによる追加の課金を防ぐことができます。

    image

月次利用アラートを設定できます。アラートのしきい値を低い値に設定することで、予期しない請求が発生した際に Alibaba Cloud から通知を受け取り、さらなる損失を回避できます。

呼び出し回数と消費トークン数の表示方法

特定のモデルの呼び出し数とトークンの消費量は、モデル観測 (シンガポールまたは北京) ページで確認できます。

トークンの計算方法

トークンは、モデルがテキストを表すために使用する基本単位です。文字や単語と考えることができます。

  • 中国語では、1 トークンは通常 1 文字または 1 単語です。たとえば、テキスト「你好,我是通义千问」(こんにちは、私は Qwen です) は ['你好', ',', '我是', '通', '义', '千', '问'] に変換されます。

  • 英語のテキストでは、1 トークンは通常 3〜4 文字または 1 単語に対応します。たとえば、「Nice to meet you.」は ['Nice', ' to', ' meet', ' you', '.'] に変換されます。

LLM によっては、トークンをチャンク化する方法が異なる場合があります。SDK を使用して、ローカルマシン上の Qwen モデルによってチャンク化されたトークンデータを表示できます。

Qwen モデルによってチャンク化されたトークンデータを表示する:

# DashScope Python SDK がインストールされていることを確認してください。
from dashscope import get_tokenizer

# トークナイザーオブジェクトを取得します。現在、Qwen シリーズモデルのみがサポートされています。
tokenizer = get_tokenizer('qwen-turbo')

input_str = 'Qwen has powerful capabilities.'

# 文字列をトークンにチャンク化し、トークン ID に変換します。
tokens = tokenizer.encode(input_str)
print(f"チャンク化後のトークン ID は: {tokens} です。")
print(f"チャンク化後、{len(tokens)} 個のトークンがあります。")

# トークン ID を文字列に変換して出力します。
for i in range(len(tokens)):
    print(f"トークン ID {tokens[i]} に対応する文字列は: {tokenizer.decode(tokens[i])} です。")
// Copyright (c) Alibaba, Inc. and its affiliates.
// dashscope SDK version >= 2.13.0
import java.util.List;
import com.alibaba.dashscope.exception.NoSpecialTokenExists;
import com.alibaba.dashscope.exception.UnSupportedSpecialTokenMode;
import com.alibaba.dashscope.tokenizers.Tokenizer;
import com.alibaba.dashscope.tokenizers.TokenizerFactory;

public class Main {
  public static void testEncodeOrdinary(){
    Tokenizer tokenizer = TokenizerFactory.qwen();
    String prompt ="If you had to walk a very long distance, how long would it take to arrive? ";
    // 特殊トークンなしで文字列をエンコード
    List<Integer> ids = tokenizer.encodeOrdinary(prompt);
    System.out.println(ids);
    String decodedString = tokenizer.decode(ids);
    assert decodedString == prompt;
  }

  public static void testEncode() throws NoSpecialTokenExists, UnSupportedSpecialTokenMode{
    Tokenizer tokenizer = TokenizerFactory.qwen();
    String prompt = "<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n<|im_start|>user\nSan Francisco is a<|im_end|>\n<|im_start|>assistant\n";
    // 特殊トークン <|im_start|> および <|im_end|> を含む文字列をエンコード
    List<Integer> ids = tokenizer.encode(prompt, "all");
    // 24 tokens [151644, 8948, 198, 7771, 525, 264, 10950, 17847, 13, 151645, 198, 151644, 872, 198, 23729, 80328, 9464, 374, 264, 151645, 198, 151644, 77091, 198]
    String decodedString = tokenizer.decode(ids);
    System.out.println(ids);
    assert decodedString == prompt;

  }

  public static void main(String[] args) {
      try {
        testEncodeOrdinary();
        testEncode();
      } catch (NoSpecialTokenExists | UnSupportedSpecialTokenMode e) {
        e.printStackTrace();
      }
  }
}

ローカルトークナイザーは、テキスト内のトークン数を推定するのに役立ちます。ただし、結果は参考用であり、サーバー側のカウントと完全に一致しない場合があります。Qwen トークナイザーの詳細については、トークナイザーリファレンスをご参照ください。

モデル呼び出しが失敗した場合の対処法

対応するソリューションについては、エラーメッセージドキュメントをご参照ください。

課金ルール

モデルを呼び出した後、無料クォータが減らないのはなぜですか? (シンガポールのみ)

無料クォータデータは 1 時間ごとに更新されます。ピーク時には、最大 1 時間の遅延が発生する場合があります。そのため、モデル呼び出し完了から 1 時間後に残りクォータを表示する必要があります。

無料クォータを超えたトークンはどのように課金されますか? (シンガポールのみ)

実際に消費されたトークン数に基づいて課金されます。単価 (入力または出力コスト) は 100 万トークンあたりであるため、数式は次のようになります:

料金 = 実際に消費されたトークン数 / 1,000,000 × 単価

たとえば、qwen-vl-max の入力コストは 100 万トークンあたり $0.80 で、残り無料クォータは 50,000 トークンです。入力が 50,400 トークンの呼び出しでは、無料クォータを超えたトークンの料金は 400 / 1,000,000 × $0.80 となります。

マルチターン対話はどのように課金されますか?

マルチターン対話では、過去の対話の入出力は新しいターンの入力トークンとして課金されます。

モデルアプリケーションは課金されますか?

アプリケーションの作成は無料です。ただし、Q&A ペアのためにアプリケーションを呼び出す場合、呼び出されたモデルに基づいてモデル呼び出し料金が請求されます。

LLM 推論節約プランが控除に使用されないのはなぜですか?

無料クォータが使い果たされていない場合、請求書は生成されず、料金も発生しません。この場合、節約プランは控除に使用されません。節約プランは、無料クォータが使い果たされ、請求書が生成された後に控除に使用されます。

支払い遅延

支払い遅延の影響は何ですか?

アカウントに支払い遅延がある場合、無料クォータ (シンガポールのみ) やリソースプランがあってもモデル呼び出しを行うことはできません。チャージページに移動してアカウントにチャージできます。

API 呼び出しエラー:サービス有効化または支払い遅延の問題を迅速に解決する方法

1. サービスが有効化されていない

Alibaba Cloud アカウントを使用してModel Studio コンソール (シンガポールまたは北京) に移動し、Model Studio のモデルサービスを有効化します。

image

2. アカウント残高不足

  • 残高の確認: [費用とコスト] ページにログオンして、残高が十分かを確認します。

  • チャージ:チャージと送金をクリックし、必要な金額を入力して支払いを完了します。

3. 繰り返しのエラーを防ぐための支出アラートの設定

  • アラートの設定:詳細については、高額利用アラートの設定方法をご参照ください。支出のしきい値を設定します。金額がしきい値に達すると、システムがリマインダーを送信します。

請求書

モデル推論の実行後、なぜ [請求明細] ページで関連する請求が見つからないのですか?

考えられる理由は次のとおりです:

  • 課金システムは 1 時間ごとに更新されます。ピーク時には、最大 1 時間の遅延が発生する場合があります。たとえば、16:00 から 17:00 の間に発生した料金は、19:30:00 まで請求されない場合があります。

  • 無料モデルおよび無料クォータ内のモデル推論 (シンガポールのみ) は請求書を生成しません。無料クォータを超えた使用量のみが請求書を生成します。

すべての Model Studio サービスのコストを表示する方法

コスト分析ページで、[コストタイプ][税引き前金額] に、[時間単位][月] に設定し、期間を選択して、[製品名][Alibaba Cloud Model Studio] に設定します。これにより、選択した期間内の Model Studio のコストを表示できます。

image

モデル 推論 サービスのコストを表示する方法

コスト分析 ページで、[コストタイプ][税引前金額] に、[時間の粒度][月] に設定し、期間を選択して、[製品詳細][Model Studio 基盤モデルの推論] に設定すると、選択した期間内のモデル推論の合計コストを表示できます。

image

特定のモデルの 推論コストを表示する方法

qwen-max を例に説明します。[請求明細] ページで、[請求月] を選択します。[商品名][Model Studio 基盤モデル推論] に設定し、[検索] をクリックします。

[インスタンス ID] 列で、qwen-max に関連するすべてのインスタンスを検索し、これらのインスタンスの税抜き額を合計して、選択した課金サイクルにおける qwen-max モデルの合計推論料金を算出します。

image

詳細な請求書で消費されたトークン数をエクスポートして表示する方法

請求詳細ページで、統計項目を課金項目に設定し、請求書をエクスポートします。請求書でトークンの使用状況を表示できます。

image

モデルの詳細な請求書を照合する方法

2024 年 9 月 7 日以降に生成されたモデルの推論、デプロイ、トレーニングの請求書は、ApiKeyID、ワークスペース ID、モデル名、入出力タイプ、呼び出しチャネル、およびインスタンスのタグに基づいて照合できます。

[利用明細] ページで、[請求月] を選択します。[商品名][Model Studio 基盤モデル推論] に設定し、[検索] をクリックします。検索結果をローカルマシンにダウンロードし、[インスタンス ID] 列の内容に基づいて請求を照合します。

12xxx;llm-xxx;qwen-max;output_token;app のような完全な [アセット/リソースインスタンス ID] は、それぞれ ApiKeyID;Workspace ID;Model Name;Input/Output Type;Calling Channel を表します。 ご使用の [アセット/リソースインスタンス ID] に ApiKeyID が含まれていない場合、その課金項目はコンソールからの呼び出しによって生成されたものです。

完全なインスタンス ID (例:text_token;llm-xxx;qwen-max;output_token;app) は、それぞれ課金タイプ;ワークスペース ID;モデル名;入出力タイプ;呼び出しチャネルを表します。

完全なインスタンス タグ (例:key:test value:test) は、それぞれタグキー (key) とタグ値 (value) を表します。インスタンスに 2 つ以上のタグがある場合、タグのキーと値のペアは順にリストされ、セミコロンで区切られます (例:key:test1 value:test1; key:test2 value:test2)。

Model Studio API キー管理ページに移動し、ApiKeyID に対応する API キーを確認して、API キーに基づいて請求書を照合します。
ワークスペース管理 (シンガポールまたは北京) ページに移動し、ワークスペース ID に対応するワークスペースを確認して、ワークスペースに基づいて請求書を照合します。
呼び出しチャンネルには app、bmp、および assistant-api が含まれます。 app は、モデルがアプリケーションを介して呼び出されることを示します。 bmp は、モデルが Playground (シンガポール または 北京) を介して呼び出されることを示します。 assistant-api は、モデルがアシスタント API を介して呼び出されることを示します。

image

従量課金の請求書はどのように決済されますか?

従量課金制のクラウドリソースの請求は、リアルタイム決済では[ありません][代わりに]、システムはまず、アカウントの利用可能なクレジットから、消費済みで未決済の金額を凍結します。翌月の初めに、最終的な月次請求書が発行された後、前月の請求額が実際に引き落とされます。

コスト管理

高額利用アラートの設定方法

費用とコストセンターで[月次支出アラート] を設定できます。

image

モデル呼び出しの使用量を制限する方法

  • 無料クォータを使い切った後の課金停止

    追加コストを避けるため、Model Studio は無料クォータのみ機能を提供しています。

  • 単位時間あたりのモデル呼び出し数または消費トークン数の制限

    サブワークスペースのレート制限を設定します。 [ワークスペース] ページに移動し、対象のサブワークスペースを見つけ、[承認 & スロットリング設定] をクリックします。 各モデルの [リクエスト数制限][トークン制限] を調整します。

  • トークン消費のアラート設定

    モデルのオーバーヘッドに関するアラートルールを設定します。詳細については、使用量とパフォーマンスの観測をご参照ください。

    • 高度なモニタリング サービスが有効化されていない場合、Alibaba Cloud アカウントはまずターゲットの ワークスペース に切り替え、[モデルの監視] ページで手動で有効化または無効化する必要があります。RAM ユーザーを使用するには、Alibaba Cloud アカウントはまず RAM ユーザーに 必要な権限を付与する 必要があります。

    • [モデルアラート] ページに移動し、指示に従って CloudMonitor サービスを有効化します。

    • アラートルールの作成をクリックしてルールを設定します。指定されたメトリックが異常になった場合、システムはあなたまたは O&M チームに通知します。

    モデルアラートは通知をトリガーするだけで、モデル呼び出しを停止しません。