AI Search Open Platform のトークン計算 API の詳細 - OpenSearch

このドキュメントでは、API 経由で AI Search Open Platform サービスにアクセスする際に使用されるトークン数を計算する方法について説明します。

トークン計算

言語モデルでは、トークンはテキストセグメンテーションの最小単位であり、単語、句、句読点、文字、またはその他の要素にすることができます。モデルによってさまざまなセグメンテーション方法が使用されるため、文字数とトークン数は直接一致しない場合があります。たとえば、AI Search Open Platform では次のようになります。

"Apple" は 1 トークンに相当します
"Test Case" は 2 トークンに相当します
"OpenSearch" は 2 トークンに相当します

AI Search Open Platform によって提供される LLM サービスは、処理される入力トークン数と出力トークン数に基づいて課金されます。トークン計算 API を使用して、サービス呼び出しのコストを見積もることができます。

サポートされているモデルリスト

次のモデルは、トークン計算サービスを使用してトークン数を取得することをサポートしています。

モデル分類

サービス ID (service_id)

OpenSearch SFT モデル

ops-qwen-turbo

Qwen モデル

qwen-turbo

qwen-plus

qwen-max

HTTP 呼び出しインターフェイス

前提条件

認証情報を取得します。
API を使用して AI Search Open Platform サービスを呼び出す場合は、呼び出し元の ID を認証する必要があります。
サービスアクセスアドレスを取得します。
インターネットまたは VPC (仮想プライベートクラウド) を介してサービスを呼び出すことができます。詳細については、「サービス登録アドレスを取得する」をご参照ください。

概要

リクエスト本文の最大サイズは 8 MB を超えてはなりません。

リクエストメソッド

POST

URL

{host}/v3/openapi/workspaces/{workspace_name}/text-generation/{service_id}/tokenizer

host: サービスアドレス。パブリックネットワークと VPC アクセス方法の両方をサポートしています。詳細については、「サービスアクセスアドレスを取得する」をご参照ください。
workspace_name: ワークスペース名。例: default。
service_id: ビルトインサービス ID。例: ops-qwen-turbo。

リクエストパラメーター

ヘッダーパラメーター

API-KEY 認証

パラメーター	タイプ	必須	説明	値の例
Content-Type	String	はい	リクエストのメディアタイプ application/json	application/json
Authorization	String	はい	API-Key	Bearer OS-d1**2a

本文パラメーター

messages

List

はい

ユーザーとモデル間の会話履歴。リストの各要素は {"role": ロール, "content": コンテンツ} の形式で、使用可能なロールは system、user、assistant です。

system: システムレベルのメッセージ。会話履歴の最初のメッセージ (messages[0]) にのみ使用できます。 system ロールの使用は任意ですが、存在する場合はリストの先頭にある必要があります。
user および assistant: ユーザーとモデル間の会話を表します。これらの 2 つのロールは、実際の会話フローをシミュレートするために会話内で交互に使用する必要があります。

[{"role":

"user", "content":

"Test token calculation interface"}]

レスポンスパラメーター

パラメーター	タイプ	説明	例
request_id	String	リクエスト ID。	310032DA-****-46CC-94D1-0FE789BAE3A7
latency	Float/Int	リクエストに要した時間 (ミリ秒)。	10
usage	Object	API 呼び出しの計測情報の詳細。	"usage":{"input_tokens":4}
usage.input_tokens	Integer	入力トークン数。	4
result.token_ids	List<Integer>	入力テキストに対応するトークン ID。	[81705,5839,100768,107736]
result.tokens	List<String>	入力テキストから派生した実際のトークン。	["Test","token","calculation","interface"]

Curl リクエスト例

curl -XPOST -H "Content-Type:application/json" 
"http://****-shanghai.opensearch.aliyuncs.com/v3/openapi/workspaces/default/text-generation/ops-qwen-turbo/tokenizer" 
-H "Authorization: Bearer Your API-KEY" 
-d "{
    \"messages\":[
                    {
                        \"role\":\"user\",
                        \"content\":\"Test token calculation interface\"
                    }
    ]}"

レスポンス例

正常なレスポンス例

{
  "request_id":"9d197d47-d6b5-****-964e-12b893c47a8b",
  "latency":11,
  "usage":{
    "input_tokens":4
  },
  "result":{
    "token_ids":[81705,5839,100768,107736],
    "tokens":["Test","token","calculation","interface"]
  }
}

異常なレスポンス例

リクエスト中にエラーが発生した場合、出力は code フィールドと message フィールドを通じてエラーの理由を提供します。

{
  "request_id":"388476DB-C4D4-****-A7A6-7594F92885FA",
  "latency":0,
  "code":"InvalidParameter",
  "message":"Messages must be end with role[user]."
}

ステータスコード

詳細については、AI Search Open Platform の「ステータスコードの説明」をご参照ください。