モデル設定 - Realtime Compute for Apache Flink - Alibaba Cloud ドキュメントセンター

注意事項

Flink AI サービス (組み込みモデル)、Alibaba Cloud Model Studio、Platform for AI (PAI)、および OpenAI 互換 API を備えた他のサービスが提供する大規模モデルサービスをサポートしています。
Platform for AI (PAI) にデプロイされた大規模モデルサービスは、Realtime Compute for Apache Flink サービスと同じリージョンに配置する必要があります。
Ververica Runtime (VVR) バージョン 11.1 以降が必要です。

モデルの作成

モデルの登録

データクエリエディターで、次のコマンドを入力します。

CREATE [TEMPORARY] MODEL [catalog_name.][db_name.]model_name
INPUT ( { <physical_column_definition> [, ...n] )
OUTPUT ( { <physical_column_definition> [, ...n] )
WITH (key1=val1, key2=val2, ...)

<physical_column_definition>:
  column_name column_type [COMMENT 列コメント]

句	説明	キーパラメータ	スキーマ制約	例
INPUT	モデルの入力データの列、データ型、および順序を定義します。	`column_name` (列名) `column_type` (データ型) `COMMENT` (コメント)	STRING 型の列が 1 つ必須です。	INPUT (`input_text` STRING COMMENT 'ユーザーコメント')
OUTPUT	モデルの出力データの列、データ型、および順序を定義します。	`column_name` (列名) `column_type` (データ型) `COMMENT` (コメント)	制約はモデルタスクタイプによって異なります。 chat/completions：出力列が 1 つ必須です。型は、`ML_PREDICT` 呼び出しの場合は `STRING`、専用 AI 関数 (例: `AI_CLASSIFY`、`AI_SUMMARIZE`) の場合は `VARIANT` である必要があります。埋め込み：配列<FLOAT> 型の列が 1 つ必須です。	OUTPUT (`sentiment_label` STRING COMMENT '感情ラベル')
WITH	「WITH パラメータ」をご参照ください。	`provider` (サービスプロバイダー) `endpoint` (エンドポイント) `api-key` (API キー) `model` (モデル識別子)	なし。	`WITH ('provider'='openai-compat', 'endpoint'='${ENDPOINT}', 'model'='qwen-turbo', 'api-key'='${KEY}')`

例

組み込みモデル

対象リージョンの Alibaba Cloud アカウントで Flink AI サービスを有効化している場合は、組み込みモデルモードを使用してモデルを作成できます。

CREATE TEMPORARY MODEL my_llm
INPUT (prompt String COMMENT '入力プロンプト')
OUTPUT (response String COMMENT 'モデルによって生成されたテキスト')
WITH (
  'provider' = 'openai-compat',
  'task' = 'chat/completions',
  'model' = 'qwen3.5-flash'
);

endpoint パラメータを指定する必要はありません。システムが自動的に対応するサーバーエンドポイントを選択します。
api-key パラメータを指定する必要はありません。システムが Flink 管理の API キーを使用して認証を行います。
task パラメータを指定して、モデルのタスクタイプを宣言します。

Platform for AI (PAI)

CREATE MODEL model_pai
INPUT (`input` String)
OUTPUT (`embedding` ARRAY<FLOAT>) 
WITH (
  'provider'='openai-compat',
  'endpoint'='<VPC エンドポイント>',
  'api-key'='<トークン>',
  'model'='qwen3-235b-a22b'
);

エンドポイントと api-key を取得するには、まずモデルサービスをデプロイする必要があります。詳細については、「ワンクリックで DeepSeek-V4 および DeepSeek-R1 モデルをデプロイ」および「Elastic Algorithm Service (EAS) のクイックスタート」をご参照ください。

モデルギャラリー

Platform for AI (PAI) コンソールにログインします。
左側のナビゲーションペインで、[Model Gallery] > [Task Management] > [Deployment Task] を選択し、対象サービスの名前をクリックします。
[View Invocation Information] をクリックします。
- VPC エンドポイントは HTTP を使用します。HTTPS に変更し、URL に /v1/<task> を追加する必要があります。task パラメータはモデルのタスクタイプを指定します。有効な値は次のとおりです。
  - chat/completions
  - embeddings
  例： https://************.vpc.cn-hangzhou.pai-eas.aliyuncs.com/api/predict/quickstart_deploy_20250722_7b22/v1/chat/completions
- api-key パラメータには Token を使用します。

Elastic Algorithm Service (EAS)

左側のナビゲーションペインで、[Elastic Algorithm Service (EAS)] > [Inference Services] を選択し、対象サービスの名前をクリックして [概要] ページに移動します。
[基本情報] セクションで、[呼び出し情報の表示] をクリックします。
[呼び出し情報] パネルで、エンドポイントとトークンをコピーします。
- VPC エンドポイントは HTTP を使用します。HTTPS に変更し、URL に /v1/<task> を追加する必要があります。task パラメータはモデルのタスクタイプを指定します。有効な値は次のとおりです。
  - chat/completions
  - embeddings
  例： https://************.vpc.cn-hangzhou.pai-eas.aliyuncs.com/api/predict/quickstart_deploy_20250722_7b22/v1/chat/completions
- api-key パラメータには Token を使用します。

詳細については、「ゲートウェイを使用したインターネットまたは内部ネットワーク経由でのサービスの呼び出し」をご参照ください。

Alibaba Cloud Model Studio

説明

Alibaba Cloud Model Studio のモデルに最も安定かつ便利にアクセスするには、組み込みモデルモードを使用してください。このモードは、中国本土内外の複数のリージョンをサポートし、クロスリージョンアクセスを自動的に処理します。

CREATE MODEL model_bailian
INPUT (`input` String)
OUTPUT (`content` String)
WITH (
  'provider'='openai-compat',
  'endpoint'='<エンドポイント>',
  'api-key'='<bailian-key>',
  'model'='qwen3.5-flash'
);

Alibaba Cloud Model Studio 上のモデルのサービスエンドポイントは、次の形式です： <base-url>/compatible-mode/v1/<task> 例： https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions

base-url：

インターネット経由のアクセス： https://dashscope-intl.aliyuncs.com。インターネット経由でサービスにアクセスするには、Flink ワークスペースでインターネットアクセスを有効にする必要があります。詳細については、「ネットワーク接続タイプの選択」をご参照ください。

内部ネットワーク経由のアクセス：「内部ネットワーク経由での Alibaba Cloud Model Studio モデルまたはアプリケーション API へのアクセス」をご参照ください。

同一リージョンおよびクロスリージョンからのアクセスがサポートされています。異なるリージョンからアクセスする場合 (例：中国 (上海) リージョンの Flink インスタンスから中国 (北京) リージョンの Alibaba Cloud Model Studio サービスにアクセスする場合)、Cloud Enterprise Network (CEN) を設定する必要があります。詳細については、「内部ネットワーク経由での Alibaba Cloud Model Studio API へのクロスリージョンアクセス」をご参照ください。

重要
Alibaba Cloud Model Studio は、選択したリージョンでデータを処理します。データレジデンシー要件がある場合は、コンプライアンスのニーズに基づいて適切なリージョンを選択してください。詳細については、「リージョンとサービス範囲の選択」をご参照ください。
task：モデルのタスクタイプ。次の値がサポートされています：
- chat/completions
- embeddings

WITH パラメーター

全般

パラメーター	説明	タイプ	必須	デフォルト	備考
provider	モデルサービスのタイプです。	文字列	はい	なし	VVR 11.1～11.2：固定値は `bailian` です。 VVR 11.3～11.7：有効な値は `openai-compat` または `bailian` です。 `openai-compat` の使用を推奨します。説明 Platform for AI (PAI) またはその他の OpenAI 互換モデルサービスの場合、この値は `openai-compat` にする必要があります。
task	モデルのタスクタイプです。	文字列	いいえ	なし	有効な値： chat/completions embeddings 重要組み込みモデルモードを使用する場合、タスクタイプを宣言するためにこのパラメーターの指定が必須です。 VVR 11.7 以降でサポートされています。
endpoint	エンベディングや chat/completions サービスなどの OpenAI 互換モデルサービスのエンドポイントです。	文字列	いいえ	なし	Alibaba Cloud Model Studio または PAI のエンドポイントについては、例をご参照ください。その他の OpenAI 互換モデルサービスについては、サービスの API ドキュメントをご参照ください。説明組み込みモデルモードを使用する場合、このパラメーターは不要です。
api-key	モデルサービスへのアクセスに使用する API キーです。	文字列	いいえ	なし	詳細については、「API キーの取得」をご参照ください。以前のキー名：apiKey (VVR 11.1) 説明組み込みモデルモードを使用する場合、このパラメーターは不要です。
max-context-size	単一リクエストの最大コンテキストサイズ (トークン単位) です。	整数	いいえ	なし	最大サイズを超えた場合、`context-overflow-action` で定義されたアクションがトリガーされます。説明 VVR 11.2 以降でサポートされています。
context-overflow-action	単一リクエストのコンテキストが最大サイズを超えた場合に実行するアクションです。	文字列	いいえ	`truncated-tail`	有効な値： `truncated-tail`：容量を超えた場合、末尾からトークンを自動的に切り捨て、最新の `max-context-size` 個のトークンを保持します。ログは記録されません。 `truncated-tail-log`：末尾から超過したトークンを自動的に切り捨て、最新の `max-context-size` 個のトークンを保持します。切り捨てイベントをログに記録します。 `truncated-head`：先頭から最も古いトークンを切り捨て、最新の `max-context-size` 個のトークンを保持します。 `truncated-head-log`：先頭から最も古いトークンを切り捨て、最新の `max-context-size` 個のトークンを保持します。切り捨てイベントをログに記録します。 `skipped`：データレコードが破棄されます。ログは記録されません。 `skipped-log`：データレコードを破棄し、ログエントリを作成します。説明 VVR 11.2 以降でサポートされています。
max-context-size	Maximum context length (number of tokens)	int	No	None	説明 Only VVR 11.2 and later versions are supported.
context-overflow-action	Behavior when the context length exceeds the limit	String	No	truncated-tail	Valid values `truncated-tail`: Automatically truncates excess data from the tail, retaining the most recent `max-context-size` items. `truncated-head`: Trims the earliest data from the head and retains the latest `max-context-size` items. `skipped`: Discards new data that exceeds the capacity and does not update the context. `truncated-tail-log`: Extends truncated-tail by logging the action of truncating the context. `truncated-head-log`: Extends `truncated-head` to log the context truncation behavior. `skipped-log`: Has the same behavior as skipped, but also logs when the context is truncated. 説明 Supported only in VVR 11.2 or later.
error-handling-strategy	モデルリクエストエラーを処理する戦略です。	文字列	いいえ	retry	有効な値： `retry`：リクエストを再送信します。 `failover`：例外をスローします。 `ignore`：例外を無視し、データレコードをスキップします。説明 VVR 11.4 以降でサポートされています。
retry-num	リトライ回数です。	整数	いいえ	100	`error-handling-strategy` が `retry` に設定されている場合にのみ有効です。説明 VVR 11.4 以降でサポートされています。
retry-fallback-strategy	すべてのリトライが失敗した場合のフォールバック戦略です。	文字列	いいえ	failover	有効な値：`failover`、`ignore` `error-handling-strategy` が `retry` に設定されている場合にのみ有効です。説明 VVR 11.4 以降でサポートされています。
retry-backoff-strategy	リトライバックオフ戦略です。リトライ間の時間間隔の計算方法を定義します。	文字列	いいえ	fixed	有効な値： `fixed`：リトライ間に固定間隔を使用します。 `exponential`：リトライ間に指数関数的に増加する間隔を使用します。説明 VVR 11.4 以降でサポートされています。
retry-backoff-base-interval	リトライバックオフ戦略のベース時間間隔です。	期間	いいえ	1 s	説明 VVR 11.4 以降でサポートされています。

chat/completions

次のパラメーターは、chat/completions モデルタスクタイプに適用されます。

パラメーター	説明	タイプ	必須	デフォルト	備考
model	サービスエンドポイントで呼び出す特定のモデル。	文字列	はい	なし	モデルの選択カテゴリのモデルをサポートしています。説明選択したモデルと、入力および出力のトークン数に基づいて課金されます。
system-prompt	リクエストのシステムプロンプト。	文字列	はい	"You are a helpful assistant."	以前のキー名： systemPrompt (VVR 11.1) 説明 VVR 11.6 以降では、このパラメーターを空の値に設定できます。
temperature	テキスト生成中に、各候補トークンの確率分布の滑らかさを制御します。	浮動小数点数	いいえ	なし	有効範囲： [0, 2)。 0 の値は推奨されません。 temperature の値が高いほど、確率分布が滑らかになり、可能性の低いトークンが選択されやすくなり、出力がより多様になります。値が低いほど、分布がシャープになり、可能性の高いトークンが選択されやすくなり、出力がより決定的になります。
top-p	生成中の核サンプリングの確率しきい値。	浮動小数点数	いいえ	なし	値が高いほどランダム性が増し、低いほど決定性が増します。以前のキー名： topP (VVR 11.1)
stop	停止シーケンス。	文字列	いいえ	なし	モデルは、このシーケンスを検出すると生成を停止します。
max-tokens	モデルが生成できるトークンの最大数。	整数	いいえ	なし	以前のキー名： maxTokens (VVR 11.1)
content-type	入力データのタイプ。	文字列	いいえ	text	単一入力列のコンテンツタイプ。値は `text` (デフォルト) または `image_url` です。 `content-types` と相互排他的です。説明 VVR 11.6 以降でサポートされています。
content-types	マルチモーダルモデルの入力列のコンテンツタイプ。	文字列	いいえ	N/A	入力列ごとに 1 つのタイプをセミコロンで区切ったリストです (例: `text;image_url`)。サポートされているタイプ：`text`、`image_url`、`multi_image_urls`。 `content-type` と相互排他的です。説明 VVR 11.8 以降でサポートされています。詳細については、「一般的な呼び出し」をご参照ください。
presence-penalty	トークンの繰り返しを制御します。	倍精度浮動小数点数	いいえ	なし	有効範囲： -2.0～2.0。正の値を設定すると、新しいトークンがこれまでのテキストに出現しているかどうかに基づいてペナルティが課され、モデルが新しいトピックについて話す可能性が高まります。説明 VVR 11.3 以降でサポートされています。
n	各入力に対して生成する出力の選択肢の数。	整数	いいえ	なし	説明 VVR 11.3 以降でサポートされています。
seed	モデルのレスポンスに対する乱数シード。	長整数	いいえ	なし	指定した場合、モデルプロバイダーは決定論的なサンプリングを試みます。これにより、同じシードとパラメーターを持つリクエストを繰り返した場合に、同じ結果が返されることが期待できます。説明 VVR 11.3 以降でサポートされています。
response-format	戻り値のフォーマット。	文字列	いいえ	text	有効な値： text json_object 説明 VVR 11.3 以降でサポートされています。
extra-header	リクエストの追加の HTTP ヘッダー。	文字列	いいえ	なし	値が文字列または文字列のリストである、JSON 形式の文字列。説明 VVR 11.3 以降でサポートされています。
extra-body	リクエストの追加の HTTP ボディ。	文字列	いいえ	なし	JSON 形式の文字列。説明 VVR 11.3 以降でサポートされています。
user-prompt	リクエストのユーザープロンプト。	文字列	いいえ	なし	`system-prompt` に似ていますが、ユーザーロールとして送信されます。説明 VVR 11.7 以降でサポートされています。

エンベディング

次のパラメーターは、エンベディングモデルのタスクタイプに適用されます。

パラメーター	説明	タイプ	必須	デフォルト	備考
model	サービスエンドポイントで呼び出す特定のモデルです。	文字列	はい	なし	モデルの選択に記載されているモデルをサポートしています。説明選択したモデルと、入力および出力のトークン数に基づいて課金されます。
dimension	出力エンベディングのベクトル次元 (ディメンション) です。	整数	いいえ	なし	値は、特定のモデルがサポートするベクトル次元に依存します。一般的な値には 1024、768、512 が含まれます。

モデルのクエリ

データクエリエディターで、次のいずれかのコマンドを実行します。

登録済みモデルの名前を一覧表示します。

SHOW MODELS [ ( FROM | IN ) [catalog_name.]database_name ];

モデルの作成文を表示します。

SHOW CREATE MODEL [catalog_name.][db_name.]model_name;

モデルの入出力スキーマを表示します。
```
DESCRIBE MODEL [catalog_name.][db_name.]model_name;
```

例

SHOW MODELS;

-- 結果
--+------------+
--| model name |
--+------------+
--|          m |
--+------------+

DESCRIBE MODEL m;

-- 結果
-- +---------+--------+------+----------+
-- |    name |   type | null | is input |
-- +---------+--------+------+----------+
-- | content | String | TRUE |     TRUE |
-- |   label | BIGINT | TRUE |    FALSE |
-- +---------+--------+------+----------+

モデルの変更

データクエリエディターで次のコマンドを実行します。

ALTER MODEL [IF EXISTS] [catalog_name.][db_name.]model_name {
  RENAME TO new_model_name
  SET (key1=val1, ...)
  RESET (key1, ...)
}

例

登録済みモデルの名前を変更します。

ALTER MODEL m RENAME TO m1; -- モデル名を m1 に変更します。

モデルのパラメーターを変更します。

ALTER MODEL m SET ('endpoint' = '<Your_Endpoint>'); -- エンドポイントのパスを更新します。

モデルのパラメーターをデフォルトにリセットします。

ALTER MODEL m RESET ('endpoint'); -- エンドポイントのパスをリセットします。

モデルの削除

Data Query エディターで、次のコマンドを実行します。

DROP [TEMPORARY] MODEL [IF EXISTS] [catalog_name.][db_name.]model_name

例

DROP MODEL m;

組み込みモデル

名前	タスク	説明	入力タイプ	出力タイプ
qwen3.6-plus	chat/completions	視覚理解とテキスト生成。最新の Qwen フラッグシップモデル。	文字列 (テキスト、画像、動画)	文字列
qwen3.6-flash	chat/completions	視覚理解とテキスト生成。コスト効率の高いモデル。	文字列 (テキスト、画像、動画)	文字列
qwen3.5-plus	chat/completions	視覚理解とテキスト生成。高性能モデル。	文字列 (テキスト、画像、動画)	文字列
qwen3.5-flash	chat/completions	視覚理解とテキスト生成。速度と低コストに最適化。	文字列 (テキスト、画像、動画)	文字列
qwen-vl-ocr-latest	chat/completions	画像テキスト抽出 (OCR 向けのバーティカルモデル)。	文字列 (画像)	文字列
qwen-mt-flash	chat/completions	テキスト翻訳。	文字列 (テキスト)	文字列
text-embedding-v4	embeddings	テキスト埋め込み。	文字列 (テキスト)	配列<フロート>
qwen3-vl-embedding	embeddings	マルチモーダル埋め込み。	文字列 (画像、テキスト、動画)	配列<フロート>

説明

指定された model がサポートされていない場合、システムはエラーを報告し、サポートされているモデルを一覧表示します。