モデル評価 - Alibaba Cloud Model Studio - Alibaba Cloud ドキュメントセンター

データセットを使用して複数のディメンションでモデルを評価することで、モデルのパフォーマンスを完全に理解し、実際のアプリケーションで効果的な結果をもたらすことを保証します。

説明

クイックスタート

モデル評価とは

モデル評価は、 Model Studio プラットフォームが提供するモデル品質検証ツールです。大規模言語モデルのパフォーマンスを客観的かつ定量的に評価するのに役立ちます。

一文での要約：モデルにテストを実施し、自動または手動で応答をスコアリングし、評価レポートを生成します。

モデル評価を行う理由

シナリオ 1：モデル選択の意思決定

課題：数十もの大規模モデル (Qwen、GPT、Claude、ERNIE Bot など) がある中で、どれが自社のビジネスニーズに最も適しているかがわかりません。

ソリューション：

ビジネスシナリオから 100 件のテストケースを準備します。
同じデータセットを使用して、すべての候補モデルを評価します。
評価レポート (スコア、合格率、サンプルパフォーマンス) を比較します。
ビジネス要件に最も適合するモデルを選択します。

価値：

主観的な判断を避け、データに基づいて意思決定を行います。
各モデルを手動でテストする場合と比較して時間を節約します。
不適切なモデル選択のリスクを低減します。

シナリオ 2：ファインチューニング効果の検証

課題：1,000 個のトレーニングサンプルで Qwen をファインチューニングしましたが、実際にパフォーマンスが向上したかどうかわかりません。

ソリューション：

評価データセット (トレーニングセットと重複しないもの) を準備します。
ファインチューニング前とファインチューニング後の両方のモデルを評価します。
2 つの評価結果を比較します：
- ファインチューニング前のスコア：75
- ファインチューニング後のスコア：85
- 結論：ファインチューニングは機能し、10 ポイント向上しました。

価値：

ファインチューニングの影響を定量化し、ROI を検証します。
ファインチューニングの方向性が正しかったかを確認します。
継続的な最適化のためのデータサポートを提供します。

シナリオ 3：モデル能力の定量化

課題：特定のタスクにおけるモデルのパフォーマンスをチームや経営陣に報告する必要がありますが、客観的なデータが不足しています。

ソリューション：

評価機能を使用してレポートを生成します。
レポートには以下が含まれます：
- 総合スコア：85/100
- 合格率：90% (3 点以上のスコアのサンプル)
- スコア分布：5 点が 30 サンプル、4 点が 40 サンプル、3 点が 20 サンプル、2 点が 10 サンプル
- 典型的なケース：高スコアと低スコアのサンプル
レポートデータを使用して、意思決定やプレゼンテーションをサポートします。

価値：

「かなり良い」といった主観的な説明を、「85 点、合格率 90%」のようなデータに置き換えます。
チーム間の明確なコミュニケーションと認識合わせを可能にします。
将来の最適化のためのベースライン参照を確立します。

シナリオ 4：モデルパフォーマンスの継続的なモニタリング

課題：デプロイ後、モデルのパフォーマンスは時間経過やビジネスの変化に伴い低下する可能性がありますが、これを迅速に検出するのは困難です。

ソリューション：

定期的な評価サイクル (例：月次) を確立します。
同一の評価データセットとディメンションを使用します。
パフォーマンストレンドを追跡します：
- 2024 年 1 月：スコア 85
- 2024 年 2 月：スコア 87 (向上)
- 2024 年 3 月：スコア 78 (低下 — 調査が必要)

価値：

パフォーマンスの低下を早期に検出します。
モデルの反復のためのデータ基盤を提供します。
モデル能力プロファイルを構築します。

コアバリューのまとめ

価値	説明
客観的な定量化	主観的な判断をデータに置き換えます — 「問題なさそう」のような曖昧な説明を避けます
効率的な比較	複数のモデルを迅速に比較します — 手動テストの時間を節約します
リスクガバナンス	デプロイ前に徹底的に検証します — モデル選択のリスクを低減します
継続的な最適化	モデルのファインチューニングと反復のための定量的なフィードバックを提供します
意思決定支援	チームのコラボレーションや経営陣への報告のためのデータサポートを提供します

評価ワークフロー

フェーズ	サブステップの説明
1. 準備	評価ディメンション (スコアリング基準の定義) → テストデータ (質問と回答の準備)
2. 評価タスクの作成	モデルの選択 → データの選択 → ディメンションの選択 → リーダーボードへの参加有無の選択
3. 評価の実行	自動評価 (システムが自動的に完了) または手動評価 (手動でのアノテーションが必要)
4. 結果の表示	スコアレポート → 合格率統計 → 詳細な内訳

クイック体験

評価シナリオ：Qwen-Max の一般常識に関する質問応答の精度を評価します。

完全な例：10 個のテスト質問を使用して、モデル応答のセマンティック類似度を評価します。

体験手順：

1. 評価ディメンションの作成

インターフェイスの場所：モデル評価ページに移動し、評価次元 タブを選択し、右上隅の 評価ディメンションを作成する ボタンをクリックします。

フォームに記入し、保存ボタンをクリックします。

項目	内容
次元名	一般常識 QA 精度
説明	一般常識の質問に答えるモデルの精度を評価します
タイプ	大規模モデル評価 - 数値型を選択します
審判モデル	[Qwen-Max] を選択します
スコアリングテンプレート	[セマンティック類似度] を選択します
スコア範囲	デフォルトの 0〜5 を維持します
しきい値を通過	3.0

関連ノート：

スコアリングテンプレート の選択では、インターフェイスに 3 つのラジオボタンが表示されます — 1 つを選択してください。詳細については、プロンプト変数のドキュメントとシステムプロンプトの違いをご参照ください。

テンプレート	説明	適用シナリオ	カスタムプロンプトは必要ですか？
[総合評価] (デフォルト)	関連性、文化的感受性、情報量、明瞭さ、ユーザーエンゲージメントの 5 つのディメンションでスコアリングするシステムプリセットテンプレートです。	一般的な会話および顧客サービスシナリオ	いいえ — 直接使用するか、必要に応じて変更します
[セマンティック類似度]	出力と参照回答との間のセマンティックな近さを評価するシステムプリセットテンプレートです。	QA システムとナレッジ検索	いいえ — 直接使用するか、必要に応じて変更します
カスタム評価	独自のプロンプトを作成します。	特定のビジネスシナリオ	はい — 要件に応じて作成します

2. テストデータの準備

インターフェイスの場所： Data Management ページに移動し、右上隅の データセットを追加 ボタンをクリックします。

フォームに記入し、OK ボタンをクリックします。

項目	内容
次元名	QA テストデータ
説明	Evaluation Set タイプを選択します。 ❗ モデル評価は Evaluation Set タイプのデータセットのみをサポートし、トレーニングセットはサポートしません。
タイプ	Sample Data_QA Test Data.xlsx (CMS 添付ファイル、file_id=151014、オンラインでダウンロード) をアップロードします。

3. 評価タスクの作成

インターフェイスの場所：モデル評価ページに移動し、Evaluation Task タブを選択し、右上隅の 評価タスクを作成 ボタンをクリックします。

フォームに記入し、Evaluate ボタンをクリックします。

項目	内容
次元名	QA 精度テスト
評価対象	[Qwen-Plus] を選択します。
審判モデル	[Qwen-Max] を選択します。
[システムプロンプト]	空のままにします — このテストでは不要です。詳細については、「システムプロンプトとスコアラープロンプトの違い」をご参照ください。
スコアリングテンプレート	[セマンティック類似性] を選択し、以前に作成した「QA test data」データセットを選択します。
スコア範囲	以前に作成した「一般常識 QA 精度」を選択します。
しきい値を通過	このテストは参加しません。

4. タスクステータスの確認

「QA 精度テスト」タスクを見つけ、その Evaluation Status 列を確認します：

実行待ち：リクエストが集中している時間帯には、評価タスクが実行キューに入ります。
実行中：システムが評価中です — しばらくお待ちください。
評価完了：評価が終了しました — 結果を表示できます。
評価失敗：評価タスクの実行に失敗しました。
評価終了：ユーザーによって評価タスクが手動で停止されました。

右上隅の更新ボタン () をクリックします。タスクのステータスが 評価完了 に変わったら、タスク名 列をクリックして詳細ページに移動します。

データ明細 タブを選択して、各データポイントの詳細なスコアリングを表示します。

列名	説明
状態	評価ステータス：保留中、進行中、評価完了、評価失敗、評価停止
番号	サンプル ID
[プロンプト]	元の質問
完了	参照回答
[出力]	モデルが生成した応答
[評価ディメンション名]	評価ディメンション名に対応します — 例えば、「一般常識 QA 精度」— そしてスコアリング結果を表示します。
操作	利用可能なユーザー操作 — 例えば、[詳細] をクリックして完全な質問、回答、評価結果を表示します。

指標統計 タブを選択して評価統計を表示します。

メトリック名	説明	値の例
総合スコア	評価ディメンション全体の平均スコア	100
通過率	しきい値 (3 点以上) を満たすサンプルの割合	90%
評価セット総量	テストデータ項目の総数	10 項目
完了量	完了した評価の数	10 項目
未完了量	未完了の評価の数	0 項目

基本概念

カスタム評価の概要

Model Studio は、独自の評価基準とテストデータを使用して、複数のディメンションでモデルの品質を評価できるカスタム評価機能を提供します。カスタム評価は 5 種類の評価ディメンションをサポートしています — 詳細は以下の「カスタム評価」セクションをご参照ください。

カスタム評価

サポート対象モデル

以下のプリセットモデル (ファインチューニング済みバージョンを含む) をサポートしています：

Qwen-QwQ/Max/Plus/Turbo/Coder/Math
Qwen オープンソースバージョン (Qwen3、Qwen2.5、Qwen2、Qwen1.5)
Tongyi Farui
サードパーティ製テキスト生成モデル (abab6.5g、abab6.5t など)

上記のリストは不完全であり、変更される可能性があります。常に [評価タスクの作成] ページの現在の 評価モデル のリストをご参照ください。Apply ボタンがなくグレー表示されているモデルは、現在評価に対応していません。

評価ディメンション

評価ディメンションは、スコアリング基準、つまりモデルをどのようにスコアリングするかを定義します。カスタム評価の前に評価ディメンションを作成する必要があります。

評価ディメンションのタイプ (5 種類)

タイプ	スコアリング方法	適用シナリオ	コスト	推奨
大規模モデル評価 - 数値型	AI ジャッジによるスコア (1〜5 点)	QA 品質、コンテンツ生成品質	中	⭐⭐⭐⭐⭐
ルール評価 - テキスト類似度	アルゴリズムが類似度を計算	翻訳、要約、書き換え	低	⭐⭐⭐⭐
大規模モデル評価 - 分類型	AI ジャッジによる分類 (合格/不合格)	コンテンツモデレーション、正確性の検証	中	⭐⭐⭐
ルール評価 - 文字列マッチング	完全な文字列マッチング	Function Calling、NL2SQL	非常に低い	⭐⭐⭐
人間による評価 - 分類型	手動ラベリング	創造性、専門的な判断	高	⭐⭐

評価ディメンションタイプを素早く選択する方法

1 つの評価タスクで複数の評価ディメンションを組み合わせることができます。

評価データ

データソースのタイプ

データタイプ	説明	ワークフロー	適用シナリオ
評価データセット	質問 (プロンプト) と参照回答 (completions) を含みます	システムがモデルを呼び出してリアルタイムで推論を行い、出力を生成し、その後スコアラーがスコアを付けます。	初期評価複数のモデルの比較モデルがまだ結果を生成していない
推論結果セット	すでにモデルの出力を含んでいます	システムは直接出力を読み取り、スコアラーがスコアを付けます (推論は不要)。	モデルはすでに結果を生成済み推論コストの削減対照群のベースラインモデル

データフォーマット要件：Excel

評価データセットの例：

Prompt	Completion
クラウドコンピューティングとは何ですか？	クラウドコンピューティングは、共有コンピューティングリソースのオンデマンドプールです。
Python で関数を定義する方法は？	def キーワードを使用して関数を定義できます。

推論結果セットの例：

さらに 1 つ Output 列を追加します。

Prompt	Completion	Output
クラウドコンピューティングとは何ですか？	クラウドコンピューティングは、共有コンピューティングリソースのオンデマンドプールです。	クラウドコンピューティングは、インターネット経由でコンピューティングリソースを提供するサービスモデルです...

データ量の推奨：

フェーズ	推奨数量	説明
小規模検証	50〜100 項目	構成の正当性を検証します。
正式な評価	200〜500 項目	信頼できる統計結果を取得します。
包括的な評価	500 項目以上	さまざまなエッジケースをカバーします。

リーダーボード

リーダーボードとは：

同じ評価ディメンションにおける複数のモデルのパフォーマンスを比較します。
モデルのランキングを視覚的に表示します。
複数の評価タスクにわたる水平比較をサポートします。

リーダーボードが必要な場合：

複数のモデルのパフォーマンスを比較する場合 (例：GPT-4 vs Claude vs Qwen)。
ビジネスシナリオにおけるモデルの長所/短所を視覚的に示したい場合。
チーム内でモデルの比較結果を共有できます。

コア変数

適用範囲：このセクションは、大規模モデル評価 - 数値型 および 大規模モデル評価 - 分類型 評価ディメンションにのみ適用されます。

大規模モデル評価中、ジャッジモデルはこれら 3 つの変数を受け取ります：

変数名	説明	例	使用シナリオ
`${prompt}`	元の入力：ユーザーの質問または指示	クラウドコンピューティングとは何ですか？	すべてのシナリオで必須
`${output}`	モデルの出力：評価対象モデルの応答	クラウドコンピューティングは、...経由で提供されるサービスです。	すべてのシナリオで必須
`${completion}`	参照回答：標準的な回答または期待される出力	クラウドコンピューティングは、オンデマンドの...	標準的な回答が存在する場合に使用

プロンプトでの使用方法：

以下の応答の品質を評価してください：

**ユーザーの質問**：${prompt}
**モデルの応答**：${output}
**参照回答**：${completion}

スコアリング基準：
- 5 点：応答は完全に正しく、参照回答とセマンティックに一致する
- 4 点：応答はほぼ正しいが、軽微な逸脱がある
- 3 点：応答は部分的に正しい
- 2 点：応答はほとんど正しくない
- 1 点：応答は完全に間違っているか、無関係である

システムプロンプトとスコアラープロンプトの違い

モデル評価において、混同しやすい 2 つのプロンプト構成は、異なる目的を果たします：

プロンプトタイプ	構成場所	対象	アクションフェーズ	必須ですか？	コストの帰属
システムプロンプト	Evaluation Task を作成する際	評価対象モデル	モデルが回答を生成する時	いいえ	評価対象モデルの推論コスト
スコアラープロンプト	大規模モデル評価 - 数値型および大規模モデル評価 - 分類型評価ディメンション作成時	ジャッジモデル	ジャッジモデルが回答をスコアリングする時	はい	ジャッジモデルのスコアリングコスト

詳細な説明

システムプロンプト
- 目的：評価対象モデルの役割や行動ガイドラインを定義します。
- シナリオ例：
  - 顧客サービスの評価：「あなたはプロの顧客サービス担当者です。顧客の質問に丁寧かつ正確に答えてください。」
  - コードアシスタントの評価：「あなたはプログラミングの専門家です。正確で簡潔なコード例を提供してください。」
- 使用するタイミング：評価対象モデルに特定のアイデンティティや制約を割り当てる必要がある場合にのみ記入し、ほとんどの場合は空のままにします。
スコアラープロンプト
- 目的：ジャッジモデルに、回答の品質をどのように評価し、どのスコアリング基準を使用するかを伝えます。
- 適用範囲：大規模モデル評価 - 数値型 および 大規模モデル評価 - 分類型 評価ディメンションにのみ必須です。
- 構成方法：
  - システムプリセットテンプレート (総合評価、セマンティック類似度、感情分析など) を選択します。
  - カスタムプロンプトを作成します (特定のビジネスシナリオ向け)。
- スコアラープロンプトでは、${prompt}、${output}、${completion} 変数を使用できます。

分かりやすい例え

システムプロンプト：「学生」(評価対象モデル) に、試験を受ける際にどのような役割を演じるべきかを伝えます。
スコアラープロンプト：「採点者」(ジャッジモデル) に、試験をどのように採点し、どの採点基準を適用するかを伝えます。

シナリオベースの実践ケース

カスタム評価：大規模モデル評価 - 数値型評価ディメンション

適用シナリオ：QA 品質、コンテンツ生成品質、顧客サービス対話品質など、詳細なスコアリングが必要な状況。

推奨事項：

スコアリング基準を具体的にします — 各スコアレベルについて明確な説明を提供します。
高スコアと低スコアのサンプルを定期的にスポットチェックして、精度を検証します。
すべてのサンプルが 1 つのスコア範囲に集中しないようにします。

手順：

1. 評価ディメンションの作成

フォームに記入し、保存ボタンをクリックします。

項目	内容
次元名	一般常識 QA 精度
説明	一般常識の質問に答えるモデルの精度を評価します
タイプ	大規模モデル評価 - 数値型を選択します
審判モデル	[Qwen-Max] を選択します
スコアリングテンプレート	[セマンティック類似度] を選択します
スコア範囲	デフォルトの 0〜5 を維持します
しきい値を通過	3.0

関連ノート：

テンプレート	説明	適用シナリオ	カスタムプロンプトは必要ですか？
[総合評価] (デフォルト)	関連性、文化的感受性、情報量、明瞭さ、ユーザーエンゲージメントの 5 つのディメンションでスコアリングするシステムプリセットテンプレートです。	一般的な会話および顧客サービスシナリオ	いいえ — 直接使用するか、必要に応じて変更します
[セマンティック類似度]	出力と参照回答との間のセマンティックな近さを評価するシステムプリセットテンプレートです。	QA システムとナレッジ検索	いいえ — 直接使用するか、必要に応じて変更します
カスタム評価	独自のプロンプトを作成します。	特定のビジネスシナリオ	はい — 要件に応じて作成します

2. テストデータの準備

インターフェイスの場所： Data Management ページに移動し、右上隅の データセットを追加 ボタンをクリックします。

フォームに記入し、OK ボタンをクリックします。

項目	内容
次元名	QA テストデータ
説明	Evaluation Set タイプを選択します。 ❗ モデル評価は Evaluation Set タイプのデータセットのみをサポートし、トレーニングセットはサポートしません。
タイプ	Sample Data_QA Test Data.xlsx (CMS 添付ファイル、file_id=151014、オンラインでダウンロード) をアップロードします。

3. 評価タスクの作成

インターフェイスの場所：モデル評価ページに移動し、Evaluation Task タブを選択し、右上隅の 評価タスクを作成 ボタンをクリックします。

フォームに記入し、Evaluate ボタンをクリックします。

項目	内容
次元名	QA 精度テスト
評価対象	[Qwen-Plus] を選択します。
審判モデル	[Qwen-Max] を選択します。
[システムプロンプト]	空のままにします — このテストでは不要です。詳細については、「システムプロンプトとスコアラープロンプトの違い」をご参照ください。
スコアリングテンプレート	[セマンティック類似度] を選択し、以前に作成した「QA テストデータ」データセットを選択します。
スコア範囲	以前に作成した「一般常識 QA 精度」を選択します。
しきい値を通過	このテストは参加しません。

4. タスクステータスの確認

「QA 精度テスト」タスクを見つけ、その Evaluation Status 列を確認します：

実行待ち：リクエストが集中している時間帯には、評価タスクが実行キューに入ります。
実行中：システムが評価中です — しばらくお待ちください。
評価完了：評価が終了しました — 結果を表示できます。
評価失敗：評価タスクの実行に失敗しました。
評価終了：ユーザーによって評価タスクが手動で停止されました。

データ明細 タブを選択して、各データポイントの詳細なスコアリングを表示します。

列名	説明
状態	評価ステータス：保留中、進行中、評価完了、評価失敗、評価停止
番号	サンプル ID
[プロンプト]	元の質問
[Completion]	参照回答
[出力]	モデルが生成した応答
[評価ディメンション名]	評価ディメンション名に対応します — 例えば、「一般常識 QA 精度」— そしてスコアリング結果を表示します。
操作	利用可能なユーザー操作 — 例えば、[詳細] をクリックして完全な質問、回答、評価結果を表示します。

指標統計 タブを選択して評価統計を表示します。

メトリック名	説明	値の例
総合スコア	評価ディメンション全体の平均スコア	100
通過率	しきい値 (3 点以上) を満たすサンプルの割合	90%
評価セット総量	テストデータ項目の総数	10 項目
完了量	完了した評価の数	10 項目
未完了量	未完了の評価の数	0 項目

カスタム評価：大規模モデル評価 - 分類評価ディメンション

適用シナリオ：「はい/いいえ」や「合格/不合格」などの二値判断が必要な状況、例えばコンテンツモデレーションや回答の正当性検証など。

推奨事項：

プロンプトで各ラベルの判断条件を明確に指定します。
ジャッジモデルにラベル名のみを出力するように明示的に要求します。
サンプルを定期的にスポットチェックして、精度を確認します。

手順：

1. 評価ディメンションの作成

フォームに記入し、保存ボタンをクリックします。

項目	内容
次元名	感情分析
説明	顧客の感情を検出します
タイプ	自動を選択します
審判モデル	[Qwen-Max] を選択します
スコアリングテンプレート	[感情分析] を選択します
スコア範囲	変更不要 — デフォルトのコンテンツを使用します

関連ノート：

テンプレート	説明	適用シナリオ	カスタムプロンプトの要否
[標準一致] (デフォルト)	モデルの出力がリファレンス回答と一致するかどうかをチェックする、システムのプリセットテンプレートです。	分類ラベル、関数名、固定回答	いいえ—直接使用するか、必要に応じて変更してください。
[感情分析]	テキストの感情 (ポジティブ、ニュートラル、ネガティブ) を分析する、システムのプリセットテンプレートです。	ユーザーレビュー、カスタマーサービスの対話、世論モニタリング	いいえ—直接使用するか、必要に応じて変更してください。
カスタムスコアリング器	独自のプロンプトを作成します。	スタイル判定、コンプライアンスチェック、ロジック検証などのカスタムシナリオ	必須。必要に応じて作成してください。

2. テストデータの準備

インターフェイスの場所： Data Management ページに移動し、右上隅の データセットを追加 ボタンをクリックします。

フォームに記入し、OK ボタンをクリックします。

項目	内容
次元名	感情分析テストデータ
説明	評価データセットタイプを選択します。 ❗ モデル評価は評価データセットタイプのデータセットのみをサポートし、トレーニングセットはサポートしません。
タイプ	Sample Data_Sentiment Analysis.xlsx (ICMS 添付ファイル、file_id=151061、オンラインでダウンロード) をアップロードします。

3. 評価タスクの作成

インターフェイスの場所：モデル評価ページに移動し、Evaluation Task タブを選択し、右上隅の 評価タスクを作成 ボタンをクリックします。

フォームに記入し、Evaluate ボタンをクリックします。

項目	内容
次元名	感情分析テスト
評価次元	[感情分析] を選択します。
審判モデル	[Qwen-Max] を選択します。
[システムプロンプト]	空のままにします — このテストでは不要です。詳細については、「システムプロンプトとスコアラープロンプトの違い」をご参照ください。
スコアリングテンプレート	[セマンティック類似度] を選択し、以前に作成した「感情分析テストデータ」データセットを選択します。
スコア範囲	以前に作成した「感情分析」を選択します。
しきい値を通過	このテストには参加しません。

4. タスクステータスの確認

「感情分析テスト」タスクを見つけ、その Evaluation Status 列を確認します：

実行待ち：リクエストが集中している時間帯には、評価タスクが実行キューに入ります。
実行中：システムが評価中です — しばらくお待ちください。
評価完了：評価が終了しました — 結果を表示できます。
評価失敗：評価タスクの実行に失敗しました。
評価終了：ユーザーによって評価タスクが手動で停止されました。

データ明細 タブを選択して、各データポイントの詳細なスコアリングを表示します。

列名	説明
状態	評価ステータス：保留中、進行中、評価完了、評価失敗、評価中断
番号	サンプル ID
プロンプト	元の質問
参照回答	参照回答
出力	モデルが生成した応答
[評価ディメンション名]	評価ディメンション名 (例：「感情分析」) に対応し、分析結果を表示します。
操作	ユーザーが実行できる操作です。例えば、[詳細] をクリックすると、完全な質問、回答、および評価結果が表示されます。

指標統計 タブを選択して評価統計を表示します。

メトリック名	説明	値の例
総合スコア	評価ディメンション全体の平均スコア	40
通過率	合格したサンプルの割合	40%
得点の詳細 - データ項目の分布	分類評価結果の分布
評価セット総量	テストデータ項目の総数	10 項目
完了量	完了した評価の数	10 項目
未完了量	未完了の評価の数	0 項目

カスタム評価：大規模モデル評価 - 数値評価ディメンション

適用シナリオ：回答品質評価、コンテンツ安全性スコアリング、翻訳品質スコアリングなど、多次元の包括的なスコアリングが必要な状況。

推奨事項：

適切なスコア範囲と合格しきい値を設定します — バッチ評価の前に小規模でテストします。
適切なスコアラーテンプレートを選択します：一般的なシナリオには総合評価、参照回答があるシナリオにはセマンティック類似度。
カスタムスコアラープロンプトを作成する際は、スコアリング基準と値の範囲を明確に定義します。

手順：

1. 評価ディメンションの作成

フォームに記入し、保存ボタンをクリックします。

項目	内容
次元名	総合的な品質評価
説明	モデルの応答の総合的な品質を評価します
タイプ	大規模モデル評価 - 数値型を選択します
審判モデル	[Qwen-Max] を選択します
スコアリングテンプレート	[総合評価] (デフォルト) を選択します
[プロンプト]	変更は不要です。デフォルトの内容を使用します
スコア範囲	デフォルト値の 0～5 を使用します
しきい値を通過	デフォルト値の 3.0 を使用します。スコアが 3.0 以上のサンプルは「合格」とマークされます

関連ノート：

テンプレート	説明	適用シナリオ	カスタムプロンプトは必要ですか？
[総合評価] (デフォルト)	関連性、文化的感受性、情報量、明瞭さ、ユーザーエンゲージメントの 5 つのディメンションで応答をスコアリングするシステムプリセットテンプレートです。	一般的な回答品質評価	いいえ — 直接使用するか、必要に応じて変更します
[セマンティック類似度]	モデルの出力と参照回答との間のセマンティック類似度を評価するシステムプリセットテンプレートです。	ナレッジベースの QA や翻訳など、明確な参照回答があるシナリオ	いいえ — 直接使用するか、必要に応じて変更します
カスタム評価	独自のプロンプトを作成します — プロンプトでスコアリング基準と値の範囲を指定します。	専門分野の評価や特定のメトリックに基づくスコアリングなどのカスタムシナリオ	必須。必要に応じて作成します。

[スコア範囲] と [合格しきい値] について：

[スコア範囲]：ジャッジモデルのスコアリングの最小値と最大値の整数値を設定します (デフォルトは 0〜5)。ジャッジモデルはこの範囲内で各評価項目をスコアリングします。
[合格しきい値]：スコアがしきい値以上の場合は合格、下回る場合は不合格とマークされます。しきい値の範囲はスコア範囲によって制約され、小数 (ステップサイズ 0.1) をサポートします。デフォルトは 3.0 です。

2. テストデータの準備

インターフェイスの場所： Data Management ページに移動し、右上隅の データセットを追加 ボタンをクリックします。

フォームに記入し、OK ボタンをクリックします。

項目	内容
次元名	総合品質評価テストデータ
説明	評価データセットタイプを選択します。 ❗ モデル評価は評価データセットタイプのデータセットのみをサポートし、トレーニングセットはサポートしません。
タイプ	JSONL 形式のテストデータファイルをアップロードします。各行には prompt と completion フィールドが含まれます。

3. 評価タスクの作成

インターフェイスの場所：モデル評価ページに移動し、Evaluation Task タブを選択し、右上隅の 評価タスクを作成 ボタンをクリックします。

フォームに記入し、Evaluate ボタンをクリックします。

項目	内容
次元名	総合品質評価テスト
評価モデル	[Qwen-Max] を選択します。
審判モデル	[Qwen-Max] を選択します。
[システムプロンプト]	空のままにします — このテストでは不要です。詳細については、「システムプロンプトとスコアラープロンプトの違い」をご参照ください。
スコアリングテンプレート	[総合評価] を選択し、以前に作成した「総合品質評価テストデータ」データセットを選択します。
スコア範囲	以前に作成した「総合品質評価」を選択します。
しきい値を通過	このテストには参加しません。

4. タスクステータスの確認

「総合品質評価テスト」タスクを見つけ、その Evaluation Status 列を確認します：

実行待ち：リクエストが集中している時間帯には、評価タスクが実行キューに入ります。
実行中：システムが評価中です — しばらくお待ちください。
評価完了：評価が終了しました — 結果を表示できます。
評価失敗：評価タスクの実行に失敗しました。
評価終了：ユーザーによって評価タスクが手動で停止されました。

データ明細 タブを選択して、各データポイントの詳細なスコアリングを表示します。

カラム名	説明
状態	評価ステータス：保留中、進行中、評価完了、評価失敗、評価中止
番号	サンプル ID
プロンプト	元の質問
参照回答	参照回答
出力	モデルが生成した応答
[評価ディメンション名]	評価ディメンション名 (例：「包括的な品質評価」) と一致し、ジャッジモデルの数値スコアが表示されます。
操作	ユーザーが実行できる操作です。例として、[詳細] をクリックすると、質問、回答、および評価結果の全文を確認できます。

指標統計 タブを選択して評価統計を表示します。

メトリック名	説明	値の例
総合スコア	評価ディメンション全体の平均スコア (数値ディメンションの場合、これは全サンプルスコアの算術平均です)	3.8
通過率	合格しきい値以上のスコアを持つサンプルの割合	70%
評価セット総量	テストデータ項目の総数	10 項目
完了量	完了した評価の数	10 項目
未完了量	未完了の評価の数	0 項目

カスタム評価：ルールベース評価 - 文字列マッチング評価ディメンション

適用シナリオ：Function Calling や NL2SQL など、完全一致を必要とする固定回答フォーマット。

推奨事項：

正規化前処理：大文字小文字の標準化、空白のトリミング。
同義語については、代わりにテキスト類似度スコアラーの使用を検討してください。
期待値を検証するために、まず小規模なサンプルでマッチング規則をテストします。

手順：

1. 評価ディメンションの作成

フォームに記入し、保存ボタンをクリックします。

項目	内容
次元名	Function Calling 検証
説明	モデルが指定された関数を正しく呼び出したかどうかを確認します
タイプ	ルール評価 - 文字列マッチングを選択します
テキスト比較	3 列の行：左のテキストボックスに `${output}` (モデル出力) を入力し、中央の演算子ドロップダウンで含むを選択し、右のテキストボックスに `${completion}` (参照回答) を入力します。テキストボックスで `/` + Enter を入力すると、`${prompt}` / `${output}` / `${completion}` 変数を素早く挿入できます。左のテキストボックスにモデル出力変数、右のテキストボックスに参照回答変数を入力します

マッチング規則の選択方法：

ルール	動作説明	典型的な適用例
等しい	完全に同一 (大文字小文字を区別しない)	都市名の検証、固定回答
等しくない	完全に異なる (大文字小文字を区別しない)	禁止ワードのスクリーニング
含む	指定された文字列を含む	キーワードチェック、必須情報の検証
で始まる	指定された文字列で始まる	プレフィックス検証、フォーマットチェック
で終わる	指定された文字列で終わる	サフィックス検証、終端文字チェック

評価データの例：

{"prompt": "今日の北京の天気は？","completion": "query_weather"}

マッチング規則が「含む」の場合、モデルの出力に query_weather が含まれていれば、合格とマークされます。

2. テストデータの準備

インターフェイスの場所： Data Management ページに移動し、右上隅の データセットを追加 ボタンをクリックします。

フォームに記入し、OK ボタンをクリックします。

項目	内容
次元名	Function Calling テストデータ
説明	評価データセットタイプを選択します。 ❗ モデル評価は評価データセットタイプのデータセットのみをサポートし、トレーニングセットはサポートしません。
タイプ	Sample Data_Function_Calling.xlsx (ICMS 添付ファイル、file_id=151064、オンラインでダウンロード) をアップロードします。

3. 評価タスクの作成

インターフェイスの場所：モデル評価ページに移動し、Evaluation Task タブを選択し、右上隅の 評価タスクを作成 ボタンをクリックします。

フォームに記入し、Evaluate ボタンをクリックします。

項目	内容
次元名	Function Calling テスト
評価データセット	[Function Calling テストデータ] を選択します。
審判モデル	[Qwen-Max] を選択します。
システムプロンプト	空のままにします — このテストでは不要です。詳細については、「システムプロンプトとスコアラープロンプトの違い」をご参照ください。
スコアリングテンプレート	[包括的な評価] を選択し、以前に作成した "Function Calling test data" データセットを選択します。
スコア範囲	以前に作成した「Function Calling 検証」を選択します。
しきい値を通過	このテストには参加しません。

4. タスクステータスの確認

「Function Calling テスト」タスクを見つけ、その Evaluation Status 列を確認します：

実行待ち：リクエストが集中している時間帯には、評価タスクが実行キューに入ります。
実行中：システムが評価中です — しばらくお待ちください。
評価完了：評価が終了しました — 結果を表示できます。
評価失敗：評価タスクの実行に失敗しました。
評価終了：ユーザーによって評価タスクが手動で停止されました。

データ明細 タブを選択して、各データポイントの詳細なスコアリングを表示します。

列名	説明
状態	評価ステータス：保留中、進行中、評価完了、評価失敗、評価終了
番号	サンプル ID
プロンプト	元の質問
コンプリーション	参照回答
出力	モデルが生成した応答
[評価ディメンション名]	評価ディメンション名 (例：「Function Calling 検証」) と一致し、分析結果が表示されます。
操作	利用可能なユーザー操作です。例えば、[詳細] をクリックすると、完全な質問、回答、および評価結果が表示されます。

指標統計 タブを選択して評価統計を表示します。

メトリック名	説明	値の例
総合スコア	評価ディメンション全体の平均スコア	100
通過率	合格したサンプルの割合	100%
評価セット総量	テストデータ項目の総数	2 項目
完了量	完了した評価の数	2 項目
未完了量	未完了の評価の数	0 項目

カスタム評価：ルールベース評価 - テキスト類似度評価ディメンション

適用シナリオ：翻訳、要約、書き換えなど、回答の表現は異なるが意味が同じである状況。

推奨事項：

まず小規模なサンプルでテストします — しきい値を調整する前に合格率の分布を観察します。
単語の順序と完全一致に重点を置く → BLEU を選択します。
セマンティック理解に重点を置く → コサインを選択します。
エラー許容度が必要 → Fuzzy Match を選択します。
重要な情報のカバー率に重点を置く → ROUGE-L を選択します。

手順：

1. 評価ディメンションの作成

フォームに記入し、保存ボタンをクリックします。

項目	内容
次元名	翻訳品質
説明	中国語から英語への翻訳品質を評価します
タイプ	ルール評価 - テキスト類似度を選択します
類似度アルゴリズム	`BLEU_4` を選択します
スコアリングテンプレート	左：`${output}` 右：`${completion}` 左のテキストボックスにモデル出力変数、右のテキストボックスに参照回答変数を入力します
しきい値を通過	0.4 に設定します — 類似度が 0.4 以上のサンプルは合格とマークされます (範囲 0〜1)

類似度アルゴリズムの選択方法：

アルゴリズム	特徴	最適なシナリオ	しきい値の推奨
ROUGE-L	最長共通部分列に基づく	テキスト要約	0.4–0.6
BLEU	n-gram の精度マッチングに基づき、単語の順序に敏感	機械翻訳	0.3–0.5
コサイン	ベクトル空間の類似度を測定し、セマンティクスを捉える	オープン QA とセマンティック理解	0.6–0.8
Fuzzy Match	編集距離に基づき、高いエラー許容度を提供	OCR と音声認識	0.7–0.9
精度	完全一致が必要	正確な回答の検証	1.0

2. テストデータの準備

インターフェイスの場所： Data Management ページに移動し、右上隅の データセットを追加 ボタンをクリックします。

フォームに記入し、OK ボタンをクリックします。

項目	内容
次元名	中国語から英語へのテストデータ
説明	Evaluation Set タイプを選択します。 ❗ モデル評価は Evaluation Set タイプのデータセットのみをサポートし、トレーニングセットはサポートしません。
タイプ	Sample Data_Chinese-to-English.xlsx (ICMS 添付ファイル、file_id=151065、オンラインでダウンロード) をアップロードします。

3. 評価タスクの作成

インターフェイスの場所：モデル評価ページに移動し、Evaluation Task タブを選択し、右上隅の 評価タスクを作成 ボタンをクリックします。

フォームに記入し、Evaluate ボタンをクリックします。

項目	内容
次元名	翻訳品質評価
評価モデル	[Qwen-Max] を選択します。
審判モデル	[Qwen-Max] を選択します。
[システムプロンプト]	空のままにします — このテストでは不要です。詳細については、「システムプロンプトとスコアラープロンプトの違い」をご参照ください。
スコアリングテンプレート	[総合評価] を選択し、以前に作成した「中国語から英語へのテストデータ」データセットを選択します。
スコア範囲	以前に作成した「翻訳品質」を選択します。
しきい値を通過	このテストには含まれません

4. タスクステータスの確認

「翻訳品質評価」タスクを見つけ、その Evaluation Status 列を確認します：

実行待ち：リクエストが集中している時間帯には、評価タスクが実行キューに入ります。
実行中：システムが評価中です — しばらくお待ちください。
評価完了：評価が終了しました — 結果を表示できます。
評価失敗：評価タスクの実行に失敗しました。
評価終了：ユーザーによって評価タスクが手動で停止されました。

データ明細 タブを選択して、各データポイントの詳細なスコアリングを表示します。

列名	説明
状態	評価ステータス：保留中、進行中、評価完了、評価失敗、評価中断
番号	サンプル ID
プロンプト	元の質問
参照回答	参照回答
出力	モデルが生成した応答
[評価ディメンション名]	この列には、「翻訳品質」評価ディメンションの分析結果が表示されます。
操作	ユーザーが実行できる操作です。例えば、[詳細] をクリックすると、完全な質問、回答、および評価結果を表示できます。

指標統計 タブを選択して評価統計を表示します。

メトリック名	説明	値の例
総合スコア	評価ディメンション全体の平均スコア	100
通過率	合格したサンプルの割合	100%
評価セット総量	テストデータ項目の総数	3 件
完了量	完了した評価の数	3 件
未完了量	未完了の評価の数	0 件

カスタム評価：手動評価 - 分類評価ディメンション

適用シナリオ：創造性の評価や専門的な品質レビューなど、人間の主観的な判断が必要な状況。

推奨事項：

モデルの出力品質がアルゴリズムやジャッジモデルだけでは正確に判断できない場合に手動評価を使用します。
外部の評価ガイドで各ラベルの明確な判断基準を文書化し、アノテーターに一貫した理解を促すためのトレーニングを行います。
簡潔で明確な分類用語を使用して、考えられるすべての出力シナリオをカバーするようにラベルを設計します。
複数の評価者に一部のサンプルをクロスアノテーションしてもらい、一貫性を検証します。
一度に多くのデータをアノテーションするのを避け、疲労効果を減らすためにバッチで処理します。

手順：

1. 評価ディメンションの作成

フォームに記入し、保存ボタンをクリックします。

項目	内容
次元名	コンテンツの創造性
説明	コンテンツの創造性を評価します。
タイプ	人間による評価 - 分類型を選択します。
[合格]	「優秀」と「良い」の 2 つのラベルを作成します。
[不合格]	「普通」と「悪い」の 2 つのラベルを作成します。

2. テストデータの準備

インターフェイスの場所： Data Management ページに移動し、右上隅の データセットを追加 ボタンをクリックします。

フォームに記入し、OK ボタンをクリックします。

項目	内容
次元名	コンテンツ創造性テストデータ
説明	評価データセットタイプを選択します。 ❗ モデル評価は評価データセットタイプのデータセットのみをサポートし、トレーニングセットはサポートしません。
タイプ	Sample Data_Content Creativity.xlsx (ICMS 添付ファイル、file_id=151066、オンラインでダウンロード) をアップロードします。 Completion は空のままにして、モデルに応答を生成させます。

3. 評価タスクの作成

インターフェイスの場所：モデル評価ページに移動し、Evaluation Task タブを選択し、右上隅の 評価タスクを作成 ボタンをクリックします。

フォームに記入し、Evaluate ボタンをクリックします。

項目	内容
次元名	コンテンツ創造性評価
評価モデル	[Qwen-Plus] を選択します。
審判モデル	[Qwen-Max] を選択します。
[システムプロンプト]	空のままにします — このテストでは不要です。詳細については、「システムプロンプトとスコアラープロンプトの違い」をご参照ください。
スコアリングテンプレート	[カスタム評価] を選択し、以前に作成した「コンテンツ創造性テストデータ」データセットを選択します。
スコア範囲	以前に作成した「コンテンツ創造性」を選択します。
しきい値を通過	このテストには含まれません。

4. タスクステータスの確認

「コンテンツ創造性評価」タスクを見つけ、その Evaluation Status 列を確認します — 実行中 ステータスが表示されます。手動評価には手動でのアノテーションが必要です — システムは自動的にスコアリングしません。タスク名 列をクリックして詳細ページに移動します。

データ明細 タブを選択し、Actions 列の Annotate ボタンをクリックして手動でアノテーションを行います。すべてのデータにラベルを付けた後、タスクの Evaluation Status は 評価完了 に変わります。

列名	説明
状態	評価ステータス：進行中
番号	サンプル ID
プロンプト	元の質問
完了	参照回答
[出力]	モデルが生成した応答
[評価ディメンション名]	評価ディメンション名に対応します — 例えば、「コンテンツ創造性評価」— そして分析結果を表示します。
操作	利用可能なユーザー操作 — 例えば、[詳細] をクリックして完全な質問、回答、評価結果を表示します。

指標統計 タブを選択して評価統計を表示します。

メトリック名	説明	値の例
総合スコア	評価ディメンション全体の平均スコア	100
得点の詳細 - データ項目の分布	分類評価結果の分布
通過率	合格したサンプルの割合	100%
評価セット総量	テストデータ項目の総数	3 項目
完了量	完了した評価の数	3 項目
未完了量	未完了の評価の数	0 項目

リーダーボードを使用した複数モデルの比較

適用シナリオ：同じ評価ディメンションで複数のモデルのパフォーマンスを比較し、リーダーボードを通じてモデルのランキングを視覚的に確認します。

推奨事項：

同じモデルシリーズ内の異なる仕様を比較します (例：qwen-max、qwen-plus、qwen-turbo)。
異なるベンダーのモデルを比較します (例：Qwen vs DeepSeek)。
同じモデルの異なるバージョンや構成を比較します。

前提条件：カスタム評価ディメンションを作成済みであること。

手順：

1. リーダーボードの作成

インターフェイスの場所：モデル評価ページに移動し、ランキング タブを選択し、右上隅の ランキングを作成する ボタンをクリックします。

フォームに記入し、OK ボタンをクリックします。

項目	内容
ランキング名	一般常識 QA 精度リーダーボード
評価ディメンション	既存の評価ディメンション (例：一般常識 QA 精度) を選択します。
関連するオプションタスク	既存の評価タスクを今すぐ選択するか、後で追加することができます。

注意：

各リーダーボードは最大 50 の評価タスクをサポートします。
リーダーボードを作成した後、その評価ディメンションは変更できません。
公正な比較を保証するため、同じリーダーボード内のすべてのタスクは同じ評価ディメンションを使用します。

2. リーダーボードに評価タスクを追加する

インターフェイスの場所：モデル評価ページに移動し、ランキング タブを選択し、リーダーボード名をクリックして詳細ページに移動します。

リーダーボードは 2 つの方法で 評価タスクを追加 をサポートします：

方法 1：新しいタスクを作成する

リーダーボードの詳細ページで、評価タスクを追加 ボタンをクリックします。
新しいタスクを作成する をクリックします。
システムは自動的にタスク作成ページにリダイレクトし、リーダーボードが事前にリンクされます：
- ランキングに参加するかどうか：自動的にチェックされ、ロックされます — チェックを外すことはできません。
- ランキング：現在のリーダーボード名が自動的に入力され、ロックされます。
- 評価次元：リーダーボードにリンクされたディメンションが自動的に入力され、ロックされます。
その他の必須フィールドを入力します：
- タスク名：タスク名を入力します — 簡単に識別できるようにモデル情報を含めます。
- 評価モデル：評価するモデルを選択します。
- データソース：評価データセットを選択します。
Evaluate ボタンをクリックします。

方法 2：既存のタスクを選択する

リーダーボードの詳細ページで、評価タスクを追加 ボタンをクリックします。
既存のタスクを選択する をクリックします。
リーダーボードに追加する完了した評価タスクを選択します。
OK ボタンをクリックします。

注意：

同じ評価ディメンションを使用した完了済みのタスクのみがリーダーボードに参加できます。
正確な比較結果を得るために、同じ評価データセットを使用してください。

3. リーダーボードの結果を表示する

リーダーボードの詳細ページには以下が表示されます：

列名	説明
ランキング	リーダーボードのスコアに基づいて自動的に計算されるランキング — スコアが高いほどランキングが高くなります。
タスク名	評価タスクの名前。
評価モデル	タスクで使用されたモデル名。
ランキングスコア	現在の評価ディメンションにおけるこのタスクの総合スコア (範囲：0〜100)。
[評価ディメンション名]	このディメンションの特定のスコアを表示します — 例えば、「セマンティック類似度」ディメンションは平均類似度スコアを表示します。
操作	タスクの削除 (タスク自体に影響を与えることなく、リーダーボードからタスクを削除します)。

注意：

ランキングスコア は、タスクの評価が進むにつれてリアルタイムで更新されます。
進行中のタスクはスコア列に「-」と表示されます。
タスク名 をクリックすると、詳細な評価データを表示できます。

高度なテクニック

評価ディメンション設計のベストプラクティス

単一責任：

各評価ディメンションは 1 つの評価目標に集中すべきです。
複数の基準を混在させないでください。
例：「精度」と「流暢さ」を同じディメンションで評価しないでください。

定量化可能な基準：

可能な限り客観的で定量化可能な基準を使用します。
主観性を減らします。
各スコアレベルに明確な基準を提供します。

反復的な最適化：

評価フィードバックに基づいてプロンプトを継続的に最適化します。
評価の精度を検証するために定期的にスポットチェックします。
人間と AI のスコアリングを比較して評価基準を調整します。

プロンプト作成テクニック

Alibaba Cloud Model Studio の「プロンプトのベストプラクティス」および「プラグイン」をご参照ください。モデルのファインチューニングなしでモデルのパフォーマンスを最大限に引き出す方法を学ぶことができます。

コスト最適化の推奨事項

評価方法を賢く選択する：

ルールベース評価はコストが最も低く、フォーマットされた出力の検証に最適です。
大規模モデル評価はコストが高く、セマンティック理解が必要なシナリオで使用します。
手動評価は最も高価で、人間の判断が必要な場合に限定して使用します。

推論結果セットを使用する：

頻繁に評価されるベースラインモデルについては、出力を推論結果セットとして保存します。
推論コストを削減するために、モデルの繰り返し呼び出しを避けます。

段階的な評価：

まず小規模なデータセット (50〜100 項目) で構成を検証します。
正しい設定を確認した後、200〜500 項目にスケールアップします。

バッチ評価：

効率を向上させるために、複数のモデルを同時に評価します。
同じ評価タスクで複数のモデルを選択します。

評価結果の分析方法

スコア分布の監視：

各スコアレベルのサンプル数を確認します。
問題のあるクラスタリング (例：すべてのスコアが 3 点) を特定します。
スコアリング基準またはしきい値を調整します。

典型的なサンプルの分析：

高スコアのサンプルをレビューする：モデルの強みを理解します。
低スコアのサンプルをレビューする：モデルの弱点を特定します。
境界線のサンプルをレビューする：評価基準を洗練させます。

異なるモデルの比較：

合計スコアだけでなく、異なるシナリオでのパフォーマンスを調べます。
各モデルの長所と短所を特定します。
ビジネスの優先順位に基づいて適切なモデルを選択します。

モデルの反復を追跡する：

定期的な評価サイクルを確立します。
各ファインチューニング後の評価結果を記録します。
ファインチューニングの方向性が正しいかどうかを分析します。

一般的な問題のトラブルシューティング

評価結果が期待どおりでない：

テストデータがビジネスシナリオを代表しているか検証します。
評価ディメンションのプロンプトが明確であるかレビューします。
スコア範囲としきい値の調整を試みます。
ジャッジモデルやスコアラーテンプレートの変更を検討します。

スコアが過度に集中している：

スコアリング基準が広すぎる → 各スコアレベルの説明を洗練させます。
テストデータの多様性が不足している → エッジケースや異常なサンプルを追加します。
ジャッジモデルが保守的すぎる → より能力の高い推論モデルに切り替えます。

評価ディメンション間で結果が矛盾する：

これは正常です — モデルはディメンションによってパフォーマンスが異なります。
ビジネスの優先順位に応じてディメンションに重み付けをします。
単一のディメンションに依存せず、全体的に意思決定を行います。

モデルの出力に頻繁にこれらの欠陥が見られる場合は、ナレッジベースの追加を検討してください：

モデルの出力が参照回答と全く無関係 (モデルが関連する背景知識を明らかに欠いている)。
モデルの出力が参照回答と部分的に関連している (モデルは背景知識を持っているが、それが古い)。

課金情報

モデル評価のコストは、評価対象モデルの推論コストとジャッジモデルのスコアリングコストの 2 つの部分から構成されます。

評価対象モデルの推論コスト

モデルタイプ	課金対象か？	課金詳細
プリセットモデル (qwen-max、qwen-plus など)	はい	トークン消費量に基づいて課金されます
独立してデプロイされたモデル (ファインチューニングおよびデプロイ済み)	いいえ	追加料金なし

評価対象モデルの課金計算式：

入力トークンには以下が含まれます：

システムプロンプト (構成されている場合)
評価データからのプロンプト (ユーザーの質問)

出力トークンには以下が含まれます：

モデルが生成した応答 (Output)

ジャッジモデルのスコアリングコスト (期間限定で無料)

大規模モデル評価 (数値、分類) のみ、ジャッジモデルの使用が含まれます。

完全なコスト計算例

シナリオ：qwen-plus を使用して 100 個のデータ項目を 大規模モデル評価 - 数値型 で評価し、qwen-max をジャッジモデルとして使用します。

前提：プロンプトあたり平均 50 トークン、出力あたり 200 トークン、スコアラープロンプトあたり 500 トークン、ジャッジモデル出力あたり 5 トークン。

コスト計算 (qwen-plus 入力 $0.26/1M トークン、出力 $0.78/1M トークン；ジャッジモデルは Model Studio コンソールの価格設定に従って課金)：

評価対象モデル：5,000/1,000,000 × 0.26 + 20,000/1,000,000 × 0.78 = $0.0013 + $0.0156 = $0.017
ジャッジモデル：現在の Model Studio コンソールの価格設定に従って課金されます。
合計コスト ≈ $0.017 (ジャッジモデルのコストを除く)。

料金参照

最新の料金： Model Studio コンソールをご参照ください。

注意：

料金は変更される可能性があります — 常にコンソールの表示をご参照ください。
一部のモデルには期間限定のプロモーションオファーがある場合があります。

次のステップ

評価されたモデルのパフォーマンスに満足している場合は、モデルの呼び出しを開始し、ビジネスワークフローに統合します。
評価されたモデルのパフォーマンスに不満がある場合は、再評価のために別のモデルを選択します。また、ACA 生成 AI エンジニア認定の学習と取得を検討することもできます。その無料の付属コースは、大規模モデルの能力、適用シナリオ、最適化テクニックを体系的に理解するのに役立ちます。

クイックスタート

モデル評価とは

モデル評価を行う理由

シナリオ 1：モデル選択の意思決定

シナリオ 2：ファインチューニング効果の検証

シナリオ 3：モデル能力の定量化

シナリオ 4：モデルパフォーマンスの継続的なモニタリング

コアバリューのまとめ

評価ワークフロー

クイック体験

1. 評価ディメンションの作成

2. テストデータの準備

3. 評価タスクの作成

4. タスクステータスの確認

基本概念

カスタム評価の概要

カスタム評価

サポート対象モデル

評価ディメンション

評価データ

リーダーボード

コア変数

システムプロンプトとスコアラープロンプトの違い

詳細な説明

分かりやすい例え

シナリオベースの実践ケース

カスタム評価：大規模モデル評価 - 数値型 評価ディメンション

1. 評価ディメンションの作成

2. テストデータの準備

3. 評価タスクの作成

4. タスクステータスの確認

カスタム評価：大規模モデル評価 - 分類評価ディメンション

1. 評価ディメンションの作成

2. テストデータの準備

3. 評価タスクの作成

4. タスクステータスの確認

カスタム評価：大規模モデル評価 - 数値評価ディメンション

1. 評価ディメンションの作成

2. テストデータの準備

3. 評価タスクの作成

4. タスクステータスの確認

カスタム評価：ルールベース評価 - 文字列マッチング評価ディメンション

1. 評価ディメンションの作成

2. テストデータの準備

3. 評価タスクの作成

4. タスクステータスの確認

カスタム評価：ルールベース評価 - テキスト類似度評価ディメンション

1. 評価ディメンションの作成

2. テストデータの準備

3. 評価タスクの作成

4. タスクステータスの確認

カスタム評価：手動評価 - 分類評価ディメンション

1. 評価ディメンションの作成

2. テストデータの準備

3. 評価タスクの作成

4. タスクステータスの確認

リーダーボードを使用した複数モデルの比較

1. リーダーボードの作成

2. リーダーボードに評価タスクを追加する

3. リーダーボードの結果を表示する

高度なテクニック

評価ディメンション設計のベストプラクティス

プロンプト作成テクニック

コスト最適化の推奨事項

評価結果の分析方法

一般的な問題のトラブルシューティング

課金情報

評価対象モデルの推論コスト

ジャッジモデルのスコアリングコスト (期間限定で無料)

完全なコスト計算例

料金参照

次のステップ

カスタム評価：大規模モデル評価 - 数値型評価ディメンション