モデル評価 (ModelEval) - Platform For AI - Alibaba Cloud ドキュメントセンター

モデル評価（ModelEval）は、PAI プラットフォーム上で提供されるツールであり、特定または一般的なシナリオにおいて、大規模言語モデル（LLM）を包括的かつ効率的に評価できます。信頼性の高い公開データセットまたはカスタムビジネスデータセットを用いて、モデルの能力を定量的に分析し、モデル選定、ファインチューニング、およびバージョン反復のための根拠となるデータを提供します。

クイックスタート：5 分で最初のモデル評価を完了

このセクションでは、最小限の構成で実行できるシンプルな評価タスクの手順を説明します。公開の CMMLU データセットを用いて、Qwen3-4B モデルの中国語理解および推論能力を評価します。

PAI コンソールにログインします。左側のナビゲーションウィンドウで、モデルアプリケーション > モデル評価（ModelEval） を選択します。
モデル評価ページで、タスクの作成 をクリックします。
基本設定：システムが自動生成した タスク名 および 結果出力パス を使用します。
説明
ワークスペースにデフォルトの OSS ストレージパスが設定されていない場合は、結果出力パスを手動で選択してください。
評価モードの構成： 単一モデル評価 を選択します。
評価対象の構成：
- 評価対象タイプを 公開モデル に設定します。
- 公開モデル のドロップダウンリストから Qwen3-4B を検索して選択します。
評価手法の構成：
- 公開データセットによる評価 を選択します。
- データセット一覧から CMMLU を選択します。
リソースの構成：
- リソースグループタイプ： パブリックリソースグループ（従量課金） を選択します。
- リソース構成方法： 標準リソース を選択します。
- リソース仕様： GPU 仕様（例： ecs.gn7i-c8g1.2xlarge（24 GB））を選択します。
  該当仕様のインスタンスが在庫切れの場合、別の GPU インスタンスを選択してください。
タスクの送信：ページ下部の OK をクリックします。

タスクを送信すると、ページが自動的にタスク詳細画面にリダイレクトされます。成功にステータスが変更されるまでお待ちください。その後、評価レポート タブで、Qwen3-4B モデルの CMMLU データセットにおけるパフォーマンスを確認できます。

機能の詳細

評価対象の構成

ModelEval では、評価対象として以下の 4 種類のソースをサポートしています。モデルまたはサービスのデプロイ先に応じて、適切なものを選択してください。

評価対象タイプ	説明	利用シーン
公開モデル	PAI モデルギャラリーから提供されるモデル	主流のオープンソース LLM のパフォーマンスを迅速に評価
カスタムモデル	AI アセット管理 > モデルに登録済みのカスタムモデル重要モデルが vLLM フレームワークと互換であることをご確認ください。	ファインチューニングまたはカスタマイズ済みモデルの評価
PAI-EAS サービス	デプロイ済みの PAI-EAS オンライン推論サービス	本番環境におけるモデルサービスの評価
カスタムサービス	OpenAI API 仕様に準拠する任意のモデルサービス	サードパーティ製または自社構築のモデルサービスの評価

評価手法の構成

評価には、カスタムデータセット、公開データセット、またはその両方を組み合わせた手法を使用できます。

カスタムデータセットを用いた評価

自社のデータセットを用いることで、業務シナリオに密接に合致した評価結果を得られます。

データセット形式： UTF-8 エンコーディングの JSONL 形式である必要があります。各行は 1 つの JSON オブジェクトで構成されます。
データセットのアップロード：準備済みのデータセットファイルを OSS にアップロードし、構成ページでその OSS パスを入力します。

評価手法	一般メトリック評価	LLM-as-a-Judge 評価
目的	正解（ground truth）が明確に定義されている場合に使用します。モデル出力と正解とのテキスト類似度を計算します。翻訳、要約、ナレッジベースの質問応答などのタスクに適しています。	質問に対して唯一の正解が存在しない場合（例：オープンエンドな会話やコンテンツ作成など）に使用します。「LLM-as-a-Judge」として機能する強力な LLM を用いて、モデル応答の品質を評価・採点します。
データセット形式	JSON オブジェクトには、`question` フィールドおよび `answer`（正解）フィールドが含まれている必要があります。 `{"question": "中国の首都はどこですか？", "answer": "北京"}`	JSON オブジェクトには `question` フィールドのみを含めることも、`answer`（正解）フィールドを追加することもできます。 `{"question": "人工知能の歴史について説明してください"}`
主要メトリック	ROUGE（ROUGE-1、ROUGE-2、ROUGE-L）：再現率に基づき、正解に含まれる情報ポイントのうち、モデル出力でカバーされた割合を測定します。 BLEU（BLEU-1、BLEU-2、BLEU-3、BLEU-4）：適合率に基づき、モデル出力の内容のうち、正確な割合を測定します。	システムは、`question` および評価対象モデルの出力を「LLM-as-a-Judge」に送信します。審査役となる LLM は、関連性、正確性、流暢性などの複数のディメンションに基づき、包括的なスコアを付与します。

公開データセットを用いた評価

業界で広く認知され、信頼性の高いデータセットを活用し、モデルの能力を業界ベンチマークと比較できます。

目的：モデル選定のための比較、リリース前のベンチマークテストの実施、モデルの汎用的能力の評価
構成： 公開データセットによる評価 を選択し、一覧から 1 つ以上のデータセットを選択します。
サポートされるデータセット：
- LiveCodeBench：コード処理能力を評価
- Math500：数学的推論能力を評価（難易度の高い数学コンペティション問題 500 問）
- AIME25：数学的推論能力を評価（2025 年米国招待数学試験（AIME）の問題を基に）
- AIME24：数学的推論能力を評価（2024 年米国招待数学試験（AIME）の問題を基に）
- CMMLU：中国語の多分野言語理解能力を評価
- MMLU：英語の多分野言語理解能力を評価
- C-Eval：包括的な中国語能力を評価
- GSM8K：数学的推論能力を評価
- HellaSwag：常識的推論能力を評価
- TruthfulQA：正確性（真実性）を評価

タスク管理

モデル評価ページでは、評価タスクのライフサイクル全体を管理できます。

レポートの表示：ステータスが成功のタスクについては、このボタンをクリックして詳細な評価レポートを表示します。
比較：成功したタスクを 2～5 件選択し、比較ボタンをクリックすることで、さまざまなメトリックにおけるパフォーマンスを並列で比較できます。
停止：ステータスが 実行中 のタスクを手動で停止できます。この操作は取り消せません。タスクは再開できず、消費済みの計算リソースの返金も行われません。
削除：タスク記録を削除します。この操作は元に戻せません。

課金

ModelEval の課金項目は以下のとおりです。

計算リソース

リソースタイプ

課金方法

課金対象

課金ルール

パブリックリソース

従量課金

実際の実行時間

課金額 = （単価 ÷ 60）× サービス実行時間（分）

各インスタンスの単価については、コンソールページのインスタンス価格をご確認ください。

リソースクォータ

サブスクリプション

購入したノード仕様の数量および契約期間

専用リソースをサブスクリプションで購入します。ノード仕様の数量および契約期間に基づき課金されます。詳細については、「AI 計算リソースの課金」をご参照ください。

LLM-as-a-Judge

評価手法として LLM-as-a-Judge 評価を選択した場合、追加の料金が発生します。