Model Evaluation (ModelEval) は、PAI プラットフォーム上で大規模言語モデル (LLM) のパフォーマンスを、汎用タスクとドメイン固有タスクの両方で体系的に評価するためのツールを提供します。権威ある公開データセットや独自のカスタムデータセットを使用してモデルの能力をベンチマークし、モデルの選定、ファインチューニング、バージョンアップに関するデータに基づいた意思決定を支援します。
クイックスタート:5分で最初のモデル評価を実行
このセクションでは、最小限の設定で簡単な評価タスクを実行する方法を説明します。具体的には、公開されている CMMLU データセットで Qwen3-4B モデルを評価します。
PAI コンソールにログインします。左側のナビゲーションウィンドウで、[モデルアプリケーション] > [モデル評価 (ModelEval)] を選択します。
ModelEval ページで、[タスクの作成] をクリックします。
[基本設定]:デフォルトの [ジョブ名] と [結果の出力パス] はシステムによって自動生成されます。
説明ご利用のワークスペースにデフォルトの OSS ストレージパスが設定されていない場合は、結果の出力パスを手動で指定する必要があります。
評価パターン構成: [単一モデル評価] を選択します。
[評価オブジェクトの設定]:
[評価オブジェクトタイプ] で、[公開モデル] を選択します。
[パブリックモデル] では、
Qwen3-4Bを検索して選択します。
[評価メソッドの設定]:
[公開データセット評価] を選択します。
データセットリストから CMMLU を選択します。
リソースの構成:
[リソースグループタイプ] を [パブリックリソースグループ (従量課金)] に設定し、[リソース設定方式] を [一般リソース] に設定します。
[リソース仕様] ドロップダウンリストから、GPU 仕様 (例:
ecs.gn7i-c8g1.2xlarge(24 GB)) を選択します。
タスクの送信:ページ下部の [OK] をクリックします。
タスクを送信すると、ページは自動的にタスク詳細にリダイレクトされます。タスクのステータスが [成功] に変わるまで待ちます。その後、[評価レポート] タブで、CMMLU データセットにおける Qwen3-4B モデルのパフォーマンスを確認できます。
機能
評価オブジェクトの設定
ModelEval は 4 種類の評価オブジェクトをサポートしています。モデルまたはサービスのデプロイ方法に基づいてタイプを選択してください。
評価オブジェクトタイプ | 説明 | 利用シーン |
公開モデル | PAI モデルギャラリーのモデル。 | 人気のオープンソース LLM のパフォーマンスを迅速に評価します。 |
カスタムモデル | に登録したカスタムモデル。 重要 vLLM フレームワークがモデルと互換性があることを確認してください。 | ファインチューニングまたはカスタマイズされたモデルを評価します。 |
PAI-EAS サービス | デプロイ済みの PAI-EAS オンライン推論サービス。 | 本番環境のモデルサービスを評価します。 |
カスタムサービス | OpenAI API 仕様に準拠する任意のモデルサービス。 | サードパーティまたはセルフホストのモデルサービスを評価します。 |
評価メソッドの設定
評価には、カスタムデータセット、公開データセット、またはその両方の組み合わせを使用できます。
カスタムデータセット評価
独自のデータセットを使用してモデルを評価し、実際のビジネスシナリオを正確に反映させます。
データセットフォーマット:JSON Lines (JSONL) フォーマットである必要があります。各行に UTF-8 でエンコードされた 1 つの JSON オブジェクトを記述します。
データセットのアップロード:データセットファイルを OSS にアップロードし、設定ページでその OSS パスを指定します。
評価メソッド | 一般メトリック評価 | 判定モデル評価 |
ユースケース | このメソッドは、明確な参照回答がある場合に使用します。モデルの出力と参照回答のテキスト的な類似度を計算します。翻訳、要約、ナレッジベース Q&A などのタスクに適しています。 | このメソッドは、オープンエンドな会話やコンテンツ作成など、単一の正解がない場合に使用します。強力な判定モデルを使用して、モデルの応答の品質をスコアリングします。 |
データセットフォーマット | JSON オブジェクトには | JSON オブジェクトには |
コアメトリック |
| システムは、 |
公開データセット評価
業界で認知された権威あるデータセットを使用してモデルを評価し、その能力を業界のベンチマークと比較します。
ユースケース:モデル選定のためのモデル比較、リリース前のベンチマーキング、モデルの汎用能力の評価。
設定:[公開データセット評価] を選択し、リストから 1 つ以上のデータセットを選択します。
サポートされているデータセット:
LiveCodeBench:コードの理解と生成を評価します。
Math500:500 の挑戦的な数学コンテスト問題で数学的推論を評価します。
AIME25:2025 年の米国招待数学試験に基づいて数学的推論を評価します。
AIME24:2024 年の米国招待数学試験に基づいて数学的推論を評価します。
CMMLU:中国語の多分野にわたる言語理解を評価します。
MMLU:英語の多分野にわたる言語理解を評価します。
C-Eval:中国語の総合的な能力を評価します。
GSM8K:数学的推論を評価します。
HellaSwag:常識的推論を評価します。
TruthfulQA:真実性と事実性を評価します。
タスク管理
ModelEval ページでは、評価タスクを管理できます。
レポートの表示:[成功] したタスクについては、[レポートの表示] をクリックして詳細な評価レポートを表示します。
比較:成功したタスクを 2~5 個選択し、[比較] をクリックすると、さまざまなメトリックにおけるパフォーマンスの並列比較が表示されます。
停止:[実行中] のタスクを手動で停止できます。この操作は元に戻せません。タスクは再開できず、すでに消費された計算リソースの料金は返金されません。
削除:タスクレコードを削除します。この操作は元に戻せません。