モデル評価(ModelEval)は、PAI プラットフォーム上で提供されるツールであり、特定または一般的なシナリオにおいて、大規模言語モデル(LLM)を包括的かつ効率的に評価できます。信頼性の高い公開データセットまたはカスタムビジネスデータセットを用いて、モデルの能力を定量的に分析し、モデル選定、ファインチューニング、およびバージョン反復のための根拠となるデータを提供します。
クイックスタート:5 分で最初のモデル評価を完了
このセクションでは、最小限の構成で実行できるシンプルな評価タスクの手順を説明します。公開の CMMLU データセット を用いて、Qwen3-4B モデルの中国語理解および推論能力を評価します。
PAI コンソール にログインします。左側のナビゲーションウィンドウで、モデルアプリケーション > モデル評価(ModelEval) を選択します。
モデル評価ページで、タスクの作成 をクリックします。
基本設定:システムが自動生成した タスク名 および 結果出力パス を使用します。
説明ワークスペースにデフォルトの OSS ストレージパスが設定されていない場合は、結果出力パスを手動で選択してください。
評価モードの構成: 単一モデル評価 を選択します。
評価対象の構成:
評価対象タイプを 公開モデル に設定します。
公開モデル のドロップダウンリストから
Qwen3-4Bを検索して選択します。
評価手法の構成:
公開データセットによる評価 を選択します。
データセット一覧から CMMLU を選択します。
リソースの構成:
リソースグループタイプ: パブリックリソースグループ(従量課金) を選択します。
リソース構成方法: 標準リソース を選択します。
リソース仕様: GPU 仕様(例:
ecs.gn7i-c8g1.2xlarge(24 GB))を選択します。該当仕様のインスタンスが在庫切れの場合、別の GPU インスタンスを選択してください。
タスクの送信:ページ下部の OK をクリックします。
タスクを送信すると、ページが自動的にタスク詳細画面にリダイレクトされます。成功 にステータスが変更されるまでお待ちください。その後、評価レポート タブで、Qwen3-4B モデルの CMMLU データセットにおけるパフォーマンスを確認できます。
機能の詳細
評価対象の構成
ModelEval では、評価対象として以下の 4 種類のソースをサポートしています。モデルまたはサービスのデプロイ先に応じて、適切なものを選択してください。
評価対象タイプ | 説明 | 利用シーン |
公開モデル | PAI モデルギャラリーから提供されるモデル | 主流のオープンソース LLM のパフォーマンスを迅速に評価 |
カスタムモデル | に登録済みのカスタムモデル 重要 モデルが vLLM フレームワークと互換であることをご確認ください。 | ファインチューニングまたはカスタマイズ済みモデルの評価 |
PAI-EAS サービス | デプロイ済みの PAI-EAS オンライン推論サービス | 本番環境におけるモデルサービスの評価 |
カスタムサービス | OpenAI API 仕様に準拠する任意のモデルサービス | サードパーティ製または自社構築のモデルサービスの評価 |
評価手法の構成
評価には、カスタムデータセット、公開データセット、またはその両方を組み合わせた手法を使用できます。
カスタムデータセットを用いた評価
自社のデータセットを用いることで、業務シナリオに密接に合致した評価結果を得られます。
データセット形式: UTF-8 エンコーディングの JSONL 形式である必要があります。各行は 1 つの JSON オブジェクトで構成されます。
データセットのアップロード: 準備済みのデータセットファイルを OSS にアップロードし、構成ページでその OSS パスを入力します。
評価手法 | 一般メトリック評価 | LLM-as-a-Judge 評価 |
目的 | 正解(ground truth)が明確に定義されている場合に使用します。モデル出力と正解とのテキスト類似度を計算します。翻訳、要約、ナレッジベースの質問応答などのタスクに適しています。 | 質問に対して唯一の正解が存在しない場合(例: オープンエンドな会話やコンテンツ作成など)に使用します。「LLM-as-a-Judge」として機能する強力な LLM を用いて、モデル応答の品質を評価・採点します。 |
データセット形式 | JSON オブジェクトには、 | JSON オブジェクトには |
主要メトリック |
| システムは、 |
公開データセットを用いた評価
業界で広く認知され、信頼性の高いデータセットを活用し、モデルの能力を業界ベンチマークと比較できます。
目的: モデル選定のための比較、リリース前のベンチマークテストの実施、モデルの汎用的能力の評価
構成: 公開データセットによる評価 を選択し、一覧から 1 つ以上のデータセットを選択します。
サポートされるデータセット:
LiveCodeBench: コード処理能力を評価
Math500: 数学的推論能力を評価(難易度の高い数学コンペティション問題 500 問)
AIME25: 数学的推論能力を評価(2025 年米国招待数学試験(AIME)の問題を基に)
AIME24: 数学的推論能力を評価(2024 年米国招待数学試験(AIME)の問題を基に)
CMMLU: 中国語の多分野言語理解能力を評価
MMLU: 英語の多分野言語理解能力を評価
C-Eval: 包括的な中国語能力を評価
GSM8K: 数学的推論能力を評価
HellaSwag: 常識的推論能力を評価
TruthfulQA: 正確性(真実性)を評価
タスク管理
モデル評価ページでは、評価タスクのライフサイクル全体を管理できます。
レポートの表示: ステータスが 成功 のタスクについては、このボタンをクリックして詳細な評価レポートを表示します。
比較: 成功したタスクを 2~5 件選択し、比較 ボタンをクリックすることで、さまざまなメトリックにおけるパフォーマンスを並列で比較できます。
停止: ステータスが 実行中 のタスクを手動で停止できます。この操作は取り消せません。タスクは再開できず、消費済みの計算リソースの返金も行われません。
削除: タスク記録を削除します。この操作は元に戻せません。
課金
ModelEval の課金項目は以下のとおりです。
計算リソース
リソースタイプ | 課金方法 | 課金対象 | 課金ルール |
パブリックリソース | 従量課金 | 実際の実行時間 |
各インスタンスの単価については、コンソールページのインスタンス価格をご確認ください。 |
リソースクォータ | サブスクリプション | 購入したノード仕様の数量および契約期間 | 専用リソースをサブスクリプションで購入します。ノード仕様の数量および契約期間に基づき課金されます。詳細については、「AI 計算リソースの課金」をご参照ください。 |
LLM-as-a-Judge
評価手法として LLM-as-a-Judge 評価を選択した場合、追加の料金が発生します。