モデルギャラリーは、事前にトレーニングされたさまざまな大規模言語モデル (LLM) を統合しています。 このトピックでは、モデル評価機能を使用してLLMの機能を評価し、Platform for AI (PAI) コンソールのモデルギャラリーページでビジネス要件を満たすLLMを取得する方法について説明します。
概要
モデル評価機能を使用すると、カスタムデータセットまたはパブリックデータセットに基づいてLLMを評価できます。
カスタムデータセットベースの評価には以下が含まれます。
ルールベースの評価では、モデルの予測結果と実際の結果との差を計算するために、リコール指向のGisting evaluation (ROUGE) およびBilingual Evaluation Understudy (BLEU) メトリクスを使用します。
裁判官モデルベースの評価は、PAIによって提供される裁判官モデルを使用して、各質問 − 応答ペアを採点する。 スコアは、モデル性能を判断するために使用される。
パブリックデータセットベースの評価は、複数のパブリックデータセットを読み込み、モデル予測を実行し、各データセットに固有の評価フレームワークに基づいて業界標準の評価参照を提供します。
モデル評価は、ハギングフェイスのすべてのAutoModelForCausalLMモデルをサポートします。
最新の機能:
Qwen2に基づく審査員モデルを使用して、オンペンエンドの複雑なシナリオでモデル応答をスコアリングします。 この機能は期間限定で無料です。
で試すことができます。
シナリオ
モデル評価はモデル開発の重要な部分です。 ビジネス要件に基づいてモデル評価アプリケーションを探索できます。 モデル評価機能は、次のシナリオで使用できます。
モデルベンチマークテスト: パブリックデータセットに基づいてモデルの共通機能を評価し、評価結果を業界モデルまたはベンチマークと比較します。
さまざまなドメインでのモデル機能の評価: モデルをさまざまなドメインに適用し、モデルの事前トレーニングと微調整の結果を比較します。 これにより、モデルの機能を評価して、ドメイン固有の知識を適用できます。
モデル回帰テスト: 回帰テストセットを作成し、モデル評価機能を使用して実際のビジネスシナリオでモデルのパフォーマンスを評価し、モデルが展開基準を満たしているかどうかを確認します。
前提条件
Object Storage Service (OSS) バケットが作成されます。 詳細については、「OSSコンソールを使用して開始する」をご参照ください。
課金
モデル評価機能を使用すると、OSSストレージとDeep Learning Containers (DLC) 評価ジョブに対して課金されます。 詳細については、「課金の概要」および「DLCの課金」をご参照ください。
データ準備
モデル評価機能は、カスタムデータセットとC-Evalなどのパブリックデータセットに基づくモデル評価をサポートします。
パブリックデータセット: パブリックデータセットはPAIにアップロードされ、PAIで維持されます。 パブリックデータセットを直接使用できます。
パブリックデータセットには、MMLU、TriviaQA、HellaSwag、GSM8K、C-Eval、TruthfulQAが含まれます。 今後、より多くのパブリックデータセットが統合される予定です。
カスタムデータセット: カスタム評価ファイルを使用してモデルを評価する場合は、JSONL形式のファイルをOSSにアップロードし、カスタムデータセットを作成します。 詳細については、「オブジェクトのアップロード」および「データセットの作成と管理」をご参照ください。 次のサンプルコードは、ファイルの形式の例を示しています。
質問
フィールドは質問列を識別するために使用され、回答
フィールドは回答列を識別するために使用されます。 評価ページで列を選択することもできます。 ジャッジモデルを使用する場合、回答列はオプションです。[{"question": "Is it correct that Chinese invented papermaking?", "answer": "Yes"}] [{"question": "Is it correct that Chinese invented gunpowder?", "answer": "Yes"}]
サンプルファイル: eval.jsonl。 ファイルは中国語であることに注意してください。
手順
モデルの選択
ビジネスに適したモデルを見つけるには、次の手順を実行します。
モデルギャラリーページに移動します。
PAI コンソールにログインします。
左側のナビゲーションペインで、[ワークスペース] をクリックします。 [ワークスペース] ページで、管理するワークスペースを見つけ、ワークスペースの名前をクリックします。 [ワークスペースの詳細] ページが表示されます。
左側のナビゲーションウィンドウで、
を選択し、[モデルギャラリー] ページに移動します。
あなたのビジネスに適したモデルを見つけてください。
[モデルギャラリー] ページで、モデルをクリックして、モデル詳細ページの [概要] タブに移動します。
モデル詳細ページの [概要] タブで、右上隅の [評価] をクリックします。 [評価] ボタンは、評価できるモデルにのみ表示されます。
[ジョブ管理] をクリックし、トレーニングタスクをクリックします。 モデルを評価することができる場合、そのモデルに基づいて微調整された任意のモデルも評価することができる。
モデルの評価
シンプルモードとプロフェッショナルモードを使用してモデルを評価できます。
シンプルモード
パブリックデータセットまたはカスタムデータセットを選択して、モデル評価フィーチャーを使用できます。 ジャッジモデルを使用する場合は、プロモードに切り替えます。
[評価ジョブの作成] ページで、[ジョブ名] パラメーターを設定します。
結果出力パスパラメーターを設定します。 選択したディレクトリが、現在の評価ジョブによってのみ使用されていることを確認します。 それ以外の場合、異なる評価ジョブの結果は互いに上書きされます。
モデル評価用のデータセットを選択します。 PAIが提供するカスタムデータセットまたはパブリックデータセットを選択できます。 カスタムデータセットは、「データ準備」で説明されている形式要件を満たす必要があります。
GPUインスタンスタイプのコンピューティングリソースを選択し、左下隅の [送信] をクリックします。 A10またはV100 GPUインスタンスタイプを選択することを推奨します。 評価ジョブの詳細ページの [ジョブ設定] タブが表示されます。 ジョブが初期化されるまで待ち、[評価レポート] タブをクリックして評価レポートを表示します。
プロモード
モデル評価には、パブリックデータセットとカスタムデータセットを選択できます。 ハイパーパラメータを指定し、ジャッジモデルを使用し、複数のパブリックデータセットを選択できます。
[プロフェッショナルモードに切り替える] をクリックします。
データセットを選択します。 プロフェッショナルモードでは、パブリックデータセットとカスタムデータセットを選択できます。
複数のパブリックデータセットを選択できます。
カスタムデータセットは、ジャッジモデル評価と一般的なメトリック評価をサポートします。
カスタムデータセットの質問列と回答列を指定できます。 ジャッジモデルを使用する場合、回答列はオプションです。
OSSのフォーマット要件を満たすデータファイルを使用できます。
評価モデルのハイパーパラメータを設定します。
左下隅の [送信] をクリックします。 評価ジョブの詳細ページの [ジョブ設定] タブが表示されます。 ジョブが初期化されるまで待機し、[評価レポート] タブをクリックして評価レポートを表示します。
評価結果の表示
評価ジョブ一覧
モデルギャラリーページで、検索ボックスの横にある [ジョブ管理] をクリックします。
[ジョブ管理] ページで、[モデル評価] タブをクリックします。
1つの評価ジョブの評価結果
[ジョブ管理] ページの [モデル評価] タブのジョブリストで、管理する評価ジョブを見つけ、[操作] 列の [レポートの表示] をクリックします。 評価ジョブの詳細ページの [評価レポート] タブで、カスタムデータセットスコアとパブリックデータセットスコアを表示します。
カスタムデータセットに基づく評価結果
評価ジョブに対して一般的なメトリック評価を選択した場合、レーダーチャートにはROUGEおよびBLEUメトリックに基づいてモデルのスコアが表示されます。
カスタムデータセットのデフォルトメトリックには、rouge-1-f、rouge-1-p、rouge-1-r、rouge-2-f、rouge-2-p、rouge-2-r、rouge-l-f、rouge-l-p、rouge-l-r、bleu-1、bleu-2、bleu-3、およびbleu-4が含まれます。
ROUGEメトリクス:
rouge-nメトリックは、N-gramオーバーラップを計算するために使用される。 Nは、連続する単語の数を示す。 ルージュ-1とルージュ-2が最も一般的に使用されます。 rouge − 1はユニグラムに対応し、rouge − 2はバイグラムに対応する。
rouge-1-p (精度): 参照サマリのユニグラムに対するシステムサマリのユニグラムの割合。
rouge-1-r (リコール): システムサマリーに表示される参照サマリーのユニグラムの割合。
rouge-1-f (Fスコア): 精度とリコールの調和平均。
rouge-2-p (精度): 参照サマリのバイグラムに対するシステムサマリのバイグラムの割合。
rouge-2-r (リコール): システムサマリーに表示される参照サマリーのバイグラムの割合。
rouge-2-f (Fスコア): 精度とリコールの調和平均。
rouge-1メトリックは、最長共通サブシーケンス (LCS) に基づいています。
rouge-l-p (精度): LCSベースのシステムサマリとLCSベースの参照サマリとの間のマッチングの精度。
rouge-l-r (Recall): LCSベースのシステムサマリとLCSベースの参照サマリとの間のマッチングのリコール。
rouge − l − f (F − スコア): LCSベースのシステムサマリとLCSベースの参照サマリとの間のマッチングのF − スコア。
BLEUメトリクス:
BLEUは、機械翻訳の品質を評価するために使用される一般的な測定です。 BLEUは、機械翻訳と参照翻訳との間のNグラムの重複を計算することによって採点される。
bleu-1: unigram matching.
bleu-2: bigram matching.
bleu-3: トライグラムマッチング (3つの連続した単語) 。
bleu-4: 4グラムマッチング。
評価タスクにジャッジモデルを使用すると、ジャッジモデルのスコアのメトリックがリストで表示されます。
ジャッジモデルはQwen2に基づいて微調整されており、AlighbenchなどのオープンソースデータセットのGPT-4と同等のパフォーマンスを発揮し、一部のシナリオで優れた評価結果を達成します。
このページには、評価されたモデルの審査員モデルによって与えられたスコアの4つの統計指標が表示されます。
平均: ジャッジモデルによって生成された結果に与えられる平均スコア (無効なスコアを除く) 。最小値は1、最大値は5です。 より高い平均は、より良いモデル応答を示す。
中央値: ジャッジモデルによって生成された結果に与えられる中央スコア (無効スコアを除く) 。最小値は1、最大値は5です。 より高い中央値は、より良好なモデル応答を示す。
標準偏差: ジャッジモデルによって生成された結果に与えられるスコアの標準偏差 (無効なスコアを除く) 。 平均値と中央値が同じ場合、標準偏差が小さいほどモデル性能が良いことを示す。
歪度: スコア分布の歪度 (無効なスコアを除く) 。 正の歪度は、右側のより長いテール (より高いスコア範囲) を示唆し、一方、負の歪度は、左側のより長いテール (より低いスコア範囲) を示唆する。
さらに、ページの下部には、評価データセットの各データエントリの詳細な評価結果が表示されます。
パブリックデータセットに基づく評価結果
モデル評価にパブリックデータセットを選択した場合、レーダーチャートにはパブリックデータセット上のモデルのスコアが表示されます。
左側のレーダーチャートには、異なるドメインのモデルのスコアが表示されます。 各ドメインは複数のデータセットを有することができる。 同一ドメインに属するデータセットについては、評価スコアの平均がドメイン内のモデルのスコアとして用いられる。
右側のレーダーチャートには、各パブリックデータセットのモデルのスコアが表示されます。 各パブリックデータセットの評価範囲の詳細については、データセットの公式紹介を参照してください。
複数モデルの評価結果の比較
複数のモデルの評価結果を比較したい場合は、比較しやすいように、各モデルの評価結果を同じページに表示してください。 [ジョブ管理] ページの [モデル評価] タブの評価ジョブリストで、管理する評価ジョブを選択し、[比較] をクリックします。
カスタムデータセットに基づくモデルの比較結果
パブリックデータセットに基づくモデルの比較結果
結果分析
モデルの評価結果には、カスタムデータセットに基づく結果とパブリックデータセットに基づく結果が含まれます。
カスタムデータセットに基づく評価結果:
自然言語処理 (NLP) ドメインの標準的なテキストマッチング方法を使用して、モデルのグランドトゥルースと出力のマッチングスコアを計算します。 より高いスコアは、より良いモデルを示す。
評価されたモデルの出力を評価するためにジャッジモデルを使用することは、LLMの利点を活用することができ、モデル出力の品質のより正確な意味的評価を可能にする。 平均および中央値が高いほど、また標準偏差が小さいほど、モデル性能は良好である。
この評価方法は、シナリオ固有のデータに基づいて、モデルがビジネスシナリオに適しているかどうかを評価するのに役立ちます。
パブリックデータセットに基づく評価結果: さまざまなドメインでオープンソースデータセットを使用して、数学機能やコード機能など、LLMの包括的な機能を評価します。 より高いスコアは、より良いモデルを示す。 この評価方法は、LLM評価に使用される最も一般的な方法です。 PAIは、業界のペースに基づいて、より多くのパブリックデータセットを徐々に統合しています。
関連ドキュメント
コンソールとは別に、Python用PAI SDKを使用してモデルを評価できます。 詳細については、次のNotebookを参照してください。