すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:LLM 評価のベストプラクティス

最終更新日:Mar 19, 2026

カスタムデータセットまたはパブリックデータセットと自動メトリックを使用して、基盤モデル、ファインチューニングされたバージョン、量子化されたバージョンを比較することで、LLM のパフォーマンスを評価します。

背景情報

概要

LLM の能力が向上するにつれて、モデルのパフォーマンスを測定・比較するための科学的かつ効率的な評価がますます重要になっています。評価はモデルの選択と最適化を導き、AI のイノベーションとアプリケーションを加速させます。

PAI は、AI 開発者がモデルの真のパフォーマンスを反映し、特定の業界ニーズを満たす評価プロセスを構築するのに役立つ、LLM 評価のベストプラクティスを提供します。対象となるトピックは次のとおりです:

  • 評価 データセット の準備と選択

  • オープンソースまたはファインチューニングされた モデル の選択

  • 評価タスクの作成と 評価メソッド の選択

  • 単一タスクまたは複数タスクのシナリオにおける タスク結果 の解釈

プラットフォームの機能

PAI の LLM 評価は、さまざまなシナリオでモデルのパフォーマンスを比較します:

  • 基盤モデルの比較:Qwen2-7B-Instruct vs. Baichuan2-7B-Chat

  • 同じモデルのファインチューニングされたバージョンの比較 (例:非公開データでトレーニングされた Qwen2-7B-Instruct の異なるエポックバージョン)

  • 量子化されたバージョンの比較:Qwen2-7B-Instruct-GPTQ-Int4 vs. Qwen2-7B-Instruct-GPTQ-Int8

PAI は、カスタムデータセットパブリックデータセット (MMLU、C-Eval) を組み合わせることで、エンタープライズ開発者アルゴリズム研究者 のニーズに対応し、包括的で正確、かつターゲットを絞ったモデル評価を実現します。機能は次のとおりです:

  • コード開発不要のエンドツーエンドの評価パイプライン。主流のオープンソース LLM をサポートし、ファインチューニング後のワンクリック評価が可能です。

  • カスタムデータセットのアップロード。10 種類以上の組み込み NLP 評価メソッドと、統合された結果表示。

  • 複数ドメインのパブリックデータセットでの評価。公式の評価メソッドを完全に再現し、パノラマレーダーチャートビューを提供します。

  • 複数モデルとタスクの同時評価、比較チャートと項目ごとの詳細な結果表示。

  • 透明で再現可能な評価。評価コードは、ModelScope と共同で構築された eval-scope リポジトリでオープンソース化されています。

課金

  • LLM 評価は PAI クイックスタート (無料) に依存します。評価タスクには DLC 料金が発生する場合があります。詳細については、「Deep Learning Containers (DLC) の課金」をご参照ください。

  • カスタムデータセットの評価には OSS 料金が発生します。詳細については、「OSS の課金概要」をご参照ください。

シナリオ 1:エンタープライズ開発者向けのカスタムデータセット評価

企業はしばしば豊富な非公開データを蓄積しています。LLM をアルゴリズムの最適化に使用する上で重要なのは、このデータを活用することです。エンタープライズ開発者は、非公開データから作成したカスタムデータセットを使用して オープンソース または ファインチューニング された LLM を評価し、特定のドメインにおけるモデルのパフォーマンスをより深く理解します。

カスタムデータセットの評価では、PAI は NLP の標準的なテキストマッチングメソッドを使用して、モデルの出力とグラウンドトゥルースとの類似度を計算します。値が高いほど、モデルが優れていることを示します。

主要なプロセスステップ (詳細については、「モデル評価」をご参照ください):

  1. カスタム評価セットを準備します。

    1. フォーマット:

      評価セットファイルを JSONL フォーマットで準備します。例:llmuses_general_qa_test.jsonl (76 KB):

      [{"question": "Is it true that China invented papermaking?", "answer": "True"}]
      [{"question": "Is it true that China invented gunpowder?", "answer": "True"}]

      question を使用して質問列を、answer を使用して回答列を識別します。

    2. 評価セットファイルを OSS にアップロードします。詳細については、「OSS へのファイルのアップロード」をご参照ください。

    3. OSS ファイルからデータセットを作成します。詳細については、「Alibaba Cloud プロダクトからのデータセット作成」をご参照ください。

  2. モデルを選択します。

    オープンソースモデルの使用

    PAI コンソール」で、Quick Start > モデルギャラリー に移動します。対応しているモデルのモデルカードにカーソルを合わせると、Evaluate ボタンが表示されます。

    image

    ファインチューニングされたモデルの使用

    PAI コンソールQuick Start > [モデルギャラリー] に移動し、モデルカードにカーソルを合わせると Evaluate ボタンが表示されます。 ファインチューニング後、Quick Start > [モデルギャラリー] > Job Management > Training Jobs に移動し、完了したトレーニングジョブをクリックすると Evaluate ボタンが表示されます。

    image

    現在、モデル評価は Hugging Face のすべての AutoModelForCausalLM タイプのモデルをサポートしています。

  3. 評価タスクを作成して実行します。

    モデルの詳細ページで、Evaluate をクリックして、評価タスクを作成します。

    image

    主要なパラメーター:

    パラメーター

    説明

    Base configuration

    Result Output Path

    評価結果が保存される OSS パスです。

    Custom Dataset Configuration

    Evaluation Method

    選択肢は次のとおりです:

    • General Metric Evaluation:モデルの予測とリファレンス回答との間のテキストの類似性(ROUGE、BLEU)を計算します。明確な回答がある場合に適しています。

    • Judge Model Evaluation:LLM-as-a-Judge モデルを使用して、回答を自動的にスコアリングします。リファレンス回答は不要です。複雑な回答や一意でない回答に適しています。結果には、総合スコアと 5 つの特定のメトリックが含まれます。

    LLM-as-a-Judge サービストークン

    [評価方法] が [判定モデル評価] の場合に必要です。LLM-as-a-Judge ページからトークンを取得します。

    Dataset Source

    既存のデータセットを選択します。

    Select an existing dataset.

    事前に作成したカスタムデータセットを選択します。

    Resource Configuration

    Resource Group Type

    パブリックリソースグループ、汎用コンピューティングリソース、または Lingjun リソースを選択します。

    Job Resource

    [リソースグループタイプ] がパブリックリソースグループの場合、システムはモデルの仕様に基づいてリソースを推奨します。

    [送信] をクリックしてタスクを開始します。

  4. 評価結果を表示します。

    単一タスクの結果

    StatusQuick Start[モデルギャラリー]Job ManagementEvaluation Jobs ページで Succeeded となっている評価タスクについて、ActionsView Report をクリックして、Custom Dataset Evaluation Result ページで ROUGE および BLEU スコアを表示します。

    image

    このページには、各データ項目ごとの詳細な評価結果も表示されます。

    複数タスクの比較結果

    [QuickStart > モデルギャラリー > [Job Management > [Evaluation Jobs] ページで、比較するモデル評価ジョブを選択します。[Compare] をクリックすると、[Custom Dataset Evaluation Result] ページに比較結果が表示されます。

    image

    結果の分析:

    カスタムデータセットのデフォルトの評価メソッドは、rouge-1-f、rouge-1-p、rouge-1-r、rouge-2-f、rouge-2-p、rouge-2-r、rouge-l-f、rouge-l-p、rouge-l-r、bleu-1、bleu-2、bleu-3、および bleu-4 です。

    • ROUGE-n メトリックは、N-gram (連続する N 個の単語) の重複を計算します。ROUGE-1 と ROUGE-2 が最も一般的で、それぞれユニグラムとバイグラムに対応します。ROUGE-L は最長共通部分列 (LCS) に基づいています。

    • BLEU (Bilingual Evaluation Understudy) は、機械翻訳の出力と参照翻訳との間の N-gram の重複を測定することで、機械翻訳の品質を評価します。BLEU-n は N-gram の一致率を計算します。

    最終的な評価結果は、先ほど設定した [結果出力パス] に保存されます。

シナリオ 2:アルゴリズム研究者向けのパブリックデータセット評価

アルゴリズムの研究は、しばしばパブリックデータセットに依存します。研究者が オープンソース モデルを選択したり、モデルを ファインチューニング したりする際には、権威あるパブリックデータセットでの評価パフォーマンスを参照します。PAI は、複数ドメインのパブリックデータセットへのアクセスを提供し、公式の評価メトリックを完全に再現することで、正確なパフォーマンスフィードバックを取得し、効率的な LLM 研究を促進します。

パブリックデータセット評価は、オープンソースの評価データセットをドメインごとに分類することで、LLM の総合的な能力 (数学、知識、推論) を評価します。値が高いほど、モデルが優れていることを示します。

主要なプロセスステップ (詳細については、「モデル評価」をご参照ください):

  1. サポートされているパブリックデータセット:

    PAI は現在、MMLU、TriviaQA、HellaSwag、GSM8K、C-Eval、CMMLU、TruthfulQA などのパブリックデータセットを維持しています。さらに多くのデータセットが追加されています。

    データセット

    サイズ

    データ量

    ドメイン

    MMLU

    166 MB

    14042

    知識

    TriviaQA

    14.3 MB

    17944

    知識

    C-Eval

    1.55 MB

    12342

    中国語

    CMMLU

    1.08 MB

    11582

    中国語

    GSM8K

    4.17 MB

    1319

    数学

    HellaSwag

    47.5 MB

    10042

    推論

    TruthfulQA

    0.284 MB

    816

    セキュリティ

  2. モデルを選択します。

    オープンソースモデルの使用

    PAI コンソールで、QuickStart > [モデルギャラリー] に移動します。サポートされているモデルのモデルカードにカーソルを合わせると、Evaluate ボタンが表示されます。

    image

    ファインチューニングされたモデルの使用

    PAI コンソールで、QuickStart > [モデルギャラリー] に移動します。モデルカードにカーソルを合わせると、Evaluate ボタンが表示されます。評価可能なモデルをファインチューニングした後、QuickStart > [モデルギャラリー] > Job Management > Training Jobs に移動します。トレーニングに成功したジョブをクリックすると、Evaluate ボタンが表示されます。

    image

    現在、モデル評価は Hugging Face のすべての AutoModelForCausalLM タイプのモデルをサポートしています。

  3. 評価タスクを作成して実行します。

    モデル詳細ページでEvaluateをクリックして、評価タスクを作成します。

    image

    パラメーター

    説明

    Base configuration

    Result Output Path

    評価結果が保存される OSS パス。

    [パブリックデータセット構成]

    Public Dataset

    パブリックデータセットを選択します。

    Resource Configuration

    Resource Group Type

    パブリックリソースグループ、汎用コンピューティングリソース、または Lingjun リソースを選択します。

    Job Resource

    [リソースグループタイプ] がパブリックリソースグループの場合、システムはモデルの仕様に基づいてリソースを推奨します。

    [送信] をクリックして、タスクを開始します。

  4. 評価結果を表示します。

    単一タスクの結果

    Quick Start > [モデルギャラリー] > Job Management > Evaluation Jobs ページで、評価タスクの StatusSucceeded に変更されたら、Actions 列の View Report をクリックして、Custom Dataset Evaluation Result ページでさまざまなレルムとデータセットのモデルスコアを表示します。

    image

    複数タスクの比較結果

    Quick Start」 > 「モデルギャラリー」 > 「Job Management」 > 「Evaluation Jobs」ページで、比較するモデル評価タスクを選択し、「Compare」をクリックして、「Evaluation Results of Public Datasets」ページで比較結果を表示します。

    image

    結果の分析:

    • 左側のチャートは、さまざまなドメインにおけるモデルのスコアを示します。各ドメインには、複数の関連データセットが含まれる場合があります。同じドメイン内のデータセットについて、PAI はモデルスコアの平均値を計算し、それをドメインスコアとします。

    • 右側のチャートは、各パブリックデータセットにおけるモデルのスコアを示します。各データセットの評価範囲の詳細については、「サポートされているパブリックデータセット」をご参照ください。

    最終的な評価結果は、先ほど設定した [結果出力パス] に保存されます。

参考文献

モデル評価