すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:LLM 評価のベストプラクティス

最終更新日:Nov 10, 2025

大規模言語モデル (LLM) の評価は、パフォーマンスの測定、適切なモデルの選択、および AI のイノベーションとデプロイメントを加速するための最適化に不可欠です。PAI モデル評価プラットフォームは、さまざまな基盤モデル、ファインチューニングされたバージョン、量子化されたバージョンの比較など、さまざまな評価シナリオをサポートしています。このドキュメントでは、さまざまなユーザーグループとデータセットタイプに対して包括的かつターゲットを絞ったモデル評価を実行し、AI 分野でより良い結果を達成する方法について説明します。

背景情報

はじめに

LLM がより強力になるにつれて、厳密なモデル評価の必要性がこれまで以上に高まっています。科学的で効率的な評価プロセスは、開発者がさまざまなモデルのパフォーマンスを測定および比較するのに役立つだけでなく、モデルの選択と最適化をガイドします。これにより、AI イノベーションの採用が加速されます。このため、LLM 評価のためのプラットフォームベースの一連のベストプラクティスが不可欠です。

このドキュメントでは、Platform for AI (PAI) モデル評価サービスを使用するためのベストプラクティスについて説明します。このガイドは、モデルの真のパフォーマンスを反映し、特定の業界ニーズを満たす包括的な評価プロセスを構築するのに役立ち、人工知能の分野で優れた成果を上げるのに役立ちます。これらのベストプラクティスは、次のトピックをカバーしています:

  • 評価データセットを準備および選択する方法。

  • ビジネスニーズに合ったオープンソースまたはファインチューニングされたモデルを選択する方法。

  • 評価ジョブを作成し、適切な評価メトリックを選択する方法。

  • 単一ジョブおよび複数ジョブのシナリオで評価結果を解釈する方法。

プラットフォームの特徴

PAI モデル評価プラットフォームは、さまざまな評価シナリオでモデルのパフォーマンスを比較するのに役立ちます。例:

  • Qwen2-7B-Instruct と Baichuan2-7B-Chat など、さまざまな基盤モデルの比較。

  • 非公開データでトレーニングされた Qwen2-7B-Instruct のさまざまなエポックバージョンのパフォーマンスなど、同じモデルのさまざまなファインチューニングされたバージョンの比較。

  • Qwen2-7B-Instruct-GPTQ-Int4 と Qwen2-7B-Instruct-GPTQ-Int8 など、同じモデルのさまざまな量子化されたバージョンの比較。

このガイドでは、エンタープライズ開発者アルゴリズム研究者を例として、さまざまなユーザーグループのニーズに対応します。独自のカスタムデータセットと一般的な公開データセット (MMLU や C-Eval など) を組み合わせて、より包括的で正確、かつターゲットを絞ったモデル評価を実現する方法を説明します。このアプローチは、ビジネスに最適な LLM を見つけるのに役立ちます。このプラクティスの主な特徴は次のとおりです:

  • エンドツーエンドのノーコード評価ワークフローを提供します。主流のオープンソース LLM と、ファインチューニングされたモデルのワンクリック評価をサポートします。

  • カスタムデータセットをアップロードできます。10 を超える組み込みの一般的な自然言語処理 (NLP) 評価メトリックが含まれており、結果をダッシュボード形式で表示するため、評価スクリプトを開発する必要はありません。

  • 複数のドメインにわたる人気の公開データセットでの評価をサポートします。公式の評価メソッドを完全に複製し、レーダーチャートで全体像を提示するため、データセットをダウンロードして個別の評価プロシージャを学習する必要はありません。

  • 複数のモデルとジョブの同時評価をサポートします。比較結果をチャートで表示し、各サンプルの詳細な結果を提供することで、包括的な分析を可能にします。

  • 透明で再現可能な評価プロセスを保証します。評価コードはオープンソースであり、ModelScope と共同開発された eval-scope リポジトリで入手でき、詳細を確認して結果を再現できます。

課金

  • PAI モデル評価サービスは PAI-QuickStart 上に構築されています。QuickStart は無料ですが、モデル評価を実行すると、分散トレーニング (DLC) ジョブの料金が発生する場合があります。課金の詳細については、「Deep Learning Containers (DLC) の課金」をご参照ください。

  • Object Storage Service (OSS) に保存されているカスタムデータセットでモデルを評価する場合、OSS の使用には追加料金が発生します。課金の詳細については、「OSS の課金概要」をご参照ください。

ユースケース 1: エンタープライズ開発者向けのカスタムデータセットによるモデル評価

企業は多くの場合、広範な非公開のドメイン固有のデータを持っています。このデータを活用することが、LLM を使用してアルゴリズムを最適化するための鍵となります。したがって、エンタープライズ開発者がオープンソースまたはファインチューニングされた LLM を評価する場合、その特定のコンテキストでのモデルのパフォーマンスをよりよく理解するために、非公開データからカスタムデータセットを使用することがよくあります。

カスタムデータセットによる評価では、PAI モデル評価プラットフォームは標準の NLP テキストマッチングメソッドを使用して、モデルの出力と正解の回答との類似性を計算します。スコアが高いほど、モデルが優れていることを示します。このメソッドを使用すると、独自のシナリオ固有のデータを使用して、モデルがニーズに適しているかどうかを判断できます。

次のステップでは、プロセスのキーポイントを強調します。詳細な手順については、「モデル評価」をご参照ください。

  1. カスタムデータセットを準備します。

    1. カスタムデータセットのフォーマット:

      カスタムデータセット評価を実行するには、データを JSONL フォーマットで準備します。ファイル例については、「llmuses_general_qa_test.jsonl」(76 KB) をご参照ください。フォーマットは次のとおりです:

      [{"question": "Is it correct that China invented papermaking?", "answer": "Correct"}]
      [{"question": "Is it correct that China invented gunpowder?", "answer": "Correct"}]

      question を使用して質問列を識別し、answer を使用して回答列を識別します。

    2. フォーマットされたデータセットファイルを OSS にアップロードします。詳細については、「OSS へのファイルのアップロード」をご参照ください。

    3. OSS のファイルからデータセットを作成します。詳細については、「データセットの作成: Alibaba Cloud サービスから」をご参照ください。

  2. ユースケースに適したモデルを選択します。

    オープンソースモデルを使用する

    PAI コンソールの左側のナビゲーションウィンドウで、[クイックスタート] > [モデルギャラリー] を選択します。モデルカードにカーソルを合わせます。モデルが評価をサポートしている場合、[評価] ボタンが表示されます。

    image

    ファインチューニングされたモデルを使用する

    PAI コンソールの左側のナビゲーションウィンドウで、[クイックスタート] > [モデルギャラリー] を選択します。モデルカードにマウスを合わせます。評価可能なモデルには [評価] ボタンが表示されます。評価可能なモデルをファインチューニングします。次に、[クイックスタート] > [モデルギャラリー] > [ジョブ管理] > [トレーニングジョブ] ページで、正常にトレーニングされたジョブをクリックします。右上隅に [評価] ボタンが表示されます。

    image

    モデル評価は現在、Hugging Face のすべての AutoModelForCausalLM モデルをサポートしています。

  3. 評価ジョブを作成して実行します。

    モデル製品ページで、右上隅の [評価] をクリックして評価ジョブを作成します。

    image

    キーパラメーターを次のように設定します:

    パラメーター

    説明

    基本設定

    結果出力パス

    最終的な評価結果が保存される OSS パスを指定します。

    カスタムデータセット設定

    評価メソッド

    次のいずれかのオプションを選択します:

    • 一般メトリック評価: ROUGE や BLEU などのメトリックを使用して、モデルの出力と参照回答の間のテキストの類似性を計算します。明確な回答があるシナリオに適しています。

    • ジャッジモデル評価: PAI が提供するジャッジモデルを使用して、回答を自動的にスコアリングします。このメソッドは参照回答を必要とせず、複雑または一意でない回答があるシナリオに適しています。結果には、総合スコアと 5 つのサブスコアが含まれます。

    ジャッジモデルサービストークン

    評価メソッドとしてジャッジモデル評価を選択する場合は、このパラメーターを設定します。トークンは [ジャッジモデル] ページから取得できます。

    データセットソース

    既存のデータセットを選択します。

    Alibaba Cloud ストレージに保存されているデータセットを作成する

    以前に作成したカスタムデータセットを選択します。

    リソース設定

    リソースグループタイプ

    ニーズに応じて、パブリックリソースグループ、汎用コンピューティングリソース、または霊駿リソースを選択します。

    ジョブリソース

    パブリックリソースグループを選択した場合、モデルサイズに基づいて適切なリソース仕様がデフォルトで推奨されます。

    [送信] をクリックしてジョブを開始します。

  4. 評価結果を表示します。

    単一ジョブの結果

    [クイックスタート] > [モデルギャラリー] > [ジョブ管理] > [評価ジョブ] ページで、評価ジョブの [ステータス][成功] になったら、[操作] 列の [レポートの表示] をクリックします。[カスタムデータセット評価結果] ページで、ROUGE および BLEU メトリックのモデルのスコアを表示できます。

    image

    レポートには、評価ファイル内の各データ入力の詳細な評価結果も表示されます。

    複数ジョブの比較結果

    [クイックスタート] > [モデルギャラリー] > [ジョブ管理] > [評価ジョブ] ページで、比較したいモデル評価ジョブを選択し、右上隅の [比較] をクリックします。[カスタムデータセット評価結果] ページで、比較結果を表示できます。

    image

    評価結果の解釈:

    カスタムデータセットのデフォルトの評価メトリックには、rouge-1-f、rouge-1-p、rouge-1-r、rouge-2-f、rouge-2-p、rouge-2-r、rouge-l-f、rouge-l-p、rouge-l-r、bleu-1、bleu-2、bleu-3、および bleu-4 が含まれます。

    • rouge-n メトリックは、N-gram (連続する N 個の単語) の重複を計算します。rouge-1 と rouge-2 が最も一般的に使用され、それぞれユニグラムとバイグラムに対応します。rouge-l メトリックは、最長共通部分列 (LCS) に基づいています。

    • BLEU (Bilingual Evaluation Understudy) は、機械翻訳の品質を評価するためのもう 1 つの一般的なメトリックです。機械翻訳の出力と一連の参照翻訳との間の N-gram の重複を測定してスコアを計算します。bleu-n メトリックは、N-gram の類似性を計算します。

    最終的な評価結果は、指定した結果出力パスに保存されます。

ユースケース 2: アルゴリズム研究者向けの公開データセットによるモデル評価

アルゴリズム研究は、多くの場合、公開データセットに依存しています。研究者がオープンソースモデルを選択したり、モデルをファインチューニングしたりする場合、権威ある公開ベンチマークでのパフォーマンスを参照します。しかし、LLM の公開データセットは多種多様であるため、研究者は自分のドメインに関連するデータセットを選択し、それに対応する評価プロシージャを学習するために多くの時間を費やすことがよくあります。これを簡素化するために、PAI は複数の公開データセットを統合し、それぞれの公式評価メトリックを完全に複製します。これにより、モデルのパフォーマンスに関する正確なフィードバックが提供され、LLM 研究の加速に役立ちます。

公開データセットによる評価では、PAI モデル評価プラットフォームは、数学、知識、推論など、LLM の総合的な能力を評価するために、オープンソースのデータセットをドメイン別に分類します。スコアが高いほど、モデルが優れていることを示します。これは、LLM を評価するための最も一般的な方法です。

次のステップでは、プロセスのキーポイントを強調します。詳細な手順については、「モデル評価」をご参照ください。

  1. サポートされている公開データセット:

    PAI は現在、MMLU、TriviaQA、HellaSwag、GSM8K、C-Eval、CMMLU、TruthfulQA などの公開データセットを維持しています。さらに多くの公開データセットが追加されています。

    データセット

    サイズ

    データ量

    レルム

    MMLU

    166 MB

    14042

    知識

    TriviaQA

    14.3 MB

    17944

    知識

    C-Eval

    1.55 MB

    12342

    中国語

    CMMLU

    1.08 MB

    11582

    中国語

    GSM8K

    4.17 MB

    1319

    数学

    HellaSwag

    47.5 MB

    10042

    推論

    TruthfulQA

    0.284 MB

    816

    セキュリティ

  2. ユースケースに適したモデルを選択します。

    オープンソースモデルを使用する

    PAI コンソールの左側のナビゲーションウィンドウで、[クイックスタート] > [モデルギャラリー] を選択します。モデルカードにマウスを合わせます。モデルが評価をサポートしている場合、[評価] ボタンが表示されます。

    image

    ファインチューニングされたモデルを使用する

    PAI コンソールの左側のナビゲーションウィンドウで、[クイックスタート] > [モデルギャラリー] を選択します。モデルカードにカーソルを合わせます。評価可能なモデルには [評価] ボタンが表示されます。評価可能なモデルをファインチューニングした後、[クイックスタート] > [モデルギャラリー] > [ジョブ管理] > [トレーニングジョブ] ページに移動し、正常にトレーニングされたジョブをクリックします。右上隅に [評価] ボタンが表示されます。

    image

    モデル評価は現在、Hugging Face のすべての AutoModelForCausalLM モデルをサポートしています。

  3. 評価ジョブを作成して実行します。

    モデル詳細ページで、右上隅の [評価] をクリックして評価ジョブを作成します。

    image

    パラメーター

    説明

    基本設定

    結果出力パス

    最終的な評価結果が保存される OSS パスを指定します。

    公開データセット設定

    公開データセット

    公開データセットを選択します。

    リソース設定

    リソースグループタイプ

    ニーズに応じて、パブリックリソースグループ、汎用コンピューティングリソース、または霊駿リソースを選択します。

    ジョブリソース

    パブリックリソースグループを選択した場合、モデルサイズに基づいて適切なリソース仕様がデフォルトで推奨されます。

    [送信] をクリックしてジョブを開始します。

  4. 評価結果を表示します。

    単一ジョブの結果

    [クイックスタート] > [モデルギャラリー] > [ジョブ管理] > [評価ジョブ] ページで、評価ジョブの [ステータス][成功] になったら、[操作] 列の [レポートの表示] をクリックします。[公開データセット評価結果] ページで、さまざまなレルムやデータセットにわたるモデルのスコアを表示できます。

    image

    複数ジョブの比較結果

    [クイックスタート] > [モデルギャラリー] > [ジョブ管理] > [評価ジョブ] ページで、比較したいモデル評価ジョブを選択し、右上隅の [比較] をクリックします。[公開データセット評価結果] ページで、比較結果を表示できます。

    image

    評価結果の分析:

    • 左側のチャートは、さまざまな能力ドメインにわたるモデルのスコアを示しています。単一の能力ドメインは、複数のデータセットをカバーする場合があります。最終的なドメインスコアを計算するために、PAI モデル評価プラットフォームは、そのドメイン内のすべてのデータセットからモデルのスコアを平均します。

    • 右側のチャートは、個々の公開データセットでのモデルのスコアを示しています。各公開データセットの評価範囲の詳細については、「サポートされている公開データセットの説明」をご参照ください。

    最終的な評価結果は、指定した結果出力パスに保存されます。

リファレンス

モデル評価