すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:CNP パフォーマンス評価の使用

最終更新日:Jun 18, 2026

Cloud Native Application Performance Optimizer (CNP) は、クラウドネイティブアプリケーションのパフォーマンスを評価・分析・最適化するためのプラットフォームです。CNP は LINGJUN クラスター向けのトレーニングパフォーマンス評価を自動化し、最適化の提案を提供します。

CNP プラットフォームへのアクセス

  1. LINGJUN クラスターコンソール にログインします。

  2. 左側のナビゲーションウィンドウで、パフォーマンス評価 > CNP パフォーマンス評価 をクリックします。

  3. CNP プラットフォームでは、パフォーマンス評価を開始 したり、評価結果を表示 したりできます。

  4. ページの左下隅にある [戻る] をクリックして、LINGJUN クラスターコンソールに戻ります。

image.png

image.png

評価の開始

ステップ 1:クラスターの選択

ウェルカムページで [評価を開始] をクリックします。または、パフォーマンス評価ページで [評価を開始] をクリックして、最初のステップである クラスターの選択 を開始します。

image.png

  • クラスター名:評価対象のクラスターを選択します。

  • DLC アクセス情報:必要な情報を入力し、[接続性テスト] をクリックします。接続が成功した場合は成功メッセージが表示されます。失敗した場合は、失敗理由が表示されます。一般的な失敗理由を次の表に示します。

    失敗理由

    推奨操作

    接続タイムアウト

    CNP をアクセスホワイトリストに追加して、再度試行してください。

    情報が正しくない

    AccessKey ID、AccessKey Secret、ワークスペース、エンドポイントのいずれかが正しくありません。情報を確認して、再度試行してください。

    STS トークンの取得に失敗しました (D3001)

    SLR の作成に失敗しました (D3002)

    ARMS インスタンスの作成に失敗しました (D3003)

    ARMS サービスのチェックに失敗しました (D3004)

    ARMS を有効化してください。

    ARMS 情報の取得に失敗しました (D3005)

    SLR の作成権限がありません (D3006)

    SLR 権限を付与してください。

接続性テストが成功したら、[次へ] をクリックして ステップ 2:テストプランの選択 に進みます。

ステップ 2:テストプランの選択

テンプレートの使用

デフォルトのテストプランテンプレートが 2 種類用意されています。ビジネスシナリオに応じて選択してください。

image.png

プラン

テスト内容

テスト対象クラスタースケール

プラン A:大規模言語モデルシナリオ向け汎用プラン

  • 単一 GPU テスト:MatMul(行列演算子)

  • 単一マシンテスト:Bert-base

  • AI モデルテスト:LLaMA-7B

  • 単一 GPU テスト:デフォルトでクラスターの最大スケールを使用します。

  • 単一マシンテスト:デフォルトでクラスターの最大スケールを使用します。

  • AI モデルテスト:デフォルトで、8、16、32、64、128、256、512 GPU のクラスター向けに評価タスクが作成されます。タスクはご利用のクラスターの最大スケールに基づいて作成されます。たとえば、クラスターの最大スケールが 100 GPU の場合、8、16、32、64 GPU 向けのタスクのみが作成されます。

プラン B:画像認識シナリオ向け汎用プラン

  • 単一 GPU テスト:MatMul(行列演算子)

  • 単一マシンテスト:Bert-base

  • AI モデルテスト:Swin-Transformer、Stable Diffusion

  • 単一 GPU テスト:デフォルトでクラスターの最大スケールを使用します。

  • 単一マシンテスト:デフォルトでクラスターの最大スケールを使用します。

  • AI モデルテスト:デフォルトで、8、16、32、64 GPU 向けに評価タスクが作成されます。タスクはご利用のクラスターの最大スケールに基づいて作成されます。たとえば、クラスターの最大スケールが 16 GPU の場合、8 および 16 GPU 向けのタスクのみが作成されます。

カスタムプラン

テンプレートが要件を満たさない場合は、カスタムテストプランを作成してください。

  1. 単一 GPU テスト:ノード数をカスタマイズできます。デフォルトのテストケースは MatMul です。

  2. 単一マシンテスト:ノード数をカスタマイズできます。デフォルトのテストケースは Bert-base です。

  3. AI モデルテスト:評価対象の AI モデルおよび GPU 数をカスタマイズできます。

説明
  • 現在サポートされているモデルは、LLaMA-7B、Stable Diffusion、Swin-Transformer、Bert-base、UNet です。

  • デフォルトのパラメータ設定はベースライン構成を使用しています。具体的な構成はページ上でご確認いただけます。

image.png

評価時間の見積もり

テストプランを選択すると、システムはテスト内容およびステップ 1 で選択したクラスターの最大スケールに基づいて評価時間を見積もります。利用可能なノード数が最大値を下回る場合、実際の評価時間は見積もり時間を超えます。

ワンクリックで評価を開始

ステップ 1 およびステップ 2 を完了したら、[ワンクリックで評価を開始] をクリックして評価を開始します。

評価の進行状況と結果の表示

テストプランを作成後、テストプラン一覧ページでその実行ステータスと進行状況をリアルタイムで確認できます。[詳細] をクリックして、各ステージの進行状況を表示します。

image.png

単一 GPU テスト

  • テスト合格

    疑わしい故障 GPU または 警告 GPU が検出されない場合、単一 GPU テストは合格となります。

    説明
    • 疑わしい故障カード:このカード上でタスクが失敗したことを示します。

    • 警告カード:このカードの TFLOPS 変動が、反復の 5 % 以上で正常なしきい値範囲外となったことを示します。

    • 正常なしきい値の計算ロジック:各反復におけるすべての GPU の中央値 TFLOPS をベースラインとして使用します。システムは、ベースライン ±3 % と 4 × シグマ(4 × 標準偏差)を比較し、大きい方の値を正常なしきい値範囲として使用します。

    image.png

  • 異常なテスト結果

    疑わしい故障 GPU または 警告 GPU が検出された場合、単一 GPU テストの結果は異常となります。

    評価タスク一覧でプラスアイコンをクリックして展開し、疑わしい故障 GPU または警告 GPU の詳細を表示します。異常なノードは O&M チームに報告して調査を依頼してください。[評価詳細] をクリックして、詳細な結果を表示します。

    image.png

単一マシンテストの進行状況

  • テスト合格

    疑わしい故障ノード または 警告ノード が検出されない場合、単一マシンテストは合格となります。

    説明
    • 疑わしい故障ノード:このノード上の DLC job が失敗しており、ノードに障害がある可能性を示唆します。

    • 警告ノード:このノードのスループットが、反復の 5 % 以上で正常なしきい値範囲外でした。

    • 正常なしきい値の計算ロジック:各反復におけるすべてのノードの中央値スループットをベースラインとして使用します。システムは、ベースライン ±3 % と 4 × シグマ(4 × 標準偏差)を比較し、大きい方の値を正常なしきい値範囲として使用します。

    image.png

  • 異常なテスト結果

    疑わしい故障ノードまたは警告ノードが検出された場合、単一マシンテストの結果は異常となります。

    評価タスク一覧で プラスアイコン をクリックして展開し、疑わしい故障ノードまたは警告ノードの詳細を表示します。異常なノードは O&M チームに報告して調査を依頼してください。[評価詳細] をクリックして、詳細な結果を表示します。

    image.png

AI モデルテスト

  • テストの進行状況

    保留中:すべてのタスクが実行待ちです。

    完了:すべてのタスクが成功、失敗、または停止しました。

    停止済み:すべてのタスクが停止しました。

    実行中:一部のタスクが完了し、他のタスクが保留中または実行中です。

    image.png

  • テストタスクリスト

    現在のプランの AI モデルテストステージにおけるすべてのタスクを一覧表示します。実行中のタスクを終了するには、[停止] をクリックします。すべてのタスクを削除できます。

    警告

    削除または失敗したタスクのデータはパフォーマンスダッシュボードに含まれません。タスクの削除は慎重に行ってください。

パフォーマンスダッシュボードの表示

ダッシュボードへのアクセス

完了 ステータスのテストプランについては、パフォーマンスダッシュボードを表示できます。AI モデルテストステージで正常に完了した評価タスクのデータが表示されます。

image.png

ダッシュボードの内容

テストモデルのスケーラビリティ

image.png

このチャートは、GPU 数が増加するにつれて各モデルのスループット傾向を示し、クラスター上でのモデルのスケーラビリティを反映しています。異なるモデル間の結果は比較されません。

:スケーラビリティスコア = log₂(モデルスループット / 最小評価構成のスループット)

説明

例:以下の例は説明目的でのみ GPT3-175B モデルとモックデータを使用しています。

GPU 数

スループット

スケーラビリティスコア

理論的スケーラビリティスコア

64

10

128

18

log₂(18 / 10)

log₂ 2

256

35

log₂(35 / 10)

log₂ 4

512

69

log₂(69 / 10)

log₂ 8

1024

137

log₂(137 / 10)

log₂ 16

注:スケーラビリティスコアが理論的スケーラビリティスコアに近いほど、スケーラビリティは良好です。

詳細な評価結果

評価された GPU 数ごとに、各モデルのスループット、MFU、イテレーションレイテンシーのメトリックを表示します。Y 軸は GPU 数、X 軸はメトリック値を表します。

image.png