すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:Lingjun AI Computing Service のローカルキャッシュアクセラレーション

最終更新日:Oct 19, 2025

AI トレーニングでは、大量のデータを繰り返し読み取る必要があります。これにより、大きなネットワークオーバーヘッドが発生し、トレーニング効率に影響します。PAI は、Lingjun AI Computing Service 向けのローカルキャッシュアクセラレーション機能を提供します。この機能は、ローカルの計算ノードにデータをキャッシュして、ネットワークオーバーヘッドを削減し、トレーニングのスループットを向上させ、データ読み取りパフォーマンスを改善します。このプロセスにより、AI トレーニングタスクが高速化されます。

技術的な利点

  • 高速キャッシュ: 計算ノードのメモリとローカルディスクを活用して、単一ノードおよび分散読み取りキャッシュを構築します。これにより、データセットとチェックポイントへのアクセスが高速化され、データアクセスの待機時間が大幅に短縮されます。

  • 水平スケーリング: キャッシュのスループットは、計算ノード数に比例して線形にスケーリングします。数百から数千ノードのスケールをサポートします。

  • P2P モデル分散: ピアツーピア (P2P) テクノロジーを通じて、大規模モデルの高同時実行読み込みと分散をサポートします。GPU ノード間の高速ネットワークを使用して、ホットスポットデータの並列読み取りを高速化します。

  • サーバーレスで使いやすい: ワンクリックで有効または無効にできます。コードの変更は必要ありません。この機能はプログラムに対して非侵入型であり、運用およびメンテナンス (O&M) は不要です。

制限事項と注意事項

  • ストレージサポート: OSS と Lingjun CPFS をサポートします。

  • 適用可能なリソース: 現在、Lingjun リソースのみがサポートされています。この機能を有効にすると、計算ノードから特定のリソース (CPU とメモリ) が消費されることに注意してください。

  • 容量とポリシー: 最大キャッシュ容量は、Lingjun リソースの仕様によって異なります。立ち退きポリシーは Least Recently Used (LRU) です。

  • アクセラレーションターゲット: 主な目標は、データ読み取りパフォーマンスを向上させることです。書き込み操作はサポートされていません。

  • データの高可用性: 高可用性は保証されません。ローカルキャッシュ内のデータは失われる可能性があります。重要なトレーニングデータは速やかにバックアップしてください。

  • 仕組み: マルチエポックトレーニング中、最初のエポックでは OSS や Lingjun CPFS などのストレージインスタンスからデータを読み取ります。パフォーマンスは、ストレージインスタンスから直接読み取る場合と同じです。後続のエポックでは、データはローカルキャッシュから読み取られ、読み取り速度が向上します。

使用方法

  1. リソースクォータのローカルキャッシュを有効にします。左側のナビゲーションウィンドウで、[リソースクォータ] > [Lingjun リソース] の順にクリックします。ターゲットクォータを見つけてその名前をクリックし、管理ページを開きます。[ローカルキャッシュ] を有効にして、キャッシュするストレージパスを設定します。

    ネストされたリソースクォータを使用する場合は、最上位のリソースクォータでローカルキャッシュが有効になっていることを確認してください。

    image

  2. ターゲットリソースクォータの Lingjun リソースを使用して DLC ジョブを作成し、[キャッシュを使用] を有効にします。マウントされたストレージアドレスがステップ 1 で指定したキャッシュパスと一致する場合、アクセラレーションはデフォルトで有効になります。無効にすることもできます。

    image