このトピックでは、大規模言語モデル (LLM) のデプロイメントとファインチューニングに必要な GPU メモリに影響を与える要因について説明します。また、必要な GPU メモリを見積もる方法についても説明します。
シンプルな GPU メモリ見積もりツール
説明
-
このトピックでは、一般的な計算方法に基づいて、大規模言語モデル (LLM) のデプロイメントとファインチューニングに必要な GPU メモリを見積もります。モデルによってネットワーク構造やアルゴリズムが異なるため、見積もり値は実際の GPU メモリ使用量と異なる場合があります。
-
DeepSeek-R1-671B のような Mixture-of-Experts (MoE) モデルの場合、すべての 671B モデルパラメーターをロードする必要があります。ただし、推論中に活性化されるパラメーターは 37B のみです。したがって、活性化値が占める GPU メモリを計算する際には、37B のモデルパラメーター数を使用する必要があります。
-
モデルのファインチューニング中、モデルは通常、パラメーター、活性化値、勾配を 16ビット形式で保存します。Adam/AdamW オプティマイザーを使用し、オプティマイザーの状態を 32ビット形式で保存します。