ガウス混合モデル(GMM)は、全体の母集団内に K 個のガウス分布を表現する確率的モデルです。GMM トレーニングコンポーネントを使用して、モデルをクラスタリングできます。
対応するコンピューティングリソース
GMM トレーニングコンポーネントは、以下のいずれかのコンピューティングリソース上で実行されます。
MaxCompute
Realtime Compute for Apache Flink
Platform for AI (PAI) の Deep Learning Containers (DLC)
リソース使用量の見積もり
トレーニングジョブを送信する前に、次のガイドラインを使用してワーカーのサイズを決定します。
ワーカーあたりのメモリ
次の式を使用して、ワーカーあたりの最小メモリ量(単位:MB)を計算します。
M × M × K × 8 × 2 × 12 / 1024 / 1024ここで:
M = ベクトル次元数
K = ガウス成分の数(
kパラメーター)
ほとんどのワークロードでは、ワーカーあたり 8 GB(8192 MB)で十分です。
ベクトル次元数(M)は 200 未満に保ってください。次元数が高くなると、メモリ要件が著しく増加します。
ワーカー数
初期設定として、入力データサイズ(単位:GB)を X とした場合、5 × X 個のワーカーを使用します。
リソースが制限されている場合は、ワーカー数を減らしてください。ワーカー数を増やすとトレーニングが高速化されますが、あるポイントを超えると、ワーカー間通信のオーバーヘッドが並列化のメリットを上回ります。ご利用のデータセットに最適な設定を見つけるために、ワーカー数を調整してください。