LLM データ処理アルゴリズムを使用すると、データサンプルを編集および変換し、低品質のサンプルをフィルター処理し、重複するサンプルを特定して削除できます。 必要に応じてさまざまなアルゴリズムを組み合わせてデータをフィルター処理し、要件を満たすテキストを生成し、後続の LLM トレーニングに高品質のデータを提供できます。 このトピックでは、オープンソースの Alpaca-CoT プロジェクトの少量のデータを例として使用します。 PAI 大規模モデルデータ処理コンポーネントを使用して SFT データをクリーンアップおよび処理する方法を示します。 DLC コンポーネントは、大規模なデータ処理のための分散 Ray フレームワークをサポートしています。 また、インテリジェントな集約機能もサポートしています。 この機能により、効率的なデータ処理とリソース使用率が可能になり、不要なデータストレージ操作が削減されます。 詳細については、「集約による大規模モデルデータ処理コンポーネントのグループ化」をご参照ください。
データセットの説明
Machine Learning Designer の「LLM データ処理 - Alpaca-CoT (SFT データ) - DLC コンポーネント」プリセットテンプレートは、5,000 サンプルのデータセットを使用します。 これらのサンプルは、オープンソースの Alpaca-CoT プロジェクトの生データから抽出されます。
ワークフローの作成と実行
Machine Learning Designer ページに移動します。
PAI コンソールにログインします。
ページの左上隅で、必要に応じてリージョンを選択します。
左側のナビゲーションウィンドウで [ワークスペースリスト] を選択し、ターゲットワークスペースの名前をクリックします。
左側のナビゲーションウィンドウで、[モデル開発とトレーニング] > [可視化モデリング (Designer)] を選択して Designer ページに移動します。
ワークフローを作成します。
[プリセットテンプレート] タブで、[ビジネスエリア] > [LLM] を選択し、[LLM データ処理-Alpaca-CoT (SFT データ)-DLC コンポーネント] テンプレートカードの [作成] をクリックします。

ワークフローパラメーターを設定 (またはデフォルトのままに) し、[OK] をクリックします。
ワークフローリストで、作成したワークフローを選択し、[ワークフローに入る] をクリックします。
ワークフローの説明:

ワークフローの主要なアルゴリズムコンポーネントの説明:
LLM-MD5 重複排除 (DLC)-1
`text` フィールドのテキストのハッシュ値を計算し、重複するテキストを削除します。 同じハッシュ値を持つテキストのインスタンスは 1 つだけ保持されます。
LLM-Count フィルター (DLC)-1
数字と文字の指定された比率を満たさない `text` フィールドからサンプルを削除します。 SFT データセットでは、ほとんどの文字が文字と数字です。 このコンポーネントは、一部のダーティデータを削除できます。
LLM-N-Gram 繰り返し率フィルター (DLC)-1
`text` フィールドの文字レベルの N-gram 繰り返し率に基づいてサンプルをフィルター処理します。 コンポーネントは、サイズ N のスライドウィンドウをテキスト文字に適用し、長さ N のセグメントのシーケンスを作成します。 各セグメントはグラムです。 コンポーネントは、各グラムの発生をカウントします。 最後に、コンポーネントは繰り返し率に基づいてサンプルをフィルター処理します。これは、
(複数回出現するグラムの総周波数) / (すべてのグラムの総周波数)として計算されます。LLM-禁止用語フィルター (DLC)-1
システムのプリセット禁止用語ファイルを使用して、禁止用語を含む `text` フィールドからサンプルをフィルター処理します。
LLM-長さフィルター (DLC)-1
`text` フィールドの長さと最大行長に基づいてサンプルをフィルター処理します。 最大行長は、改行文字 (
\n) でサンプルを分割することによって決定されます。LLM-SimHash 類似性重複排除 (DLC)-1
設定された `window_size`、`num_blocks`、および `hamming_distance` の値に基づいて類似のサンプルを削除します。
ワークフローを実行します。
実行が完了したら、[LLM-SimHash 類似性重複排除 (DLC)-1] コンポーネントを右クリックし、[データの表示] > [出力データ (OSS)] を選択して、先行するすべてのコンポーネントによって処理されたサンプルファイルを表示します。

リファレンス
LLM アルゴリズムコンポーネントの詳細については、「LLM データ処理 (DLC)」をご参照ください。