LLM データ処理 - Alpaca-CoT - Platform For AI - Alibaba Cloud ドキュメントセンター

LLM データ処理アルゴリズムを使用すると、データサンプルを編集および変換し、低品質のサンプルをフィルター処理し、重複するサンプルを特定して削除できます。必要に応じてさまざまなアルゴリズムを組み合わせてデータをフィルター処理し、要件を満たすテキストを生成し、後続の LLM トレーニングに高品質のデータを提供できます。このトピックでは、オープンソースの Alpaca-CoT プロジェクトの少量のデータを例として使用します。 PAI 大規模モデルデータ処理コンポーネントを使用して SFT データをクリーンアップおよび処理する方法を示します。 DLC コンポーネントは、大規模なデータ処理のための分散 Ray フレームワークをサポートしています。また、インテリジェントな集約機能もサポートしています。この機能により、効率的なデータ処理とリソース使用率が可能になり、不要なデータストレージ操作が削減されます。詳細については、「集約による大規模モデルデータ処理コンポーネントのグループ化」をご参照ください。

データセットの説明

Machine Learning Designer の「LLM データ処理 - Alpaca-CoT (SFT データ) - DLC コンポーネント」プリセットテンプレートは、5,000 サンプルのデータセットを使用します。これらのサンプルは、オープンソースの Alpaca-CoT プロジェクトの生データから抽出されます。

ワークフローの作成と実行

Machine Learning Designer ページに移動します。
1. PAI コンソールにログインします。
2. ページの左上隅で、必要に応じてリージョンを選択します。
3. 左側のナビゲーションウィンドウで [ワークスペースリスト] を選択し、ターゲットワークスペースの名前をクリックします。
4. 左側のナビゲーションウィンドウで、[モデル開発とトレーニング] > [可視化モデリング (Designer)] を選択して Designer ページに移動します。
ワークフローを作成します。
1. [プリセットテンプレート] タブで、[ビジネスエリア] > [LLM] を選択し、[LLM データ処理-Alpaca-CoT (SFT データ)-DLC コンポーネント] テンプレートカードの [作成] をクリックします。
2. ワークフローパラメーターを設定 (またはデフォルトのままに) し、[OK] をクリックします。
3. ワークフローリストで、作成したワークフローを選択し、[ワークフローに入る] をクリックします。

ワークフローの説明:

ワークフローの主要なアルゴリズムコンポーネントの説明:

LLM-MD5 重複排除 (DLC)-1
`text` フィールドのテキストのハッシュ値を計算し、重複するテキストを削除します。同じハッシュ値を持つテキストのインスタンスは 1 つだけ保持されます。
LLM-Count フィルター (DLC)-1
数字と文字の指定された比率を満たさない `text` フィールドからサンプルを削除します。 SFT データセットでは、ほとんどの文字が文字と数字です。このコンポーネントは、一部のダーティデータを削除できます。
LLM-N-Gram 繰り返し率フィルター (DLC)-1
`text` フィールドの文字レベルの N-gram 繰り返し率に基づいてサンプルをフィルター処理します。コンポーネントは、サイズ N のスライドウィンドウをテキスト文字に適用し、長さ N のセグメントのシーケンスを作成します。各セグメントはグラムです。コンポーネントは、各グラムの発生をカウントします。最後に、コンポーネントは繰り返し率に基づいてサンプルをフィルター処理します。これは、(複数回出現するグラムの総周波数) / (すべてのグラムの総周波数) として計算されます。
LLM-禁止用語フィルター (DLC)-1
システムのプリセット禁止用語ファイルを使用して、禁止用語を含む `text` フィールドからサンプルをフィルター処理します。
LLM-長さフィルター (DLC)-1
`text` フィールドの長さと最大行長に基づいてサンプルをフィルター処理します。最大行長は、改行文字 (\n) でサンプルを分割することによって決定されます。
LLM-SimHash 類似性重複排除 (DLC)-1
設定された `window_size`、`num_blocks`、および `hamming_distance` の値に基づいて類似のサンプルを削除します。

ワークフローを実行します。
実行が完了したら、[LLM-SimHash 類似性重複排除 (DLC)-1] コンポーネントを右クリックし、[データの表示] > [出力データ (OSS)] を選択して、先行するすべてのコンポーネントによって処理されたサンプルファイルを表示します。

リファレンス

LLM アルゴリズムコンポーネントの詳細については、「LLM データ処理 (DLC)」をご参照ください。