すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:LLM データ処理 - Alpaca-CoT (SFT データ) - DLC コンポーネント

最終更新日:Oct 17, 2025

LLM データ処理アルゴリズムを使用すると、データサンプルを編集および変換し、低品質のサンプルをフィルター処理し、重複するサンプルを特定して削除できます。 必要に応じてさまざまなアルゴリズムを組み合わせてデータをフィルター処理し、要件を満たすテキストを生成し、後続の LLM トレーニングに高品質のデータを提供できます。 このトピックでは、オープンソースの Alpaca-CoT プロジェクトの少量のデータを例として使用します。 PAI 大規模モデルデータ処理コンポーネントを使用して SFT データをクリーンアップおよび処理する方法を示します。 DLC コンポーネントは、大規模なデータ処理のための分散 Ray フレームワークをサポートしています。 また、インテリジェントな集約機能もサポートしています。 この機能により、効率的なデータ処理とリソース使用率が可能になり、不要なデータストレージ操作が削減されます。 詳細については、「集約による大規模モデルデータ処理コンポーネントのグループ化」をご参照ください。

データセットの説明

Machine Learning Designer の「LLM データ処理 - Alpaca-CoT (SFT データ) - DLC コンポーネント」プリセットテンプレートは、5,000 サンプルのデータセットを使用します。 これらのサンプルは、オープンソースの Alpaca-CoT プロジェクトの生データから抽出されます。

ワークフローの作成と実行

  1. Machine Learning Designer ページに移動します。

    1. PAI コンソールにログインします。

    2. ページの左上隅で、必要に応じてリージョンを選択します。

    3. 左側のナビゲーションウィンドウで [ワークスペースリスト] を選択し、ターゲットワークスペースの名前をクリックします。

    4. 左側のナビゲーションウィンドウで、[モデル開発とトレーニング] > [可視化モデリング (Designer)] を選択して Designer ページに移動します。

  2. ワークフローを作成します。

    1. [プリセットテンプレート] タブで、[ビジネスエリア] > [LLM] を選択し、[LLM データ処理-Alpaca-CoT (SFT データ)-DLC コンポーネント] テンプレートカードの [作成] をクリックします。

      image

    2. ワークフローパラメーターを設定 (またはデフォルトのままに) し、[OK] をクリックします。

    3. ワークフローリストで、作成したワークフローを選択し、[ワークフローに入る] をクリックします。

  3. ワークフローの説明:

    image

    ワークフローの主要なアルゴリズムコンポーネントの説明:

    • LLM-MD5 重複排除 (DLC)-1

      `text` フィールドのテキストのハッシュ値を計算し、重複するテキストを削除します。 同じハッシュ値を持つテキストのインスタンスは 1 つだけ保持されます。

    • LLM-Count フィルター (DLC)-1

      数字と文字の指定された比率を満たさない `text` フィールドからサンプルを削除します。 SFT データセットでは、ほとんどの文字が文字と数字です。 このコンポーネントは、一部のダーティデータを削除できます。

    • LLM-N-Gram 繰り返し率フィルター (DLC)-1

      `text` フィールドの文字レベルの N-gram 繰り返し率に基づいてサンプルをフィルター処理します。 コンポーネントは、サイズ N のスライドウィンドウをテキスト文字に適用し、長さ N のセグメントのシーケンスを作成します。 各セグメントはグラムです。 コンポーネントは、各グラムの発生をカウントします。 最後に、コンポーネントは繰り返し率に基づいてサンプルをフィルター処理します。これは、(複数回出現するグラムの総周波数) / (すべてのグラムの総周波数) として計算されます。

    • LLM-禁止用語フィルター (DLC)-1

      システムのプリセット禁止用語ファイルを使用して、禁止用語を含む `text` フィールドからサンプルをフィルター処理します。

    • LLM-長さフィルター (DLC)-1

      `text` フィールドの長さと最大行長に基づいてサンプルをフィルター処理します。 最大行長は、改行文字 (\n) でサンプルを分割することによって決定されます。

    • LLM-SimHash 類似性重複排除 (DLC)-1

      設定された `window_size`、`num_blocks`、および `hamming_distance` の値に基づいて類似のサンプルを削除します。

  4. ワークフローを実行します。

    実行が完了したら、[LLM-SimHash 類似性重複排除 (DLC)-1] コンポーネントを右クリックし、[データの表示] > [出力データ (OSS)] を選択して、先行するすべてのコンポーネントによって処理されたサンプルファイルを表示します。

    image

リファレンス

  • LLM アルゴリズムコンポーネントの詳細については、「LLM データ処理 (DLC)」をご参照ください。