Platform for AI (PAI) のLLM-N-Gram Repetition Filter (MaxCompute) コンポーネントを使用して、大規模言語モデル (LLM) のトレーニングに使用されるテキストデータを前処理できます。 コンポーネントは、文字レベルまたは単語レベルのNグラムの繰り返し率に基づいてテキストをフィルタリングします。
制限事項
MaxComputeのリソースのみに基づいて、LLM-N-Gram Repetition Filter (MaxCompute) コンポーネントを使用できます。
アルゴリズムの説明
LLM-N-Gram Repetition Filter (MaxCompute) コンポーネントは、N文字ウィンドウをテキスト上で移動して、N文字または単語のシーケンスを生成します。 各シーケンスはNグラムと呼ばれる。 コンポーネントは、各Nグラムの頻度を計算し、次の式を使用して繰り返し比を計算します。1回以上発生するNグラムの累積頻度 /すべてのNグラムの合計頻度
。 これにより、コンポーネントは繰り返し比率に基づいてテキストをフィルタリングできます。
Nグラムが単語のシーケンスである場合、コンポーネントは繰り返し率を計算する前にすべての単語を小文字に変換します。
コンポーネントの設定
Machine Learning Designerで、LLM-N-Gram Repetition Filter (MaxCompute) コンポーネントのパラメーターを設定できます。 下表に、各パラメーターを説明します。
タブ | パラメーター | 必須 | 説明 | デフォルト値 |
フィールド設定 | ターゲット列の選択 | 可 | 処理する列。The columns that you want to process. 複数の列を選択できます。 | N/A |
キャラクターレベルのNグラム繰り返し比率でフィルタリングするかどうか | 不可 |
| N/A | |
ワードレベルのNグラム繰り返し比でフィルタリングするかどうか | 不可 |
| N/A | |
出力テーブルのライフサイクル | 不可 | 値は正の整数でなければなりません。 単位:日 デフォルト値: 28。 このコンポーネントによって生成された一時テーブルは、28日後にリサイクルされます。 | 28 | |
チューニング | マップタスクのインスタンスごとのCPU数 | 不可 | マップタスクの各インスタンスのCPU数。 有効な値: 50 ~ 800 | 100 |
マップタスクのインスタンスあたりのメモリサイズ | 不可 | マップタスクの各インスタンスのメモリサイズ。 単位:MB。 有効な値: 256〜12288。 | 1024 | |
マップの入力データの最大サイズ | 不可 | マップタスクの各インスタンスが処理できるデータの最大量。 このパラメーターを使用して、入力データのサイズを制御できます。 単位:MB。 有効な値: 1〜Integer.MAX_VALUE。 | 256 |
関連ドキュメント
Machine Learning Designerコンポーネントの詳細については、「Machine Learning Designerの概要」をご参照ください。