すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:LLM-N-Gram反復フィルター (MaxCompute)

最終更新日:Jul 22, 2024

Platform for AI (PAI) のLLM-N-Gram Repetition Filter (MaxCompute) コンポーネントを使用して、大規模言語モデル (LLM) のトレーニングに使用されるテキストデータを前処理できます。 コンポーネントは、文字レベルまたは単語レベルのNグラムの繰り返し率に基づいてテキストをフィルタリングします。

制限事項

MaxComputeのリソースのみに基づいて、LLM-N-Gram Repetition Filter (MaxCompute) コンポーネントを使用できます。

アルゴリズムの説明

LLM-N-Gram Repetition Filter (MaxCompute) コンポーネントは、N文字ウィンドウをテキスト上で移動して、N文字または単語のシーケンスを生成します。 各シーケンスはNグラムと呼ばれる。 コンポーネントは、各Nグラムの頻度を計算し、次の式を使用して繰り返し比を計算します。1回以上発生するNグラムの累積頻度 /すべてのNグラムの合計頻度。 これにより、コンポーネントは繰り返し比率に基づいてテキストをフィルタリングできます。

Nグラムが単語のシーケンスである場合、コンポーネントは繰り返し率を計算する前にすべての単語を小文字に変換します。

コンポーネントの設定

Machine Learning Designerで、LLM-N-Gram Repetition Filter (MaxCompute) コンポーネントのパラメーターを設定できます。 下表に、各パラメーターを説明します。

タブ

パラメーター

必須

説明

デフォルト値

フィールド設定

ターゲット列の選択

処理する列。The columns that you want to process. 複数の列を選択できます。

N/A

キャラクターレベルのNグラム繰り返し比率でフィルタリングするかどうか

不可

  • 長さN: Nグラムの長さ。

  • 最小比率値: 有効値: 0.0〜1.0。 繰り返し率がこの値より小さいテキストはフィルタリングされます。

  • 最大比率値: 有効値: 0.0〜1.0。 反復率がこの値よりも大きいテキストはフィルタリングされる。

N/A

ワードレベルのNグラム繰り返し比でフィルタリングするかどうか

不可

  • テキスト区切り文字: テキストを単語に分割するために使用される区切り文字。 デフォルト値: space ("") 。 区切り文字を二重引用符 ("") で囲みます。

  • 長さN: Nグラムの長さ。

  • 最小比率値: 有効値: 0.0〜1.0。 繰り返し率がこの値より小さいテキストはフィルタリングされます。

  • 最大比率値: 有効値: 0.0〜1.0。 反復率がこの値よりも大きいテキストはフィルタリングされる。

N/A

出力テーブルのライフサイクル

不可

値は正の整数でなければなりません。 単位:日 デフォルト値: 28。 このコンポーネントによって生成された一時テーブルは、28日後にリサイクルされます。

28

チューニング

マップタスクのインスタンスごとのCPU数

不可

マップタスクの各インスタンスのCPU数。 有効な値: 50 ~ 800

100

マップタスクのインスタンスあたりのメモリサイズ

不可

マップタスクの各インスタンスのメモリサイズ。 単位:MB。 有効な値: 256〜12288。

1024

マップの入力データの最大サイズ

不可

マップタスクの各インスタンスが処理できるデータの最大量。 このパラメーターを使用して、入力データのサイズを制御できます。 単位:MB。 有効な値: 1〜Integer.MAX_VALUE。

256

関連ドキュメント

Machine Learning Designerコンポーネントの詳細については、「Machine Learning Designerの概要」をご参照ください。