MaxCompute でカウントベースのテキストフィルターを使用して LLM トレーニングデータを前処理 - PAI

LLM-Count Filter (MaxCompute) コンポーネントを使用して、大規模言語モデル (LLM) のトレーニングに使用されるテキストデータを前処理できます。コンポーネントは、文字、数字、または区切り文字に関連するメトリックに基づいてテキストサンプルをフィルタリングします。

制限事項

LLM-Count Filter (MaxCompute) コンポーネントは、MaxComputeリソースのみをサポートします。

アルゴリズム

LLM-Count Filter (MaxCompute) コンポーネントは、次のメトリックに基づいてテキストサンプルをフィルタリングします。

桁数または桁数と合計文字の比率
区切り文字を指定した場合、コンポーネントはテキストサンプルを単語リストに分割し、単語ごとにメトリック値を計算します。
文字数または総文字数に対する文字数の比率
区切り文字を指定した場合、コンポーネントはテキストサンプルを単語リストに分割し、単語ごとにメトリック値を計算します。
英数字の文字数または英数字の総文字数に対する比率
区切り文字を指定した場合、コンポーネントはテキストサンプルを単語リストに分割し、単語ごとにメトリック値を計算します。
総トークンに対する文字の比率
このコンポーネントは、pythia-6.9b-dedupedモデルを使用してテキストサンプルをトークンに分割し、文字数をトークンの総数で割って比率を計算します。
区切り文字の数

コンポーネントの設定

Platform for AI (PAI) コンソールのMachine Learning Designerモジュールで、LLM-Count Filter (MaxCompute) コンポーネントのパラメーターを設定できます。下表に、各パラメーターを説明します。

タブ	パラメーター	必須	説明	デフォルト値
フィールド設定	ターゲット列の選択	可	処理する列。複数の列を選択できます。	デフォルト値なし
	テキスト区切り	不可	テキストサンプルを単語リストに分割するために使用される区切り文字。分割後、メトリック値は単語によって計算されます。このパラメーターを空のままにすると、コンポーネントは文字でメトリック値を計算します。区切り文字を二重引用符 ("") で囲みます。	" "
	数値または比率でフィルタリングするかどうか	不可	最小数または数値文字の比率: 桁数または合計文字に対する桁の比率がこの値未満の場合、テキストサンプルは除外されます。桁数に基づいてテキストサンプルをフィルタリングするには、1より大きい値を指定します。合計文字数に対する数字の比率に基づいてテキストサンプルをフィルタリングするには、0.0〜1.0の値を指定します。最大数または数値文字の比率: 桁数または合計文字に対する桁の比率がこの値より大きい場合、テキストサンプルは除外されます。桁数に基づいてテキストサンプルをフィルタリングするには、1より大きい値を指定します。合計文字数に対する数字の比率に基づいてテキストサンプルをフィルタリングするには、0.0〜1.0の値を指定します。	デフォルト値なし
	Alpha CountまたはRatioでフィルタリングするかどうか	不可	最小数またはアルファ文字の比率: 文字数または合計文字に対する文字の比率がこの値未満の場合、テキストサンプルは除外されます。文字数に基づいてテキストサンプルをフィルタリングするには、1より大きい値を指定します。合計文字に対する文字の比率に基づいてテキストサンプルをフィルタリングするには、0.0〜1.0の値を指定します。最大数またはアルファ文字の比率: 文字数または合計文字に対する文字の比率がこの値より大きい場合、テキストサンプルは除外されます。文字数に基づいてテキストサンプルをフィルタリングするには、1より大きい値を指定します。合計文字に対する文字の比率に基づいてテキストサンプルをフィルタリングするには、0.0〜1.0の値を指定します。	デフォルト値なし
	英数字数または比率でフィルタリングするかどうか	不可	AlphaNumeric Charsの最小数または比率: 英数字の文字数または合計文字に対する英数字の比率がこの値未満の場合、テキストサンプルは除外されます。英数字の文字数に基づいてテキストサンプルをフィルタリングするには、1より大きい値を指定します。英数字と合計文字の比率に基づいてテキストサンプルをフィルタリングするには、0.0〜1.0の値を指定します。最大数またはAlphameric Charsの比率: 英数字の文字数または英数字の合計に対する比率がこの値より大きい場合、テキストサンプルは除外されます。英数字の文字数に基づいてテキストサンプルをフィルタリングするには、1より大きい値を指定します。英数字と合計文字の比率に基づいてテキストサンプルをフィルタリングするには、0.0〜1.0の値を指定します。	デフォルト値なし
	テキストトークンの数に対するアルファ文字の数の比率でフィルタリングするかどうか	不可	テキストトークンに対するアルファ文字の最小比率: トークン合計に対する文字の比率がこの値未満の場合、テキストサンプルは除外されます。このコンポーネントは、pythia-6.9b-dedupedモデルを使用してテキストサンプルをトークンに分割し、文字数をトークンの総数で割って比率を計算します。テキストトークンに対するアルファ文字の最大比率: トークン合計に対する文字の比率がこの値より大きい場合、テキストサンプルは除外されます。このコンポーネントは、pythia-6.9b-dedupedモデルを使用してテキストサンプルをトークンに分割し、文字数をトークンの総数で割って比率を計算します。	デフォルト値なし
	セパレータ数でフィルタリングするかどうか	不可	最小区切り数: テキストサンプルの区切り文字の数がこの値より少ない場合、テキストサンプルは除外されます。最大区切り文字数: テキストサンプルの区切り文字の数がこの値より大きい場合、テキストサンプルは除外されます。	デフォルト値なし
	出力テーブルのライフサイクル	不可	値は正の整数です。単位：日デフォルト値: 28。テーブルのデフォルトのライフサイクルが経過すると、コンポーネントによって生成された一時テーブルがリサイクルされます。	28
チューニング	マップタスクのインスタンスごとのCPU数	不可	マップタスクの各インスタンスのCPU数。有効な値: [50,800] 。	100
	マップタスクのインスタンスあたりのメモリサイズ	不可	マップタスクの各インスタンスのメモリサイズ。単位：MB。有効な値: [256,12288] 。	1024
	マップの入力データの最大サイズ	不可	マップタスクの各インスタンスが処理できるデータの最大量。このパラメーターを使用して、マップの入力を管理できます。単位：MB。有効な値: [1,Integer.MAX_VALUE] 。	256

Platform For AI:LLM-カウントフィルター (MaxCompute)

制限事項

アルゴリズム

コンポーネントの設定

関連ドキュメント