MaxCompute で特殊文字比率により低品質 LLM テキストを削除する方法 - Platform for AI (PAI)

LLM-Special Characters Ratio Filter (MaxCompute) コンポーネントは、テキスト内の特殊文字の比率に基づいてテキストサンプルをフィルタリングするために使用されます。大規模言語モデル (LLM) のテキスト前処理中にコンポーネントを使用できます。

制限事項

LLM-Special Characters Ratio Filter (MaxCompute) コンポーネントは、MaxComputeリソースのみをサポートします。

アルゴリズムは、テキスト内の各文字をトラバースし、テキストの長さに対する特殊文字の数の比率を計算します。

特殊文字には、句読点 (string.punctuation) 、数字 (string.digits) 、スペース (string.whitespace) 、絵文字、およびその他の特殊文字が含まれます。

Machine Learning DesignerのLLM-Special Characters Ratio Filter (MaxCompute) コンポーネントのパラメーターを設定できます。下表に、各パラメーターを説明します。

タブ	パラメーター	必須	説明	デフォルト値
フィールド設定	ターゲット列の選択	可	処理する列。The columns that you want to process. 複数の列を選択できます。	デフォルト値なし
	最小比率	不可	テキストの長さに対する特殊文字の数の比率がこの値より小さい場合、テキストは除外されます。	0
	最大比率	可	テキストの長さに対する特殊文字の数の比率がこの値より大きい場合、テキストは除外されます。	デフォルト値なし
	出力テーブルのライフサイクル	不可	値は正の整数です。単位：日デフォルト値: 28。テーブルのデフォルトのライフサイクルが経過すると、コンポーネントによって生成された一時テーブルがリサイクルされます。	28
チューニング	マップタスクのインスタンスごとのCPU数	不可	マップタスクの各インスタンスのCPU数。有効な値: 50 ~ 800	100
	マップタスクのインスタンスあたりのメモリサイズ	不可	マップタスクの各インスタンスのメモリサイズ。単位：MB。有効な値: 256〜12288。	1024
	マップの入力データの最大サイズ	不可	マップタスクの各インスタンスが処理できるデータの最大量。このパラメーターを使用して、マップの入力を管理できます。単位：MB。有効な値: 1〜Integer.MAX_VALUE。	256