LLM-Special Characters Ratio Filter (MaxCompute) コンポーネントは、テキスト内の特殊文字の比率に基づいてテキストサンプルをフィルタリングするために使用されます。 大規模言語モデル (LLM) のテキスト前処理中にコンポーネントを使用できます。
制限事項
LLM-Special Characters Ratio Filter (MaxCompute) コンポーネントは、MaxComputeリソースのみをサポートします。
アルゴリズム
アルゴリズムは、テキスト内の各文字をトラバースし、テキストの長さに対する特殊文字の数の比率を計算します。
特殊文字には、句読点 (string.punctuation) 、数字 (string.digits) 、スペース (string.whitespace) 、絵文字、およびその他の特殊文字が含まれます。
コンポーネントの設定
Machine Learning DesignerのLLM-Special Characters Ratio Filter (MaxCompute) コンポーネントのパラメーターを設定できます。 下表に、各パラメーターを説明します。
タブ | パラメーター | 必須 | 説明 | デフォルト値 |
フィールド設定 | ターゲット列の選択 | 可 | 処理する列。The columns that you want to process. 複数の列を選択できます。 | デフォルト値なし |
最小比率 | 不可 | テキストの長さに対する特殊文字の数の比率がこの値より小さい場合、テキストは除外されます。 | 0 | |
最大比率 | 可 | テキストの長さに対する特殊文字の数の比率がこの値より大きい場合、テキストは除外されます。 | デフォルト値なし | |
出力テーブルのライフサイクル | 不可 | 値は正の整数です。 単位:日 デフォルト値: 28。 テーブルのデフォルトのライフサイクルが経過すると、コンポーネントによって生成された一時テーブルがリサイクルされます。 | 28 | |
チューニング | マップタスクのインスタンスごとのCPU数 | 不可 | マップタスクの各インスタンスのCPU数。 有効な値: 50 ~ 800 | 100 |
マップタスクのインスタンスあたりのメモリサイズ | 不可 | マップタスクの各インスタンスのメモリサイズ。 単位:MB。 有効な値: 256〜12288。 | 1024 | |
マップの入力データの最大サイズ | 不可 | マップタスクの各インスタンスが処理できるデータの最大量。 このパラメーターを使用して、マップの入力を管理できます。 単位:MB。 有効な値: 1〜Integer.MAX_VALUE。 | 256 |
関連ドキュメント
Machine Learning Designerの詳細については、「Machine Learning Designerの概要」をご参照ください。