LLM-Count Filter (DLC)を使用して数字と文字の比率でテキストをフィルタリング - PAI

Platform for AI (PAI) のLLM-Count Filter (DLC) コンポーネントは、数字と文字の比率に基づいてテキストをフィルタリングするために使用されます。入力Object Storage Service (OSS) データファイルは、JSONライン形式であり、次の要件を満たす必要があります。ファイルの各行は有効なJSONオブジェクトであり、ファイルは複数行のJSONオブジェクトで構成されますが、ファイルは有効なJSONオブジェクトではありません。詳細については、「例」をご参照ください。

サポートされるコンピューティングリソース

ディープラーニングコンテナ (DLC)

アルゴリズムの説明

LLM-Count Filter (DLC) コンポーネントは、次の機能をサポートしています。

数字と文字の数または比率に基づいてテキストをフィルタリングします。
アルゴリズムは、テキスト内の桁数と文字数を計算し、しきい値に基づいてテキストをフィルタリングします。
文字とテキストトークンの比率に基づいてテキストをフィルタリングします。
このアルゴリズムは、pythia-6.9b-dedupedモデルを使用してテキストをトークンに分割し、トークンに対する数字および文字の比率を計算し、その比率に基づいてテキストをフィルタリングします。

コンポーネントの設定

Machine Learning Designerのパイプラインページで、LLM-Count Filtering (DLC) コンポーネントのパラメーターを設定します。

タブ	パラメーター		必須	説明	デフォルト値
フィールドの設定	Target Processフィールド		必須	処理するフィールドの名前。	非該当
	アルファ数値カウントまたは比率でフィルタリングするかどうか		選択可能	テキストの長さに対する数字と文字の比率に基づいてテキストをフィルタリングするかどうかを指定します。このオプションを選択した場合、次のパラメーターを設定する必要があります。アルファ数値シャールの最小数または比率アルファ数値シャールの最大数または比率	未選択
	テキストトークンの数に対するアルファ文字の数の比率でフィルタリングするかどうか		選択可能	アルゴリズムは、pythia-6.9b-dedupedモデルを使用してテキストをトークンに分割し、トークンに対する数字および文字の比率を計算し、その比率に基づいてテキストをフィルタリングします。このオプションを選択した場合、次のパラメーターを設定する必要があります。テキストトークンに対するアルファ文字の最小比率テキストトークンに対するアルファ文字の最大比率	未選択
	OutputDataを保存するためのOSSディレクトリ		選択可能	生成されたデータが保存されるOSSディレクトリ。このパラメーターを指定しない場合、ワークスペースのデフォルトパスが使用されます。	非該当
チューニング	プロセス数		選択可能	プロセスの数。	8
	リソースグループの選択	パブリックリソースグループ	選択可能	使用するインスタンスタイプ (CPUまたはGPU) 、インスタンス数、および仮想プライベートクラウド (VPC) 。	非該当
	リソースグループの選択	専用リソースグループ	選択可能	使用するvCPU、メモリ、共有メモリの数、GPUの数、およびインスタンスの数。	非該当
	最大実行時間		選択可能	コンポーネントを実行できる最大期間。この時間を超えると、ジョブは終了します。	非該当