Platform for AI (PAI) のLLM-N-Gram Repetition Filter (DLC) コンポーネントは、文字レベルまたは単語レベルのN-Gramsの繰り返し率に基づいてテキストをフィルタリングするために使用されます。 入力Object Storage Service (OSS) データファイルは、JSONライン形式であり、次の要件を満たす必要があります。ファイルの各行は有効なJSONオブジェクトであり、ファイルは複数行のJSONオブジェクトで構成されますが、ファイルは有効なJSONオブジェクトではありません。 詳細については、「例」をご参照ください。
サポートされるコンピューティングリソース
アルゴリズムの説明
LLM-N-Gram Repetition Filter (DLC) コンポーネントは、N文字ウィンドウをテキスト全体に移動して、N文字または単語のシーケンスを生成します。 各シーケンスはNグラムと呼ばれる。 コンポーネントは、各Nグラムの頻度を計算し、次の式を使用して繰り返し比を計算します。1回以上発生するNグラムの累積頻度 /すべてのNグラムの合計頻度。 これに基づいて、コンポーネントは、繰り返し比率に基づいてテキストをフィルタリングします。
Nグラムが単語のシーケンスである場合、コンポーネントは繰り返し率を計算する前にすべての単語を小文字に変換します。
コンポーネントの設定
Machine Learning Designerのパイプラインページで、LLM-N-Gram Repetition Filter (DLC) コンポーネントのパラメーターを設定します。
タブ | パラメーター | 必須 | 説明 | デフォルト値 | |
フィールドの設定 | Target Processフィールド | 可 | 処理するフィールドの名前。 | N/A | |
キャラクターレベルのNグラム繰り返し比率でフィルタリングするかどうか | 不可 | このオプションを選択した場合、次のパラメーターを設定する必要があります。
| 未選択 | ||
ワードレベルのNグラム繰り返し比でフィルタリングするかどうか | 不可 | このオプションを選択した場合、次のパラメーターを設定する必要があります。
| 未選択 | ||
OutputDataを保存するためのOSSディレクトリ | 不可 | 生成されたデータが保存されるOSSディレクトリ。 このパラメーターを指定しない場合、ワークスペースのデフォルトパスが使用されます。 | N/A | ||
チューニング | プロセス数 | 不可 | プロセスの数。 | 8 | |
リソースグループの選択 | パブリックリソースグループ | 不可 | 使用するインスタンスタイプ (CPUまたはGPU) 、インスタンス数、および仮想プライベートクラウド (VPC) 。 | N/A | |
専用リソースグループ | 不可 | 使用するvCPU、メモリ、共有メモリの数、GPUの数、およびインスタンスの数。 | N/A | ||
最大実行時間 | 不可 | コンポーネントを実行できる最大期間。 この時間を超えると、ジョブは終了する。 | N/A | ||