Platform for AI (PAI) のLLM-Length Filter (DLC) コンポーネントは、テキストの長さ、テキスト内の平均行長、および最大行長に基づいてテキストをフィルタリングするために使用されます。 入力Object Storage Service (OSS) データファイルは、JSONライン形式であり、次の要件を満たす必要があります。ファイルの各行は有効なJSONオブジェクトであり、ファイルは複数行のJSONオブジェクトで構成されますが、ファイルは有効なJSONオブジェクトではありません。 詳細については、「例」をご参照ください。
サポートされるコンピューティングリソース
コンポーネントの設定
Machine Learning Designerのパイプラインページで、LLM-Length Filtering (DLC) コンポーネントのパラメーターを設定します。
タブ | パラメーター | 必須 | 説明 | デフォルト値 | |
フィールドの設定 | Target Processフィールド | 可 | 処理するフィールドの名前。 | N/A | |
テキスト長でフィルタするかどうか | 不可 | テキストの長さに基づいてテキストをフィルタリングするかどうかを指定します。 このオプションを選択した場合、次のパラメーターを設定する必要があります。
| 未選択 | ||
サンプルの平均長でフィルタリングするかどうか | 不可 | このアルゴリズムは、改行に基づいてテキストを分割し、テキストの平均行長を計算し、テキストの平均行長に基づいてテキストをフィルタリングします。 このオプションを選択した場合、次のパラメーターを設定する必要があります。
| 未選択 | ||
サンプルの最長行長でフィルタリングするかどうか | 不可 | このアルゴリズムは、改行に基づいてテキストを分割し、テキストの最大行長を計算し、テキストの最大行長に基づいてテキストをフィルタリングします。 このオプションを選択した場合、次のパラメーターを設定する必要があります。
| 未選択 | ||
OutputDataを保存するためのOSSディレクトリ | 不可 | 生成されたデータが保存されるOSSディレクトリ。 このパラメーターを指定しない場合、ワークスペースのデフォルトパスが使用されます。 | N/A | ||
チューニング | プロセス数 | 不可 | プロセスの数。 | 8 | |
リソースグループの選択 | パブリックリソースグループ | 不可 | 使用するインスタンスタイプ (CPUまたはGPU) 、インスタンス数、および仮想プライベートクラウド (VPC) 。 | N/A | |
専用リソースグループ | 不可 | 使用するvCPU、メモリ、共有メモリの数、GPUの数、およびインスタンスの数。 | N/A | ||
最大実行時間 | 不可 | コンポーネントを実行できる最大期間。 この時間を超えると、ジョブは終了する。 | N/A | ||