すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:LLM長さフィルター (DLC)

最終更新日:Jul 22, 2024

Platform for AI (PAI) のLLM-Length Filter (DLC) コンポーネントは、テキストの長さ、テキスト内の平均行長、および最大行長に基づいてテキストをフィルタリングするために使用されます。 入力Object Storage Service (OSS) データファイルは、JSONライン形式であり、次の要件を満たす必要があります。ファイルの各行は有効なJSONオブジェクトであり、ファイルは複数行のJSONオブジェクトで構成されますが、ファイルは有効なJSONオブジェクトではありません。 詳細については、「」をご参照ください。

サポートされるコンピューティングリソース

ディープラーニングコンテナ (DLC)

コンポーネントの設定

Machine Learning Designerのパイプラインページで、LLM-Length Filtering (DLC) コンポーネントのパラメーターを設定します。

タブ

パラメーター

必須

説明

デフォルト値

フィールドの設定

Target Processフィールド

処理するフィールドの名前。

N/A

テキスト長でフィルタするかどうか

不可

テキストの長さに基づいてテキストをフィルタリングするかどうかを指定します。 このオプションを選択した場合、次のパラメーターを設定する必要があります。

  • 最小長さ: この値未満の長さのテキストは除外されます。

  • 最大長: この値を超える長さのテキストは除外されます。

未選択

サンプルの平均長でフィルタリングするかどうか

不可

このアルゴリズムは、改行に基づいてテキストを分割し、テキストの平均行長を計算し、テキストの平均行長に基づいてテキストをフィルタリングします。 このオプションを選択した場合、次のパラメーターを設定する必要があります。

  • 最小平均長: この値未満の平均線長を持つテキストは除外されます。

  • 最大平均長さ: この値より大きい平均線長を有するテキストはフィルタリングされる。

未選択

サンプルの最長行長でフィルタリングするかどうか

不可

このアルゴリズムは、改行に基づいてテキストを分割し、テキストの最大行長を計算し、テキストの最大行長に基づいてテキストをフィルタリングします。 このオプションを選択した場合、次のパラメーターを設定する必要があります。

  • 最長線の最小長: この値未満の最大線長を持つテキストは除外されます。

  • 最長線の最大長: この値よりも大きい最大線長のテキストは除外されます。

未選択

OutputDataを保存するためのOSSディレクトリ

不可

生成されたデータが保存されるOSSディレクトリ。 このパラメーターを指定しない場合、ワークスペースのデフォルトパスが使用されます。

N/A

チューニング

プロセス数

不可

プロセスの数。

8

リソースグループの選択

パブリックリソースグループ

不可

使用するインスタンスタイプ (CPUまたはGPU) 、インスタンス数、および仮想プライベートクラウド (VPC) 。

N/A

専用リソースグループ

不可

使用するvCPU、メモリ、共有メモリの数、GPUの数、およびインスタンスの数。

N/A

最大実行時間

不可

コンポーネントを実行できる最大期間。 この時間を超えると、ジョブは終了する。

N/A