LLM-Sensitive Keywords Filter (DLC)を使用してテキストをフィルタリング - Platform for AI (PAI):LLM-Sensitive Keywords Filter (DLC)

Platform for AI (PAI) のLLM-Sensitive Keywords Filter (DLC) コンポーネントは、機密キーワードを含むテキストを除外するために使用されます。入力Object Storage Service (OSS) データファイルは、JSONライン形式であり、次の要件を満たす必要があります。ファイルの各行は有効なJSONオブジェクトであり、ファイルは複数行のJSONオブジェクトで構成されますが、ファイルは有効なJSONオブジェクトではありません。詳細については、「例」をご参照ください。

サポートされるコンピューティングリソース

ディープラーニングコンテナ (DLC)

アルゴリズムの説明

LLM-Sensitive Keywords Filter (DLC) コンポーネントは、機密キーワードを含むテキストをチェックして除外します。コンポーネントは、検出された機密キーワードを返すこともできます。デフォルトでは、アルゴリズムは12,000を超える機密キーワードを認識できます。キーワードを表示するには、「既定の機密キーワード」をご参照ください。

説明

ブラウザで既定の機密キーワードリストを表示し、そのリストに文字化けした文字が含まれている場合は、そのリストをオンプレミスのデバイスにダウンロードします。

コンポーネントの設定

Machine Learning Designerのパイプラインページで、LLM-Sensitive Keywords Filter (DLC) コンポーネントのパラメーターを設定します。

タブ	パラメーター		必須	説明	デフォルト値
フィールドの設定	Target Processフィールド		必須	処理するフィールドの名前。	非該当
	OutputDataを保存するためのOSSディレクトリ		選択可能	生成されたデータが保存されるOSSディレクトリ。このパラメーターを指定しない場合、ワークスペースのデフォルトパスが使用されます。	非該当
	機密キーワードファイル		選択可能	機密キーワードファイルのパス。このパラメーターを空のままにすると、デフォルトの機密キーワードリストが使用されます。ファイルの内容は、"Sensitive keyword 1\n Sensitive keyword 2\n..." 形式である必要があります。複数の機密キーワードを改行で区切ります。	デフォルトの機密キーワードリスト
チューニング	プロセス数		選択可能	プロセスの数。	8
	リソースグループの選択	パブリックリソースグループ	選択可能	使用するインスタンスタイプ (CPUまたはGPU) 、インスタンス数、および仮想プライベートクラウド (VPC) 。	非該当
	リソースグループの選択	専用リソースグループ	選択可能	使用するvCPU、メモリ、共有メモリの数、GPUの数、およびインスタンスの数。	非該当
	最大実行時間		選択可能	コンポーネントを実行できる最大期間。この時間を超えると、ジョブは終了します。	非該当