Platform for AI (PAI) のLLM-Sensitive Keywords Filter (DLC) コンポーネントは、機密キーワードを含むテキストを除外するために使用されます。 入力Object Storage Service (OSS) データファイルは、JSONライン形式であり、次の要件を満たす必要があります。ファイルの各行は有効なJSONオブジェクトであり、ファイルは複数行のJSONオブジェクトで構成されますが、ファイルは有効なJSONオブジェクトではありません。 詳細については、「例」をご参照ください。
サポートされるコンピューティングリソース
アルゴリズムの説明
LLM-Sensitive Keywords Filter (DLC) コンポーネントは、機密キーワードを含むテキストをチェックして除外します。 コンポーネントは、検出された機密キーワードを返すこともできます。 デフォルトでは、アルゴリズムは12,000を超える機密キーワードを認識できます。 キーワードを表示するには、「既定の機密キーワード」をご参照ください。
ブラウザで既定の機密キーワードリストを表示し、そのリストに文字化けした文字が含まれている場合は、そのリストをオンプレミスのデバイスにダウンロードします。
コンポーネントの設定
Machine Learning Designerのパイプラインページで、LLM-Sensitive Keywords Filter (DLC) コンポーネントのパラメーターを設定します。
タブ | パラメーター | 必須 | 説明 | デフォルト値 | |
フィールドの設定 | Target Processフィールド | 必須 | 処理するフィールドの名前。 | 非該当 | |
OutputDataを保存するためのOSSディレクトリ | 選択可能 | 生成されたデータが保存されるOSSディレクトリ。 このパラメーターを指定しない場合、ワークスペースのデフォルトパスが使用されます。 | 非該当 | ||
機密キーワードファイル | 選択可能 | 機密キーワードファイルのパス。 このパラメーターを空のままにすると、デフォルトの機密キーワードリストが使用されます。 ファイルの内容は、"Sensitive keyword 1\n Sensitive keyword 2\n..." 形式である必要があります。 複数の機密キーワードを改行で区切ります。 | デフォルトの機密キーワードリスト | ||
チューニング | プロセス数 | 選択可能 | プロセスの数。 | 8 | |
リソースグループの選択 | パブリックリソースグループ | 選択可能 | 使用するインスタンスタイプ (CPUまたはGPU) 、インスタンス数、および仮想プライベートクラウド (VPC) 。 | 非該当 | |
専用リソースグループ | 選択可能 | 使用するvCPU、メモリ、共有メモリの数、GPUの数、およびインスタンスの数。 | 非該当 | ||
最大実行時間 | 選択可能 | コンポーネントを実行できる最大期間。 この時間を超えると、ジョブは終了します。 | 非該当 |