Platform for AI (PAI) のLLM-Sensitive Content Mask (DLC) コンポーネントは、大規模言語モデル (LLM) のトレーニングに使用されるテキスト内の機密情報をマスクするために使用されます。 入力Object Storage Service (OSS) データファイルは、JSONライン形式であり、次の要件を満たす必要があります。ファイルの各行は有効なJSONオブジェクトであり、ファイルは複数行のJSONオブジェクトで構成されますが、ファイルは有効なJSONオブジェクトではありません。 詳細については、「例」をご参照ください。
サポートされるコンピューティングリソース
アルゴリズムの説明
LLM-Sensitive Content Mask (DLC) コンポーネントは、次の機密情報をマスクします。
携帯電話番号: 次の正規表現に一致する文字列は
[携帯電話]に置き換えられます。r'(?<!\d)(1(3[0-9]| 4[579]| 5[0-3,5-9]| 6[6]| 7[0135678]| 8[0-9]| 9[89])\d{8})(?!\d)'
r'(?<!\d)(1[\d]{2}-\d{4}-\d{4}\D |\D1\d{10}\D |\D1[\d]{2} \d{4} \d{4})(?!\d)'
r'(?<!\d)(1[3-9]\d{9})(?!\d)'
固定電話番号: 次の正規表現に一致する文字列は
[電話]に置き換えられます。r'(?<!\d)(\(?0\d{2,3}[-\s)]?\d{7,8})(?!\d)'
メールアドレス: 次の正規表現に一致する文字列は
[電子メール]に置き換えられます。r'[a-zA-Z0-9_.+-]+ @[a-zA-Z0-9-]+.[a-zA-Z0-9-.]+'
中華人民共和国 (PRC) の居住者IDカード番号: 次の正規表現に一致する文字列は
[IDNUM]に置き換えられます。r'(?<!\d)([1-6]\d{5}[12]\d{3}(0[1-9]| 1[12])(0[1-9]| 1[0-9]| 2[0-9]| 3[01])\d{3}(\d | X | x))(?!\d)'
r'(?<!\d)([1-9]\d{5}[12]\d{3}(0[1-9]| 1[012]))(0[1-9]|[12][0-9]| 3[01])\d{3}[0-9xX])(?!\d)'
次の例は、電子メールアドレスをマスクする方法を示しています。
処理前
| 処理後
|
コンポーネントの設定
Machine Learning Designerのパイプラインページで、LLM-Sensitive Content Mask (DLC) コンポーネントのパラメーターを設定します。
タブ | パラメーター | 必須 | 説明 | デフォルト値 | |
フィールドの設定 | Target Processフィールド | 必須 | 処理するフィールドの名前。 | 非該当 | |
OutputDataを保存するためのOSSディレクトリ | 選択可能 | 生成されたデータが保存されるOSSディレクトリ。 このパラメーターを指定しない場合、ワークスペースのデフォルトパスが使用されます。 | 非該当 | ||
チューニング | プロセス数 | 選択可能 | プロセスの数。 | 8 | |
リソースグループの選択 | パブリックリソースグループ | 選択可能 | 使用するインスタンスタイプ (CPUまたはGPU) 、インスタンス数、および仮想プライベートクラウド (VPC) 。 | 非該当 | |
専用リソースグループ | 選択可能 | 使用するvCPU、メモリ、共有メモリの数、GPUの数、およびインスタンスの数。 | 非該当 | ||
最大実行時間 | 選択可能 | コンポーネントを実行できる最大期間。 この時間を超えると、ジョブは終了します。 | 非該当 | ||

