LLM - Sensitive Information Masking (DLC) コンポーネントは、機密情報をプレースホルダーに置き換えることでマスキングします。例えば、メールアドレスを [EMAIL] に、電話番号を [TELEPHONE] または [MOBILEPHONE] に、ID カード番号を [IDNUM] に置き換えます。入力 OSS データファイルは、JSON Lines (JSONL) フォーマットである必要があります (例)。JSONL ファイルでは、各行が有効な JSON オブジェクトですが、ファイル全体としては単一の有効な JSON オブジェクトではありません。
サポートされるコンピューティングリソース
仕組み
このコンポーネントは、以下のカテゴリの機密情報を検出してマスキングします:
-
携帯電話番号: 次の正規表現に一致する文字列は、
[MOBILEPHONE]に置き換えられます。-
r'(?<!\d)(1(3[0-9]|4[579]|5[0-3,5-9]|6[6]|7[0135678]|8[0-9]|9[89])\d{8})(?!\d)'
-
r'(?<!\d)(1[\d]{2}-\d{4}-\d{4}\D|\D1\d{10}\D|\D1[\d]{2} \d{4} \d{4})(?!\d)'
-
r'(?<!\d)(1[3-9]\d{9})(?!\d)'
-
-
固定電話番号: 次の正規表現に一致する文字列は、
[TELEPHONE]に置き換えられます。-
r'(?<!\d)(\(?0\d{2,3}[-\s)]?\d{7,8})(?!\d)'
-
-
メールアドレス: 次の正規表現に一致する文字列は、
[EMAIL]に置き換えられます。-
r'[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+.[a-zA-Z0-9-.]+'
-
-
ID カード番号: 次の正規表現に一致する文字列は、
[IDNUM]に置き換えられます。-
r'(?<!\d)([1-6]\d{5}[12]\d{3}(0[1-9]|1[12])(0[1-9]|1[0-9]|2[0-9]|3[01])\d{3}(\d|X|x))(?!\d)'
-
r'(?<!\d)([1-9]\d{5}[12]\d{3}(0[1-9]|1[012])(0[1-9]|[12][0-9]|3[01])\d{3}[0-9xX])(?!\d)'
-
例えば、メールアドレスをマスキングする場合:
|
変更前 現在のフィールド値には、Select2 マレー語翻訳プラグインの JavaScript コードスニペットが含まれています。`Author` 行には、マスキング対象のメールアドレス (xxx@gmail.com) が含まれています。 |
後
|
コンポーネントの設定
Designer のワークフローページで、LLM - Sensitive Information Masking (DLC) コンポーネントを追加し、右側のペインでそのパラメーターを設定します。
|
パラメータータイプ |
パラメーター |
必須 |
説明 |
デフォルト |
|
|
フィールド設定 |
ターゲットフィールド |
はい |
処理対象のフィールド名。 |
なし |
|
|
データ出力 OSS ディレクトリ |
いいえ |
処理後のデータを格納する OSS ディレクトリ。このパラメーターを空のままにした場合、コンポーネントはワークスペースのデフォルトパスを使用します。 |
なし |
||
|
実行チューニング |
プロセス数 |
いいえ |
使用するプロセス数。 |
8 |
|
|
リソースグループの選択 |
パブリックリソースグループ |
いいえ |
ノードスペック (CPU または GPU インスタンスタイプ)、ノード数、VPC を選択します。 |
なし |
|
|
専用リソースグループ |
いいえ |
CPU コア数、メモリ量、共有メモリサイズ、GPU 数、ノード数を選択します。 |
なし |
||
|
最大ランタイム |
いいえ |
コンポーネントの最大ランタイム。ランタイムがこの値を超えると、システムはジョブを終了します。 |
なし |
||