すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:LLMに敏感なコンテンツマスク (MaxCompute)

最終更新日:Jul 22, 2024

LLM-Sensitive Content Mask (MaxCompute) コンポーネントは、大規模言語モデル (LLM) のトレーニングに使用されるテキストデータ内の機密情報をマスクします。

制限事項

LLM-Sensitive Content Mask (MaxCompute) コンポーネントは、MaxComputeリソースのみをサポートします。

アルゴリズム

LLM-Sensitive Content Mask (MaxCompute) コンポーネントは、次の機密情報をマスクします。

  • 携帯電話番号: 次の正規表現に一致する文字列は [携帯電話] に置き換えられます。

    • r'(?<!\d)(1(3[0-9]| 4[579]| 5[0-3,5-9]| 6[6]| 7[0135678]| 8[0-9]| 9[89])\d{8})(?!\d)'

    • r'(?<!\d)(1[\d]{2}-\d{4}-\d{4}\D |\D1\d{10}\D |\D1[\d]{2} \d{4} \d{4})(?!\d)'

    • r'(?<!\d)(1[3-9]\d{9})(?!\d)'

  • 固定電話番号: 次の正規表現に一致する文字列は [電話] に置き換えられます。

    • r'(?<!\d)(\(?0\d{2,3}[-\s)]?\d{7,8})(?!\d)'

  • メールアドレス: 次の正規表現に一致する文字列は [電子メール] に置き換えられます。

    • r'[a-zA-Z0-9_.+-]+ @[a-zA-Z0-9-]+.[a-zA-Z0-9-.]+'

  • 中国居住者IDカード (PRC) 番号: 次の正規表現に一致する文字列は [IDNUM] に置き換えられます。

    • r'(?<!\d)([1-6]\d{5}[12]\d{3}(0[1-9]| 1[12])(0[1-9]| 1[0-9]| 2[0-9]| 3[01])\d{3}(\d | X | x))(?!\d)'

    • r'(?<!\d)([1-9]\d{5}[12]\d{3}(0[1-9]| 1[012]))(0[1-9]|[12][0-9]| 3[01])\d{3}[0-9xX])(?!\d)'

次の例は、電子メールアドレスをマスクする方法を示しています。

  • 処理前

    image

  • 処理後

    image

コンポーネントの設定

Machine Learning Designerで、LLM-Sensitive Content Mask (MaxCompute) コンポーネントのパラメーターを設定できます。 下表に、各パラメーターを説明します。

タブ

パラメーター

必須

説明

デフォルト値

フィールド設定

ターゲット列の選択

処理する列。The columns that you want to process. 複数の列を選択できます。

デフォルト値なし

出力テーブルのライフサイクル

不可

値は正の整数です。 単位:日 デフォルト値: 28。 テーブルのデフォルトのライフサイクルが経過すると、コンポーネントによって生成された一時テーブルがリサイクルされます。

28

チューニング

マップタスクのインスタンスごとのCPU数

不可

マップタスクの各インスタンスのCPU数。 有効な値: 50 ~ 800

100

マップタスクのインスタンスあたりのメモリサイズ

不可

マップタスクの各インスタンスのメモリサイズ。 単位:MB。 有効な値: 256〜12288。

1024

マップの入力データの最大サイズ

不可

マップタスクの各インスタンスが処理できるデータの最大量。 このパラメーターを使用して、マップの入力を管理できます。 単位:MB。 有効な値: 1〜Integer.MAX_VALUE。

256

関連ドキュメント

Machine Learning Designerの詳細については、「Machine Learning Designerの概要」をご参照ください。