LLM トレーニングデータの機密キーワードフィルターを構築 - PAI

LLM-Sensitive Keywords Filter (MaxCompute) コンポーネントを使用して、大規模言語モデル (LLM) のトレーニングに使用されるテキストデータを前処理できます。コンポーネントは、機密キーワードを含むテキストサンプルをフィルタリングします。

サポートされるコンピューティングリソース

MaxCompute

アルゴリズムの説明

LLM-Sensitive Keywords Filter (MaxCompute) コンポーネントは、テキストサンプルに機密キーワードが含まれているかどうかをチェックし、機密キーワードが含まれているテキストサンプルを除外します。コンポーネントは、検出された機密キーワードを返すこともできます。デフォルトでは、12,000を超える機密キーワードがサポートされています。

コンポーネントの設定

Machine Learning Designerのパイプラインの詳細ページで、LLM-Sensitive Keywords Filter (MaxCompute) コンポーネントをパイプラインに追加し、次の表に示すパラメーターを設定します。

タブ	パラメーター	デフォルト値	説明
フィールド設定	ターゲット列の選択	デフォルト値なし	処理する列。The columns that you want to process.
	機密結果を保存するかどうか	NoNoデフォルト値	検出結果を出力テーブルに保存するかどうかを指定します。このオプションを選択した場合、次のパラメーターを使用して、出力テーブルの検出結果を格納する列を指定できます。 Sensitive bool value saved column name: 機密キーワードが検出されるかどうかを指定する列の名前。列はBOOLタイプです。デフォルト値: is_sensitive。機密単語保存列名: 検出された機密キーワードを格納する列の名前。デフォルト値: sensitive_words。
	SQLスクリプト	デフォルト値なし	フィルター条件を指定するWHERE句。 Sensitive bool value saved column nameおよびSensitive words saved column nameパラメーターの値に基づいて、サンプルをフィルター処理できます。列名を変更する場合は、変更した列名に基づいてSQLスクリプトフィールドでWHERE句を設定します。デフォルト値: `not is_sensitive`
	機密キーワードファイル	デフォルトの機密キーワードファイル	機密キーワードファイルのパス。このパラメーターを空のままにすると、デフォルトの機密キーワードリストが使用されます。ファイルの内容は、"Sensitive keyword 1\n Sensitive keyword 2\n..." 形式である必要があります。複数の機密キーワードを改行で区切ります。
	出力テーブルのライフサイクル	28	値は正の整数です。単位：日デフォルト値: 28。テーブルのデフォルトのライフサイクルが経過すると、コンポーネントによって生成された一時テーブルがリサイクルされます。
チューニング	マップタスクのインスタンスごとのCPU数	100	マップタスクの各インスタンスのCPU数。有効な値: 50 ~ 800
	マップタスクのインスタンスあたりのメモリサイズ	1024	マップタスクの各インスタンスのメモリサイズ。単位：MB。有効な値: 256〜12288。
	マップの入力データの最大サイズ	256	マップタスクの各インスタンスが処理できるデータの最大量。このパラメーターを使用して、マップの入力を管理できます。単位：MB。有効な値: 1〜Integer.MAX_VALUE。