LLM-Sensitive Keywords Filter (MaxCompute) コンポーネントを使用して、大規模言語モデル (LLM) のトレーニングに使用されるテキストデータを前処理できます。 コンポーネントは、機密キーワードを含むテキストサンプルをフィルタリングします。
サポートされるコンピューティングリソース
アルゴリズムの説明
LLM-Sensitive Keywords Filter (MaxCompute) コンポーネントは、テキストサンプルに機密キーワードが含まれているかどうかをチェックし、機密キーワードが含まれているテキストサンプルを除外します。 コンポーネントは、検出された機密キーワードを返すこともできます。 デフォルトでは、12,000を超える機密キーワードがサポートされています。
コンポーネントの設定
Machine Learning Designerのパイプラインの詳細ページで、LLM-Sensitive Keywords Filter (MaxCompute) コンポーネントをパイプラインに追加し、次の表に示すパラメーターを設定します。
タブ | パラメーター | デフォルト値 | 説明 |
フィールド設定 | ターゲット列の選択 | デフォルト値なし | 処理する列。The columns that you want to process. |
機密結果を保存するかどうか | NoNoデフォルト値 | 検出結果を出力テーブルに保存するかどうかを指定します。 このオプションを選択した場合、次のパラメーターを使用して、出力テーブルの検出結果を格納する列を指定できます。
| |
SQLスクリプト | デフォルト値なし | フィルター条件を指定するWHERE句。 Sensitive bool value saved column nameおよびSensitive words saved column nameパラメーターの値に基づいて、サンプルをフィルター処理できます。 | |
機密キーワードファイル | デフォルトの機密キーワードファイル | 機密キーワードファイルのパス。 このパラメーターを空のままにすると、デフォルトの機密キーワードリストが使用されます。 ファイルの内容は、"Sensitive keyword 1\n Sensitive keyword 2\n..." 形式である必要があります。 複数の機密キーワードを改行で区切ります。 | |
出力テーブルのライフサイクル | 28 | 値は正の整数です。 単位:日 デフォルト値: 28。 テーブルのデフォルトのライフサイクルが経過すると、コンポーネントによって生成された一時テーブルがリサイクルされます。 | |
チューニング | マップタスクのインスタンスごとのCPU数 | 100 | マップタスクの各インスタンスのCPU数。 有効な値: 50 ~ 800 |
マップタスクのインスタンスあたりのメモリサイズ | 1024 | マップタスクの各インスタンスのメモリサイズ。 単位:MB。 有効な値: 256〜12288。 | |
マップの入力データの最大サイズ | 256 | マップタスクの各インスタンスが処理できるデータの最大量。 このパラメーターを使用して、マップの入力を管理できます。 単位:MB。 有効な値: 1〜Integer.MAX_VALUE。 |