すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:LLMに敏感なキーワードフィルター (MaxCompute)

最終更新日:Jan 20, 2025

LLM-Sensitive Keywords Filter (MaxCompute) コンポーネントを使用して、大規模言語モデル (LLM) のトレーニングに使用されるテキストデータを前処理できます。 コンポーネントは、機密キーワードを含むテキストサンプルをフィルタリングします。

サポートされるコンピューティングリソース

MaxCompute

アルゴリズムの説明

LLM-Sensitive Keywords Filter (MaxCompute) コンポーネントは、テキストサンプルに機密キーワードが含まれているかどうかをチェックし、機密キーワードが含まれているテキストサンプルを除外します。 コンポーネントは、検出された機密キーワードを返すこともできます。 デフォルトでは、12,000を超える機密キーワードがサポートされています。

コンポーネントの設定

Machine Learning Designerのパイプラインの詳細ページで、LLM-Sensitive Keywords Filter (MaxCompute) コンポーネントをパイプラインに追加し、次の表に示すパラメーターを設定します。

タブ

パラメーター

デフォルト値

説明

フィールド設定

ターゲット列の選択

デフォルト値なし

処理する列。The columns that you want to process.

機密結果を保存するかどうか

NoNoデフォルト値

検出結果を出力テーブルに保存するかどうかを指定します。 このオプションを選択した場合、次のパラメーターを使用して、出力テーブルの検出結果を格納する列を指定できます。

  • Sensitive bool value saved column name: 機密キーワードが検出されるかどうかを指定する列の名前。 列はBOOLタイプです。 デフォルト値: is_sensitive。

  • 機密単語保存列名: 検出された機密キーワードを格納する列の名前。 デフォルト値: sensitive_words。

SQLスクリプト

デフォルト値なし

フィルター条件を指定するWHERE句。 Sensitive bool value saved column nameおよびSensitive words saved column nameパラメーターの値に基づいて、サンプルをフィルター処理できます。 列名を変更する場合は、変更した列名に基づいてSQLスクリプトフィールドでWHERE句を設定します。 デフォルト値: not is_sensitive

機密キーワードファイル

デフォルトの機密キーワードファイル

機密キーワードファイルのパス。 このパラメーターを空のままにすると、デフォルトの機密キーワードリストが使用されます。 ファイルの内容は、"Sensitive keyword 1\n Sensitive keyword 2\n..." 形式である必要があります。 複数の機密キーワードを改行で区切ります。

出力テーブルのライフサイクル

28

値は正の整数です。 単位:日 デフォルト値: 28。 テーブルのデフォルトのライフサイクルが経過すると、コンポーネントによって生成された一時テーブルがリサイクルされます。

チューニング

マップタスクのインスタンスごとのCPU数

100

マップタスクの各インスタンスのCPU数。 有効な値: 50 ~ 800

マップタスクのインスタンスあたりのメモリサイズ

1024

マップタスクの各インスタンスのメモリサイズ。 単位:MB。 有効な値: 256〜12288。

マップの入力データの最大サイズ

256

マップタスクの各インスタンスが処理できるデータの最大量。 このパラメーターを使用して、マップの入力を管理できます。 単位:MB。 有効な値: 1〜Integer.MAX_VALUE。