LLM-Count Filter (MaxCompute) コンポーネントを使用して、大規模言語モデル (LLM) のトレーニングに使用されるテキストデータを前処理できます。 コンポーネントは、文字、数字、または区切り文字に関連するメトリックに基づいてテキストサンプルをフィルタリングします。
制限事項
LLM-Count Filter (MaxCompute) コンポーネントは、MaxComputeリソースのみをサポートします。
アルゴリズム
LLM-Count Filter (MaxCompute) コンポーネントは、次のメトリックに基づいてテキストサンプルをフィルタリングします。
桁数または桁数と合計文字の比率
区切り文字を指定した場合、コンポーネントはテキストサンプルを単語リストに分割し、単語ごとにメトリック値を計算します。
文字数または総文字数に対する文字数の比率
区切り文字を指定した場合、コンポーネントはテキストサンプルを単語リストに分割し、単語ごとにメトリック値を計算します。
英数字の文字数または英数字の総文字数に対する比率
区切り文字を指定した場合、コンポーネントはテキストサンプルを単語リストに分割し、単語ごとにメトリック値を計算します。
総トークンに対する文字の比率
このコンポーネントは、pythia-6.9b-dedupedモデルを使用してテキストサンプルをトークンに分割し、文字数をトークンの総数で割って比率を計算します。
区切り文字の数
コンポーネントの設定
Platform for AI (PAI) コンソールのMachine Learning Designerモジュールで、LLM-Count Filter (MaxCompute) コンポーネントのパラメーターを設定できます。 下表に、各パラメーターを説明します。
タブ | パラメーター | 必須 | 説明 | デフォルト値 |
フィールド設定 | ターゲット列の選択 | 可 | 処理する列。 複数の列を選択できます。 | デフォルト値なし |
テキスト区切り | 不可 | テキストサンプルを単語リストに分割するために使用される区切り文字。 分割後、メトリック値は単語によって計算されます。 このパラメーターを空のままにすると、コンポーネントは文字でメトリック値を計算します。 区切り文字を二重引用符 ("") で囲みます。 | " " | |
数値または比率でフィルタリングするかどうか | 不可 |
| デフォルト値なし | |
Alpha CountまたはRatioでフィルタリングするかどうか | 不可 |
| デフォルト値なし | |
英数字数または比率でフィルタリングするかどうか | 不可 |
| デフォルト値なし | |
テキストトークンの数に対するアルファ文字の数の比率でフィルタリングするかどうか | 不可 |
| デフォルト値なし | |
セパレータ数でフィルタリングするかどうか | 不可 |
| デフォルト値なし | |
出力テーブルのライフサイクル | 不可 | 値は正の整数です。 単位:日 デフォルト値: 28。 テーブルのデフォルトのライフサイクルが経過すると、コンポーネントによって生成された一時テーブルがリサイクルされます。 | 28 | |
チューニング | マップタスクのインスタンスごとのCPU数 | 不可 | マップタスクの各インスタンスのCPU数。 有効な値: [50,800] 。 | 100 |
マップタスクのインスタンスあたりのメモリサイズ | 不可 | マップタスクの各インスタンスのメモリサイズ。 単位:MB。 有効な値: [256,12288] 。 | 1024 | |
マップの入力データの最大サイズ | 不可 | マップタスクの各インスタンスが処理できるデータの最大量。 このパラメーターを使用して、マップの入力を管理できます。 単位:MB。 有効な値: [1,Integer.MAX_VALUE] 。 | 256 |
関連ドキュメント
Machine Learning Designerの詳細については、「Machine Learning Designerの概要」をご参照ください。