LLM-Length Filter (MaxCompute) コンポーネントを使用して、大規模言語モデル (LLM) のトレーニングに使用されるテキストデータを前処理できます。 このコンポーネントは、テキストの長さ、テキスト内の平均行長、および最大行長に基づいてテキストサンプルをフィルタリングします。 デフォルトでは、テキスト内の行の平均長と最大行長に基づいてテキストサンプルを取得した場合、テキストサンプルは行ごとに分割されてからカウントされます。
制限事項
LLM-Length Filter (MaxCompute) コンポーネントは、MaxComputeリソースのみをサポートします。
コンポーネントの設定
Platform for AI (PAI) コンソールのMachine Learning Designerモジュールでコンポーネントのパラメーターを設定できます。 下表に、各パラメーターを説明します。
タブ | パラメーター | 必須 | 説明 | デフォルト値 |
フィールド設定 | ターゲット列の選択 | 可 | 処理する列。The columns that you want to process. 複数の列を選択できます。 | デフォルト値なし |
テキスト長でフィルタリングするかどうか | 不可 |
| デフォルト値なし | |
サンプルの平均長でフィルター処理するかどうか | 不可 |
| デフォルト値なし | |
サンプルの最長行長でフィルタリングするかどうか。 | 不可 |
| デフォルト値なし | |
出力テーブルのライフサイクル | 不可 | 値は正の整数です。 単位:日 デフォルト値: 28。 テーブルのライフサイクルが経過すると、コンポーネントによって生成された一時テーブルがリサイクルされます。 | 28 | |
チューニング | マップタスクのインスタンスごとのCPU数 | 不可 | マップタスクの各インスタンスのCPU数。 有効な値: [50,800] 。 | 100 |
マップタスクのインスタンスあたりのメモリサイズ | 不可 | マップタスクの各インスタンスのメモリサイズ。 単位:MB。 有効な値: [256,12288] 。 | 1024 | |
マップの入力データの最大サイズ | 不可 | マップタスクの各インスタンスが処理できるデータの最大量。 このパラメーターを使用して、マップの入力を管理できます。 単位:MB。 有効な値: [1,Integer.MAX_VALUE] 。 | 256 |
関連ドキュメント
Machine Learning Designerの詳細については、「Machine Learning Designerの概要」をご参照ください。