MaxCompute で LLM テキスト長フィルターを設定してデータをクリーニング - PAI

LLM-Length Filter (MaxCompute) コンポーネントを使用して、大規模言語モデル (LLM) のトレーニングに使用されるテキストデータを前処理できます。このコンポーネントは、テキストの長さ、テキスト内の平均行長、および最大行長に基づいてテキストサンプルをフィルタリングします。デフォルトでは、テキスト内の行の平均長と最大行長に基づいてテキストサンプルを取得した場合、テキストサンプルは行ごとに分割されてからカウントされます。

制限事項

LLM-Length Filter (MaxCompute) コンポーネントは、MaxComputeリソースのみをサポートします。

コンポーネントの設定

Platform for AI (PAI) コンソールのMachine Learning Designerモジュールでコンポーネントのパラメーターを設定できます。下表に、各パラメーターを説明します。

タブ	パラメーター	必須	説明	デフォルト値
フィールド設定	ターゲット列の選択	可	処理する列。The columns that you want to process. 複数の列を選択できます。	デフォルト値なし
	テキスト長でフィルタリングするかどうか	不可	テキスト区切り文字: テキストサンプルをリストに分割するために使用される区切り文字。テキストサンプルが分割された後、コンポーネントはリストの長さを計算します。デフォルトでは、このパラメータは空のままです。この場合、コンポーネントは、分割を実行せずにテキストサンプルの長さを直接計算します。区切り文字を二重引用符 (") で囲みます。最小長: 計算された長さがこのパラメーターの値より小さい場合、テキストサンプルは除外されます。最大長: 計算された長さがこのパラメーターの値より大きい場合、テキストサンプルは除外されます。	デフォルト値なし
	サンプルの平均長でフィルター処理するかどうか	不可	最小平均長: 計算された平均長がこのパラメーターの値より小さい場合、テキストサンプルは除外されます。最大平均長: 計算された平均長がこのパラメーターの値より大きい場合、テキストサンプルは除外されます。	デフォルト値なし
	サンプルの最長行長でフィルタリングするかどうか。	不可	最長行の最小長: 計算された最大長がこのパラメーターの値より小さい場合、テキストサンプルは除外されます。最長行の最大長: 計算された最大長がこのパラメーターの値より大きい場合、テキストサンプルは除外されます。	デフォルト値なし
	出力テーブルのライフサイクル	不可	値は正の整数です。単位：日デフォルト値: 28。テーブルのライフサイクルが経過すると、コンポーネントによって生成された一時テーブルがリサイクルされます。	28
チューニング	マップタスクのインスタンスごとのCPU数	不可	マップタスクの各インスタンスのCPU数。有効な値: [50,800] 。	100
	マップタスクのインスタンスあたりのメモリサイズ	不可	マップタスクの各インスタンスのメモリサイズ。単位：MB。有効な値: [256,12288] 。	1024
	マップの入力データの最大サイズ	不可	マップタスクの各インスタンスが処理できるデータの最大量。このパラメーターを使用して、マップの入力を管理できます。単位：MB。有効な値: [1,Integer.MAX_VALUE] 。	256

Platform For AI:LLM長さフィルタ (MaxCompute)

制限事項

コンポーネントの設定

関連ドキュメント