Platform for AI (PAI) のLLM-MD5デデュプリケータ (MaxCompute) コンポーネントを使用して、テキストのMD5ハッシュ値を計算し、ハッシュ値に基づいてテキストをデデュプリケートします。 大規模言語モデル (LLM) のテキスト前処理中にコンポーネントを使用できます。
制限事項
LLM-MD5デデュプリケータ (MaxCompute) コンポーネントは、MaxComputeリソースのみをサポートします。
アルゴリズム
アルゴリズムは、入力テキストのhashlib.md5ハッシュメソッドを使用してハッシュ値を計算します。 複数のテキストエントリが同じハッシュ値を持つ場合、1つのテキストエントリのみが保持されます。
アルゴリズムがテキストエントリの先頭と末尾の空白文字を削除した後、アルゴリズムはテキストエントリのハッシュ値を再計算します。 文字は大文字と小文字を区別します。
コンポーネントの設定
Machine Learning Designerで、LLM-MD5デデュプリケータ (MaxCompute) コンポーネントのパラメーターを設定できます。 下表に、各パラメーターを説明します。
タブ | パラメーター | 必須 | 説明 | デフォルト値 |
フィールド設定 | ターゲット列の選択 | 可 | 処理する列。The columns that you want to process. | デフォルト値なし |
出力テーブルのライフサイクル | 不可 | 値は正の整数です。 単位:日 デフォルト値: 28。 テーブルのデフォルトのライフサイクルが経過すると、コンポーネントによって生成された一時テーブルがリサイクルされます。 | 28 | |
チューニング | マップタスクのインスタンスごとのCPU数 | 不可 | マップタスクの各インスタンスのCPU数。 有効な値: 50 ~ 800 | 100 |
マップタスクのインスタンスあたりのメモリサイズ | 不可 | マップタスクの各インスタンスのメモリサイズ。 単位:MB。 有効な値: 256〜12288。 | 1024 | |
マップの入力データの最大サイズ | 不可 | マップタスクの各インスタンスが処理できるデータの最大量。 このパラメーターを使用して、マップの入力を管理できます。 単位:MB。 有効な値: 1〜Integer.MAX_VALUE。 | 256 |
関連ドキュメント
Machine Learning Designerの詳細については、「Machine Learning Designerの概要」をご参照ください。