すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:LLM-MD5デデュプリケーター (MaxCompute)

最終更新日:Jul 22, 2024

Platform for AI (PAI) のLLM-MD5デデュプリケータ (MaxCompute) コンポーネントを使用して、テキストのMD5ハッシュ値を計算し、ハッシュ値に基づいてテキストをデデュプリケートします。 大規模言語モデル (LLM) のテキスト前処理中にコンポーネントを使用できます。

制限事項

LLM-MD5デデュプリケータ (MaxCompute) コンポーネントは、MaxComputeリソースのみをサポートします。

アルゴリズム

アルゴリズムは、入力テキストのhashlib.md5ハッシュメソッドを使用してハッシュ値を計算します。 複数のテキストエントリが同じハッシュ値を持つ場合、1つのテキストエントリのみが保持されます。

アルゴリズムがテキストエントリの先頭と末尾の空白文字を削除した後、アルゴリズムはテキストエントリのハッシュ値を再計算します。 文字は大文字と小文字を区別します。

コンポーネントの設定

Machine Learning Designerで、LLM-MD5デデュプリケータ (MaxCompute) コンポーネントのパラメーターを設定できます。 下表に、各パラメーターを説明します。

タブ

パラメーター

必須

説明

デフォルト値

フィールド設定

ターゲット列の選択

処理する列。The columns that you want to process.

デフォルト値なし

出力テーブルのライフサイクル

不可

値は正の整数です。 単位:日 デフォルト値: 28。 テーブルのデフォルトのライフサイクルが経過すると、コンポーネントによって生成された一時テーブルがリサイクルされます。

28

チューニング

マップタスクのインスタンスごとのCPU数

不可

マップタスクの各インスタンスのCPU数。 有効な値: 50 ~ 800

100

マップタスクのインスタンスあたりのメモリサイズ

不可

マップタスクの各インスタンスのメモリサイズ。 単位:MB。 有効な値: 256〜12288。

1024

マップの入力データの最大サイズ

不可

マップタスクの各インスタンスが処理できるデータの最大量。 このパラメーターを使用して、マップの入力を管理できます。 単位:MB。 有効な値: 1〜Integer.MAX_VALUE。

256

関連ドキュメント

Machine Learning Designerの詳細については、「Machine Learning Designerの概要」をご参照ください。