すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:LLM-ドキュメントデデュプリケーター (DLC)

最終更新日:Jul 22, 2024

Platform for AI (PAI) のLLM文書解読器 (DLC) コンポーネントを使用して、SimHashアルゴリズムを使用してテキスト間の類似性を計算することにより、テキストの重複排除を行います。 入力Object Storage Service (OSS) データファイルは、JSONライン形式であり、次の要件を満たす必要があります。ファイルの各行は有効なJSONオブジェクトであり、ファイルは複数行のJSONオブジェクトで構成されますが、ファイルは有効なJSONオブジェクトではありません。 詳細については、「」をご参照ください。

サポートされるコンピューティングリソース

DLC

コンポーネントの設定

Machine Learning Designerのパイプラインページで、LLM-ドキュメントデデュプリケーター (DLC) コンポーネントのパラメーターを設定します。

タブ

パラメーター

必須

説明

デフォルト値

フィールドの設定

Target Processフィールド

処理するフィールドの名前。

N/A

テキスト区切り文字、デフォルトはスペース

不可

アルゴリズムは、区切り文字に基づいてテキストを単語のリストに分割します。 デフォルトでは、スペースが使用されます。 このパラメータを空のままにすると、アルゴリズムはテキストを分割しません。 この場合、アルゴリズムは単一の文字に基づいてテキストを重複排除します。 二重引用符 ("") を使用して区切り文字を囲みます。

" "

window_size

ドキュメントの機能を構成する部分文字列の長さ。 たとえば、ドキュメントの内容が "the cute alibaba mascot" で、window_sizeパラメーターを2に設定した場合、部分文字列は ["the cute", "cute alibaba", "alibaba mascot"] になります。 次に、アルゴリズムは、部分文字列のハッシュ値に基づいてテキストのSimHash値を計算します。 window_sizeの値は、SimHash値の粒度に影響します。 小さいwindow_size値は、別個のテキスト特徴を生成し得るが、ハッシュ値は、編集操作の影響をより受けやすい。 大きなwindow_size値は、より長いコンテキストを入力として使用できますが、詳細を無視する場合があります。

6

num_blocks

num_blocksは、SimHash値が分割されるブロックの数を決定します。 アルゴリズムが文書の類似性をチェックするとき、SimHash値はいくつかのブロックに分割される。 たとえば、SimHash値が64ビットの整数で、num_blocksパラメーターを4に設定した場合、SimHash値は4つの別々の16ビットブロックに分割されます。 多数のブロックは、よりきめの細かい類似性比較をもたらす。 これにより、無関係のテキストを類似していると認識する偽陽性を減らすことができますが、類似したテキストを認識できない偽陰性を増やすことができます。 ほとんどの場合、num_block値は、SimHash値のビット数よりも小さくなければならない。

6

hamming_distance

2つのテキストが類似しているかどうかを判断するために使用される、2つのSimHash値間のハミング距離のしきい値。 例えば、SimHash値AとBとの間の異なるビットの数であるSimHash値AとBとの間のハミング距離が、hamming_distance値以下である場合、アルゴリズムは、AとBとを類似していると認識する。 hamming_distanceパラメーターを小さな値に設定すると、アルゴリズムは非常に類似したテキストのみを重複として認識し、重複したコンテンツを含む一部のテキストを完全に認識できなくなります。 hamming_distanceパラメーターを大きな値に設定すると、アルゴリズムはより類似したテキストを認識しますが、これにより誤検出の可能性が高くなる可能性があります。 ほとんどの場合、パラメーターを3、4、または5に設定することを推奨します。

4

OutputDataを保存するためのOSSディレクトリ

不可

生成されたデータが保存されるOSSディレクトリ。 このパラメーターを指定しない場合、ワークスペースのデフォルトパスが使用されます。

N/A

チューニング

プロセス数

不可

プロセスの数。

8

リソースグループの選択

パブリックリソースグループ

不可

使用するインスタンスタイプ (CPUまたはGPU) 、インスタンス数、および仮想プライベートクラウド (VPC) 。

N/A

専用リソースグループ

不可

使用するvCPU、メモリ、共有メモリの数、GPUの数、およびインスタンスの数。

N/A

最大実行時間

不可

コンポーネントを実行できる最大期間。 この時間を超えると、ジョブは終了する。

N/A