すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:LLM-テキスト正規化 (MaxCompute)

最終更新日:Jul 22, 2024

Platform for AI (PAI) のLLM-Text Normalizer (MaxCompute) コンポーネントを使用して、Unicodeテキストの正規化や、従来の中国語から簡体字中国語への言語切り替えなどの操作を実行できます。 このコンポーネントは、ラージランゲージモデル (LLM) のテキスト前処理中に使用できます。

制限事項

LLM-Text Normalizer (MaxCompute) コンポーネントは、MaxComputeリソースのみをサポートします。

アルゴリズム

LLM-Text Normalizer (MaxCompute) コンポーネントは、次の機能をサポートしています。

  • normalization Form Compatibility Composition (NFKC) メソッドを使用したUnicodeテキストの正規化。

    ftfy.fix_text(text, normalization='NFKC')

  • openccパッケージを使用して、繁体字から簡体字中国語に切り替えます。

    opencc

次の図は結果を示しています。

  • 処理する前に:

    image

  • 処理の後:

    image

コンポーネントの設定

Machine Learning Designerで、LLM-Text Normalizer (MaxCompute) コンポーネントのパラメーターを設定できます。 下表に、各パラメーターを説明します。

タブ

パラメーター

必須

説明

デフォルト値

フィールド設定

ターゲット列の選択

処理する列。The columns that you want to process. 複数の列を選択できます。

デフォルト値なし

出力テーブルのライフサイクル

不可

値は正の整数です。 単位:日 デフォルト値: 28。 テーブルのデフォルトのライフサイクルが経過すると、コンポーネントによって生成された一時テーブルがリサイクルされます。

28

チューニング

マップタスクのインスタンスごとのCPU数

不可

マップタスクの各インスタンスのCPU数。 有効な値: 50 ~ 800

100

マップタスクのインスタンスあたりのメモリサイズ

不可

マップタスクの各インスタンスのメモリサイズ。 単位:MB。 有効な値: 256〜12288。

1024

マップの入力データの最大サイズ

不可

マップタスクの各インスタンスが処理できるデータの最大量。 このパラメーターを使用して、マップの入力を管理できます。 単位:MB。 有効な値: 1〜Integer.MAX_VALUE。

256

関連ドキュメント

Machine Learning Designerの詳細については、「Machine Learning Designerの概要」をご参照ください。