Platform for AI (PAI) のLLM-Text Normalizer (MaxCompute) コンポーネントを使用して、Unicodeテキストの正規化や、従来の中国語から簡体字中国語への言語切り替えなどの操作を実行できます。 このコンポーネントは、ラージランゲージモデル (LLM) のテキスト前処理中に使用できます。
制限事項
LLM-Text Normalizer (MaxCompute) コンポーネントは、MaxComputeリソースのみをサポートします。
アルゴリズム
LLM-Text Normalizer (MaxCompute) コンポーネントは、次の機能をサポートしています。
normalization Form Compatibility Composition (NFKC) メソッドを使用したUnicodeテキストの正規化。
ftfy.fix_text(text, normalization='NFKC')openccパッケージを使用して、繁体字から簡体字中国語に切り替えます。
opencc
次の図は結果を示しています。
処理する前に:

処理の後:

コンポーネントの設定
Machine Learning Designerで、LLM-Text Normalizer (MaxCompute) コンポーネントのパラメーターを設定できます。 下表に、各パラメーターを説明します。
タブ | パラメーター | 必須 | 説明 | デフォルト値 |
フィールド設定 | ターゲット列の選択 | 可 | 処理する列。The columns that you want to process. 複数の列を選択できます。 | デフォルト値なし |
出力テーブルのライフサイクル | 不可 | 値は正の整数です。 単位:日 デフォルト値: 28。 テーブルのデフォルトのライフサイクルが経過すると、コンポーネントによって生成された一時テーブルがリサイクルされます。 | 28 | |
チューニング | マップタスクのインスタンスごとのCPU数 | 不可 | マップタスクの各インスタンスのCPU数。 有効な値: 50 ~ 800 | 100 |
マップタスクのインスタンスあたりのメモリサイズ | 不可 | マップタスクの各インスタンスのメモリサイズ。 単位:MB。 有効な値: 256〜12288。 | 1024 | |
マップの入力データの最大サイズ | 不可 | マップタスクの各インスタンスが処理できるデータの最大量。 このパラメーターを使用して、マップの入力を管理できます。 単位:MB。 有効な値: 1〜Integer.MAX_VALUE。 | 256 |
関連ドキュメント
Machine Learning Designerの詳細については、「Machine Learning Designerの概要」をご参照ください。