LLM-Text Normalizer コンポーネントは、大規模言語モデル (LLM) 向けにテキストを前処理します。Unicode テキストの正規化と繁体字中国語から簡体字中国語への変換を実行します。
制限事項
このコンポーネントは、MaxCompute コンピューティングエンジンでのみサポートされています。
アルゴリズム
LLM-Text Normalizer コンポーネントは、以下の機能をサポートします。
-
NFKC (Normalization Form Compatibility Composition) 方式を使用して、Unicode テキストを正規化します。
ftfy.fix_text(text, normalization='NFKC') -
opencc パッケージを使用して、繁体字中国語を簡体字中国語に変換します。
以下は、処理前後のデータの比較です。
-
処理前:データテーブルには 6 行のテストデータが含まれています。列のデータ型は
textです。データには、中国語と英語が混在したテキスト、繁体字と簡体字、特殊文字、およびエンコーディングの問題による文字化けが含まれています。 -
処理後:テーブルには 6 行のデータが含まれています。1 行目:
✔ No problems。2 行目:The Mona Lisa doesn't have eyebrows.。3 行目:No problems。4 行目:Alibaba。5 行目:These are a few traditional characters, which will be converted to simplified characters。6 行目:Test the conversion effect of a combination of traditional afadf characters $#@#, simplified characters, and various other characters and numbers 123213*&dasd。繁体字中国語は簡体字中国語に変換され、英字、数字、特殊文字は変更されていません。
ビジュアル設定パラメーター
ビジュアルモデリングでは、コンポーネントのパラメーターを画面上で設定できます。
|
タブ |
パラメーター |
必須 |
説明 |
デフォルト |
|
[フィールド設定] |
[ターゲット列の選択] |
はい |
処理する列を選択します。複数の列を選択できます。 |
なし |
|
出力テーブルのライフサイクル設定 |
いいえ |
このコンポーネントが生成する一時テーブルのライフサイクル (日数) を指定します。この期間が経過すると、テーブルが削除されます。 |
28 |
|
|
[チューニング] |
[インスタンスあたりの CPU 数] |
いいえ |
各マップタスクインスタンスの vCPU 数です。有効な値:50 ~ 800。 |
100 |
|
[インスタンスあたりのメモリサイズ (MB)] |
いいえ |
各マップタスクインスタンスのメモリサイズ (MB) です。有効な値:256 ~ 12288。 |
1024 |
|
|
[インスタンスあたりのデータサイズ (MB)] |
いいえ |
各マップタスクインスタンスが処理できる最大データサイズ (MB) です。このパラメーターは、マップフェーズの入力サイズを制御します。有効な値:1 ~ Integer.MAX_VALUE。 |
256 |
関連ドキュメント
ビジュアルモデリングのコンポーネントの詳細については、「ビジュアルモデリングの概要」をご参照ください。