FastText を使用して品質と言語で LLM トレーニングデータをフィルタリング - PAI

Platform for AI (PAI) のLLM-テキスト品質予測と言語識別-FastText (MaxCompute) コンポーネントは、テキスト言語の識別、信頼スコアの計算、言語とスコアに基づいたサンプルのフィルタリングに使用されます。大規模言語モデル (LLM) のテキスト前処理中にコンポーネントを使用できます。

制限事項

LLM-Text Quality Predict and Language Identification-FastText (MaxCompute) コンポーネントは、MaxComputeリソースのみをサポートします。

アルゴリズム

このアルゴリズムでは、FastTextを使用してテキスト言語を識別し、信頼スコアを計算します。アルゴリズムは176の言語を識別できます。言語は次のコードで表されます。

['af', 'als', 'am', 'an', 'ar', 'arz', 'as', 'ast', 'av', 'az', 'azb', 'ba', 'bar', 'bcl', 'be', 'bg', 'bh', 'bn', 'bo', 'bpy', 'br', 'bs', 'bxr', 'ca', 'cbk', 'ce', 'ceb', 'ckb', 'co', 'cs', 'cv', 'cy', 'da', 'de', 'diq', 'dsb', 'dty', 'dv', 'el', 'eml', 'en', 'eo', 'es', 'et', 'eu', 'fa', 'fi', 'fr', 'frr', 'fy', 'ga', 'gd', 'gl', 'gn', 'gom', 'gu', 'gv', 'he', 'hi', 'hif', 'hr', 'hsb', 'ht', 'hu', 'hy', 'ia', 'id', 'ie', 'ilo', 'io', 'is', 'it', 'ja', 'jbo', 'jv', 'ka', 'kk', 'km', 'kn', 'ko', 'krc', 'ku', 'kv', 'kw', 'ky', 'la', 'lb', 'lez', 'li', 'lmo', 'lo', 'lrc', 'lt', 'lv', 'mai', 'mg', 'mhr', 'min', 'mk', 'ml', 'mn', 'mr', 'mrj', 'ms', 'mt', 'mwl', 'my', 'myv', 'mzn', 'nah', 'nap', 'nds', 'ne', 'new', 'nl', 'nn', 'no', 'oc', 'or', 'os', 'pa', 'pam', 'pfl', 'pl', 'pms', 'pnb', 'ps', 'pt', 'qu', 'rm', 'ro', 'ru', 'rue', 'sa', 'sah', 'sc', 'scn', 'sco', 'sd', 'sh', 'si', 'sk', 'sl', 'so', 'sq', 'sr', 'su', 'sv', 'sw', 'ta', 'te', 'tg', 'th', 'tk', 'tl', 'tr', 'tt', 'tyv', 'ug', 'uk', 'ur', 'uz', 'vec', 'vep', 'vi', 'vls', 'vo', 'wa', 'war', 'wuu', 'xal', 'xmf', 'yi', 'yo', 'yue', 'zh']

コンポーネントの設定

Machine Learning Designerで、LLM-Text Quality Predict and Language Identification-FastText (MaxCompute) コンポーネントのパラメーターを設定できます。下表に、各パラメーターを説明します。

タブ	パラメーター	必須 / 任意	説明	デフォルト値
フィールド設定	ターゲット列の選択	対象	処理する列。The columns that you want to process.	デフォルト値なし
	言語idとスコアを保存するかどうか	非対象	言語名と信頼度スコアを出力テーブルに保存するかどうかを指定します。このチェックボックスをオンにすると、出力テーブルに2つの列が追加され、結果が保存されます。それ以外の場合、結果は保存されません。 Language id saved column name: 言語名が保存されている列の名前。デフォルト値: language_id。言語スコア保存列名: 信頼スコアが保存される列の名前。デフォルト値: language_score。	デフォルト値なし
	SQLスクリプト	非対象	`language_id`列に言語名を保存し、`language_score`列に信頼スコアを保存するWHEREステートメントを指定します。これら2つの列の結果に基づいて値をフィルタリングできます。例: `where language_id = 'en' and language_score >= 0.8` 言語結果を保存して列名を変更する場合は、変更した列名に基づいてパラメーターを設定します。	デフォルト値なし
	出力テーブルのライフサイクル	非対象	値は正の整数です。単位：日デフォルト値: 28。テーブルのデフォルトのライフサイクルが経過すると、コンポーネントによって生成された一時テーブルがリサイクルされます。	28
チューニング	マップタスクのインスタンスごとのCPU数	非対象	マップタスクの各インスタンスのCPU数。有効な値: 50 ~ 800	100
	マップタスクのインスタンスあたりのメモリサイズ	非対象	マップタスクの各インスタンスのメモリサイズ。単位：MB。有効な値: 256〜12288。	1024
	マップの入力データの最大サイズ	非対象	マップタスクの各インスタンスが処理できるデータの最大量。このパラメーターを使用して、マップの入力を管理できます。単位：MB。有効な値: 1〜Integer.MAX_VALUE。	256

Platform For AI:LLM-テキスト品質予測と言語識別-FastText (MaxCompute)

制限事項

アルゴリズム

コンポーネントの設定

関連ドキュメント