Platform for AI (PAI) のLLM-Quality Predict and Language Recognition-FastText (DLC) コンポーネントを使用して、言語を認識し、テキストのスコアを計算し、言語とスコアに基づいてテキストをフィルタリングします。 入力Object Storage Service (OSS) データファイルは、JSONライン形式であり、次の要件を満たす必要があります。ファイルの各行は有効なJSONオブジェクトであり、ファイルは複数行のJSONオブジェクトで構成されますが、ファイルは有効なJSONオブジェクトではありません。 詳細については、「例」をご参照ください。
サポートされるコンピューティングリソース
アルゴリズムの説明
アルゴリズムはFastTextを使用してテキストの言語を認識し、信頼スコアを計算します。 アルゴリズムは176の言語を認識できます。 言語は次のコードで表されます。
['af' 、'als' 、'am' 、'an' 、'ar' 、'arz' 、'as' 、'ast' 、'av' 、'az' 、'ba' 、'bar' 、'bcl' 、'be' 、'bg' 、'dv' 、'bk' 、'、' card' 、'、'bk' 、' 、'、' 、'、' 、'、' 、'。'em1' 、'en' 、'eo' 、'es' 、'et' 、'eu' 、'fa' 、'fy' 、'fr' 、'frr' 、'fy' 、'ga' 、'gd' 、'gom' 、'gv' 、'hikk' 、''hik' 、'、' 、'、' 、'、' 、'、' 、'、' 、'、' 、'、' 、'、' 、'、' 、'、' 、'、' 、'' '' '' 、''ko' 、'krc' 、'ku' 、'kv' 、'kw' 、'ky' 、'la' 、'n' 、'n' 、'lb' 、'lez' 、'li' 、'lmo' 、'lt' 、'lt' 、'mn' 、'mn' 、'mn' 、'mn' 、'mn' 、'm' 、'm' 、'm' 、'm' 、' 、'm' 「os」、「ptr' 、「pam」、「pfl」、「pms」、「pttb」、「ps」、「pt」、「q」、「ro」、「ru」、「rue」、「sa」、「sah」、「sw」、「sw」、「sw」、「sw」、「sw」、「sw」、「sw」、sw」、「sw」、「」、'、' 、'、' 、'、' 、'、' 、''uk' 、'ur' 、'uz' 、'vec' 、'vep' 、'vi' 、'vls' 、'vo' 、'wa' 、'wa' 、'wuu' 、'xal' 、'xmf' 、'yi' 、'yo' 、'yue' 、'zh'].
コンポーネントの設定
Machine Learning Designerのパイプラインページで、LLM-品質予測と言語認識-FastText (DLC) コンポーネントのパラメーターを設定します。
タブ | パラメーター | 必須 / 任意 | 説明 | デフォルト値 | |
フィールドの設定 | Target Processフィールド | 対象 | 処理するフィールドの名前。 | 非該当 | |
言語ID名 | 対象 | 言語のID。 アルゴリズムは、言語名と最小スコアに基づいてテキストをフィルタリングします。 複数の言語名はコンマ (,) で区切ります。 例: en、zh。 アルゴリズムは176の言語を認識できます。 言語を表示するには、「アルゴリズムの説明」をご参照ください。 | 非該当 | ||
最小スコア | 対象 | この値より低いスコアを有するテキストはフィルタリングされる。 | 非該当 | ||
OutputDataを保存するためのOSSディレクトリ | 非対象 | 生成されたデータが保存されるOSSディレクトリ。 このパラメーターを指定しない場合、ワークスペースのデフォルトパスが使用されます。 | 非該当 | ||
チューニング | プロセス数 | 非対象 | プロセスの数。 | 8 | |
リソースグループの選択 | パブリックリソースグループ | 非対象 | 使用するインスタンスタイプ (CPUまたはGPU) 、インスタンス数、および仮想プライベートクラウド (VPC) 。 | 非該当 | |
専用リソースグループ | 非対象 | 使用するvCPU、メモリ、共有メモリの数、GPUの数、およびインスタンスの数。 | 非該当 | ||
最大実行時間 | 非対象 | コンポーネントを実行できる最大期間。 この時間を超えると、ジョブは終了する。 | 非該当 | ||