すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:LLM-品質予測と言語認識-FastText (DLC)

最終更新日:Dec 25, 2024

Platform for AI (PAI) のLLM-Quality Predict and Language Recognition-FastText (DLC) コンポーネントを使用して、言語を認識し、テキストのスコアを計算し、言語とスコアに基づいてテキストをフィルタリングします。 入力Object Storage Service (OSS) データファイルは、JSONライン形式であり、次の要件を満たす必要があります。ファイルの各行は有効なJSONオブジェクトであり、ファイルは複数行のJSONオブジェクトで構成されますが、ファイルは有効なJSONオブジェクトではありません。 詳細については、「」をご参照ください。

サポートされるコンピューティングリソース

ディープラーニングコンテナ (DLC)

アルゴリズムの説明

アルゴリズムはFastTextを使用してテキストの言語を認識し、信頼スコアを計算します。 アルゴリズムは176の言語を認識できます。 言語は次のコードで表されます。

['af' 、'als' 、'am' 、'an' 、'ar' 、'arz' 、'as' 、'ast' 、'av' 、'az' 、'ba' 、'bar' 、'bcl' 、'be' 、'bg' 、'dv' 、'bk' 、'、' card' 、'、'bk' 、' 、'、' 、'、' 、'、' 、'。'em1' 、'en' 、'eo' 、'es' 、'et' 、'eu' 、'fa' 、'fy' 、'fr' 、'frr' 、'fy' 、'ga' 、'gd' 、'gom' 、'gv' 、'hikk' 、''hik' 、'、' 、'、' 、'、' 、'、' 、'、' 、'、' 、'、' 、'、' 、'、' 、'、' 、'、' 、'' '' '' 、''ko' 、'krc' 、'ku' 、'kv' 、'kw' 、'ky' 、'la' 、'n' 、'n' 、'lb' 、'lez' 、'li' 、'lmo' 、'lt' 、'lt' 、'mn' 、'mn' 、'mn' 、'mn' 、'mn' 、'm' 、'm' 、'm' 、'm' 、' 、'm' 「os」、「ptr' 、「pam」、「pfl」、「pms」、「pttb」、「ps」、「pt」、「q」、「ro」、「ru」、「rue」、「sa」、「sah」、「sw」、「sw」、「sw」、「sw」、「sw」、「sw」、「sw」、sw」、「sw」、「」、'、' 、'、' 、'、' 、'、' 、''uk' 、'ur' 、'uz' 、'vec' 、'vep' 、'vi' 、'vls' 、'vo' 、'wa' 、'wa' 、'wuu' 、'xal' 、'xmf' 、'yi' 、'yo' 、'yue' 、'zh'].

コンポーネントの設定

Machine Learning Designerのパイプラインページで、LLM-品質予測と言語認識-FastText (DLC) コンポーネントのパラメーターを設定します。

タブ

パラメーター

必須 / 任意

説明

デフォルト値

フィールドの設定

Target Processフィールド

対象

処理するフィールドの名前。

非該当

言語ID名

対象

言語のID。 アルゴリズムは、言語名と最小スコアに基づいてテキストをフィルタリングします。 複数の言語名はコンマ (,) で区切ります。 例: en、zh。 アルゴリズムは176の言語を認識できます。 言語を表示するには、「アルゴリズムの説明」をご参照ください。

非該当

最小スコア

対象

この値より低いスコアを有するテキストはフィルタリングされる。

非該当

OutputDataを保存するためのOSSディレクトリ

非対象

生成されたデータが保存されるOSSディレクトリ。 このパラメーターを指定しない場合、ワークスペースのデフォルトパスが使用されます。

非該当

チューニング

プロセス数

非対象

プロセスの数。

8

リソースグループの選択

パブリックリソースグループ

非対象

使用するインスタンスタイプ (CPUまたはGPU) 、インスタンス数、および仮想プライベートクラウド (VPC) 。

非該当

専用リソースグループ

非対象

使用するvCPU、メモリ、共有メモリの数、GPUの数、およびインスタンスの数。

非該当

最大実行時間

非対象

コンポーネントを実行できる最大期間。 この時間を超えると、ジョブは終了する。

非該当