Alibaba Cloud は、一般的なシナリオ、教育、司法、医療など、音声認識モデルのトレーニングに豊富なコーパスデータを使用しています。コーパストレーニングに基づいて、Alibaba Cloud はこれらのシナリオ向けの高精度モデルを提供しています。Alibaba Cloud が提供する標準モデルから音声認識シナリオに適したモデルが見つからない場合、または標準モデルをさらに最適化する必要がある場合は、セルフラーニングプラットフォームを使用できます。
セルフラーニングプラットフォームを使用すると、コンソールインターフェイスで .txt トレーニングコーパスファイルをアップロードして、シナリオ用に選択した基本言語モデルをトレーニングできます。このようにして、シナリオ内の単語、特に固有名詞や高頻度語の音声認識精度を効果的に向上させることができます。
カスタム言語モデルの作成に使用される 2 つの方法の比較
Intelligent Speech Interaction コンソールを使用する場合は、プロジェクトの下の シーンの切り替え をクリックし、シナリオを選択して、カスタム言語モデルを追加できます。カスタム言語モデルが公開されると、プロジェクトの appkey に自動的に関連付けられます。コードでカスタム言語モデルを指定する必要はありません。
Alibaba Cloud pctowap open platform(POP)API を使用してカスタム言語モデルを作成する場合は、対応する SDK メソッドを呼び出して、モデルが有効になる前にコードでモデルの ID を指定する必要があります。
トレーニングコーパスに関する注意事項
呼び出し制限
トレーニングコーパスデータは、特定のビジネス分野に関連している必要があります。コーパスデータの発音と認識される音声データが類似しているほど、音声認識の精度が高くなります。
アップロードするトレーニングコーパスファイルは、
UTF-8 without the byte order mark (BOM)でエンコードされた .txt ファイルである必要があります。各トレーニングコーパスファイルの最大サイズは 10 MB です。調整する各文または各キーワードは 1 行を占めます。各行の長さは最大 500 文字です。
.txt トレーニングコーパスファイルでは、数字をスペルアウトする必要があります。たとえば、58.9 ドルは fifty-eight point nine dollars と記述します。
各 .txt トレーニングコーパスファイルには、4 語以上の単語を含む文が少なくとも 1 つ含まれている必要があります。
コンマ(,)、ピリオド(.)、疑問符(?)、感嘆符(!)を除き、特殊文字は使用できません。句読点は各文の最後に追加する必要があります。
最適化の提案
認識が難しいキーワードやそのようなキーワードを含む文を数行(たとえば、10 行)コピーできます。各キーワードがトレーニングコーパスで 1 行を占めていることを確認してください。認識結果がまだ満足できない場合は、必要に応じてキーワードまたは文をさらに繰り返すことができます。
認識結果が期待どおりでない場合は、まず、不明瞭な発音または音質の悪さが原因で問題が発生しているかどうかを確認する必要があります。発音または音質を最適化した後も問題が解決しない場合は、トレーニングコーパスを変更することをお勧めします。
同音異義語を含む音声データの認識の欠陥を避けるために、カスタム言語モデルのパフォーマンスをテストした後に最終的なトレーニングコーパスを決定することをお勧めします。
例
サンプルトレーニングコーパスをダウンロードします。次のトレーニングコーパスは、Alibaba グループの紹介です。
In September 1999, eighteen founders with Jack Ma as the leader founded Alibaba Group in an apartment in Hangzhou. // 1999年9月、リーダーであるジャック・マー氏と共に18人の創業者が杭州のアパートでアリババグループを設立しました。
The first website of Alibaba Group was Alibaba.com, an English website that focused on the global wholesale trade market. // アリババグループの最初のウェブサイトは、グローバルな卸売貿易市場に焦点を当てた英語のウェブサイトであるAlibaba.comでした。
In the same year, Alibaba Group launched a Chinese website that focused on the wholesale trade market in China. // 同年、アリババグループは中国の卸売貿易市場に焦点を当てた中国語のウェブサイトを立ち上げました。
In October 1999, Alibaba Group raised the funds of USD 5 million from multiple investment agencies. // 1999年10月、アリババグループは複数の投資機関から500万米ドルの資金を調達しました。
In October 1999, Alibaba Group raised the funds of USD 5 million from multiple investment agencies. // 1999年10月、アリババグループは複数の投資機関から500万米ドルの資金を調達しました。
In January 2000, Alibaba Group raised the funds of USD 20 million from multiple investment agencies including SoftBank. // 2000年1月、アリババグループはソフトバンクを含む複数の投資機関から2,000万米ドルの資金を調達しました。
In January 2000, Alibaba Group raised the funds of USD 20 million from multiple investment agencies including SoftBank. // 2000年1月、アリババグループはソフトバンクを含む複数の投資機関から2,000万米ドルの資金を調達しました。
In September 2000, Alibaba Group held the first West Lake Cybersecurity Conference. Commercial and opinion leaders of the Internet industry came together and discussed major issues of the industry. // 2000年9月、アリババグループは第1回西湖サイバーセキュリティ会議を開催しました。インターネット業界の商業およびオピニオンリーダーが集まり、業界の主要な問題について議論しました。トレーニングコーパスでは、「資金」や「インターネット」などのビジネスキーワードを含む文を数回繰り返すことができます。
トレーニングコーパスを使用するには、次の手順を実行します。
基本モデルを選択します。この例では、一般モデルを選択します。ビジネスシナリオに基づいてモデルを選択できます。
トレーニングコーパスを収集します。ダウンロードしたトレーニングコーパスを .txt ファイルとして保存します。トレーニングコーパスをカスタマイズする場合は、句読点に基づいてトレーニングコーパスを個別の文に分割します。トレーニングコーパスの各行に各文を記述します。
選択したモデルをトレーニングして適用します。セルフラーニングプラットフォームを使用して、トレーニングコーパスをアップロードし、選択したモデルをトレーニングします。トレーニングされたモデルは、トレーニングコーパス内の語彙を効果的に認識して、目的の認識結果を生成できます。