PAI-EAS への CosyVoice 2.0 WebUI & API デプロイ - PAI

CosyVoice 2.0 は、Alibaba DAMO Academy が開発した次世代の高忠実度音声合成モデルです。30 秒未満のプロンプト音声クリップからターゲットの音声をクローンできる音声クローン機能を備えています。また、クロスリンガル音声レプリケーションもサポートしています。CosyVoice 2.0 は、カスタマーサービスの会話、オーディオブックのナレーション、短編動画のナレーションなど、さまざまなシナリオに適しています。Alibaba Cloud の Platform for AI (PAI) 上の Elastic Algorithm Service (EAS) は、このモデルをベースに構築された視覚的な WebUI インターフェイスを提供します。これにより、クラウドベースの音声推論サービスを迅速にデプロイできます。このトピックでは、PAI-EAS 上に CosyVoice 2.0 サービスをデプロイし、推論サービスを使用して音声を生成する方法について説明します。

背景情報

CosyVoice 2.0 は、自然でフレンドリ、かつ表現力豊かな AI 音声を生成するために設計されています。詳細な韻律モデリングを用いて大規模な音声コーパスでトレーニングされた CosyVoice 2.0 は、人間のストリーマーに匹敵する表現力を実現します。カスタマーサービスでの温かい挨拶であれ、オーディオコンテンツの感情的な読み上げであれ、CosyVoice 2.0 は温かく自然な音声を生成できます。これにより、冷たく人工的な感覚がなくなり、より感情に訴えかけるリスニング体験が提供されます。

CosyVoice 2.0 には次の利点があります：

自然でフレンドリな音声：人間の音声のリズム、感情、韻律を模倣することで、ロボットのようなトーンを回避します。
複数のシナリオへの適応性：カスタマーサービスの会話、オーディオブックのナレーション、短編動画のナレーション、E コマースの音声推奨などをサポートします。
高効率と低レイテンシー：軽量なクラウドデプロイメントにより、流暢な音声を高速に生成します。
高い制御性：トーンや感情の調整をサポートし、キャラクターのカスタマイズ機能を提供して、独自のブランドボイスを作成できます。

このトピックでデプロイする CosyVoice 2.0 WebUI サービスは、試用目的のみです。パフォーマンス専有型の推論には、CosyVoice 2.0 の高同時実行バージョンを使用することもできます。詳細については、フロントエンドとバックエンドが分離されたパフォーマンス専有型サービスのクイックデプロイをご参照ください。

制限事項

現在、事前学習済み音声推論モードはサポートされていません。

課金

CosyVoice 2.0 イメージサービスをデプロイすると、コンピューティングリソースとシステムディスクに対してのみ課金されます。サービスが不要になった場合は、サービスの [操作] 列に移動し、[停止] をクリックして、それ以上の課金を防ぐことができます。課金の詳細については、Elastic Algorithm Service (EAS) の課金をご参照ください。

CosyVoice 2.0 サービスのデプロイ

方法 1：シナリオベースのデプロイ (推奨)

PAI コンソールにログインします。ページ上部でリージョンを選択します。次に、目的のワークスペースを選択し、Elastic Algorithm Service (EAS) をクリックします。
[推論サービス] タブで、[サービスのデプロイ] をクリックします。[シナリオベースのモデルデプロイ] セクションで、[AI 音声生成 - CosyVoice デプロイ] をクリックします。

次の主要なパラメーターを設定します：

パラメーター		説明
基本情報	バージョン選択	Standard Edition を選択します。
環境コンテキスト	[イメージバージョン]	リソースタイプに基づいてイメージを選択します。この例では、`cosyvoice-webui:0.2.0-pytorch2.3.1-gpu-py310-cu128-ubuntu22.04` が選択されています。説明迅速な反復のため、デプロイ時には最新のイメージバージョンを選択してください。
	[実行コマンド]	イメージバージョンを選択すると、システムは自動的に実行コマンド `/bin/bash /tmp/entry.sh --action=start_webui --port=9000 --data_dir=/mnt/data/ --model_dir=/nasmnt/models/pretrained_models/CosyVoice2-0.5B/ --ttsfrd_dir=/nasmnt/models/pretrained_models/CosyVoice-ttsfrd/ --workers 1` を設定します。パラメーターは次のように説明されます： --port：サービスポート番号。EAS サービスに設定されたポート番号と同じである必要があります。 --data_dir：リファレンス音声とモデルを格納するためのマウントディレクトリ。デフォルト値は `/mnt/data` です。ストレージボリュームをマウントする場合、このパスは [ストレージマウント] で設定したマウントパスと一致している必要があります。 --model_dir：モデルの読み込みディレクトリ。次のパラメーターもサポートされています： --gpu_memory_utilization：GPU メモリ使用率の上限を設定します。
	ポート番号	イメージバージョンを選択すると、システムは自動的にポート番号を `9000` に設定します。変更する必要はありません。
リソース情報	リソースタイプ	この例では、[パブリックリソース] が選択されています。必要に応じて他のリソースタイプを選択することもできます。
	[インスタンス数]	このパラメーターを 1 に設定します。
	デプロイメントリソース	リソース仕様は、`ecs.gn8is.4xlarge` や `ml.gu8is.c16m128.1-gu60` などの GPU インスタンスタイプである必要があります。
	[システムディスクの設定]	イメージファイルは大きいです。ストレージ容量不足によるサービスデプロイの失敗を防ぐため、システムディスクのサイズを 100 GiB に設定します。サイズを手動で設定しない場合、EAS バックエンドはデフォルトで CosyVoice 2.0 シナリオに 100 GiB のストレージ容量を割り当てます。
Network Information	VPC 設定	オプション。VPC ダイレクト接続を介してサービスにアクセスするか、サービスのパブリックネットワークアクセスを設定するには、Virtual Private Cloud (VPC) を設定する必要があります。ドロップダウンリストから VPC、vSwitch、およびセキュリティグループを選択します。それらの作成方法については、VPC の作成と管理およびセキュリティグループの管理をご参照ください。

パラメーターを設定したら、[デプロイ] をクリックします。
イメージのプルには約 5〜10 分かかります。[サービスステータス] が [実行中] に変わると、サービスはデプロイされています。

方法 2：カスタムデプロイ

PAI コンソールにログインします。ページ上部でリージョンを選択します。次に、目的のワークスペースを選択し、Elastic Algorithm Service (EAS) をクリックします。
[サービスのデプロイ] をクリックします。[カスタムモデルデプロイ] セクションで、[カスタムデプロイ] をクリックします。

[カスタムデプロイ] ページで、次の主要なパラメーターを設定します。その他のパラメーターの詳細については、「カスタムデプロイ」をご参照ください。

パラメーター		説明
[環境コンテキスト]	デプロイメント方法	[イメージデプロイ] を選択し、[Web アプリケーションを有効にする] チェックボックスをオンにします。
	画像設定	[公式イメージ] リストから、cosyvoice-webui > cosyvoice-webui:0.2.0-pytorch2.3.1-gpu-py310-cu128-ubuntu22.04 を選択します。説明迅速な反復のため、デプロイ時には最新のイメージバージョンを選択してください。
	コマンドの実行	イメージを選択すると、システムは自動的に実行コマンド `/bin/bash /tmp/entry.sh --action=start_webui --port=9000 --data_dir=/mnt/data/ --model_dir=/nasmnt/models/pretrained_models/CosyVoice2-0.5B/ --ttsfrd_dir=/nasmnt/models/pretrained_models/CosyVoice-ttsfrd/ --workers 1` を設定します。パラメーターは次のように説明されます： --port：サービスポート番号。EAS サービスに設定されたポート番号と同じである必要があります。 --data_dir：リファレンス音声とモデルを格納するためのマウントディレクトリ。デフォルト値は `/mnt/data` です。ストレージボリュームをマウントする場合、このパスは [ストレージマウント] で設定したマウントパスと一致している必要があります。 --model_dir：モデルの読み込みディレクトリ。 --workers：組み込みのフロントエンドサービスのワーカー数を設定します。指定しない場合、システムはリソース仕様に基づいてこのパラメーターを自動的に設定します。ブラウザから WebUI ページにアクセスするには、このパラメーターを `--workers 1` に設定する必要があります。次のパラメーターもサポートされています： --gpu_memory_utilization：GPU メモリ使用率の上限を設定します。
	ポート番号	イメージを選択すると、システムは自動的にポート番号を `9000` に設定します。変更する必要はありません。
[リソース情報]	リソースタイプ	この例では、[パブリックリソース] が選択されています。必要に応じて他のリソースタイプを選択することもできます。
	インスタンス数	このパラメーターを 1 に設定します。
	デプロイメントリソース	リソース仕様は、`ecs.gn8is.4xlarge` や `ml.gu8is.c16m128.1-gu60` などの GPU インスタンスタイプである必要があります。
	[システムディスクの設定]	イメージファイルは大きいです。ストレージ容量不足によるサービスデプロイの失敗を防ぐため、システムディスクのサイズを 100 GiB に設定します。サイズを手動で設定しない場合、EAS バックエンドはデフォルトで CosyVoice 2.0 シナリオに 100 GiB のストレージ容量を割り当てます。
Network Information	[VPC 設定]	オプション。VPC ダイレクト接続を介してサービスにアクセスするか、サービスのパブリックネットワークアクセスを設定するには、VPC を設定する必要があります。ドロップダウンリストから VPC、vSwitch、およびセキュリティグループを選択します。それらの作成方法については、VPC の作成と管理およびセキュリティグループの管理をご参照ください。

パラメーターを設定したら、[デプロイ] をクリックします。
イメージのプルには約 5〜10 分かかります。[サービスステータス] が [実行中] に変わると、サービスはデプロイされています。

推論サービスを使用した音声の生成

API 操作を使用したサービスの呼び出し

API 操作を使用してサービスを呼び出し、音声を生成することもできます。詳細については、「API 操作」をご参照ください。