すべてのプロダクト
Search
ドキュメントセンター

Alibaba Cloud Model Studio:歌声動画への画像変換 - EMO

最終更新日:Oct 22, 2025

EMO は、ポートレート画像と人の声を含むオーディオファイルから、高品質で動的なポートレートビデオを生成します。このサービスは、ポートレート画像のコンプライアンス検出用の EMO-detect と、ポートレートビデオ生成用の EMO の 2 つの独立したモデルで構成されています。

重要

このドキュメントは 中国 (北京) リージョンにのみ適用されます。モデルを使用するには、中国 (北京) リージョンの API キー を使用する必要があります。

モデルの概要

モデルの紹介

  • EMO-detect は、入力画像が EMO モデルの仕様を満たしているかどうかを確認するために使用される画像検出モデルです。

  • EMO は、ポートレート画像と人の声を含むオーディオファイルから動的なポートレートビデオを生成するポートレートビデオ生成モデルです。

パフォーマンスショーケース

入力:ポートレート画像と人の声のオーディオファイル

出力:動的ポートレートビデオ

ポートレート:

上春山

オーディオ: 右側のビデオを参照

ポートレートビデオ:

使用されたアクションスタイル: アクティブ ("style_level": "active")

ポートレート:

15_原图

オーディオ: 右側のビデオを参照

ポートレートビデオ:

使用されたアクションスタイル: ノーマル ("style_level": "normal")

ポートレート:

娃哈哈

オーディオ: 右側のビデオを参照

ポートレートビデオ:

使用されたアクションスタイル: 穏やか ("style_level": "calm")

説明

上記の例は、EMO を統合した Tongyi アプリによって生成されました。

課金と速度制限

モード

モデル

単価

タスク送信 API の QPS 制限

同時タスク数

モデル呼び出し

emo-detect-v1

モデル呼び出し、従量課金:

$0.000574/画像

5

同期 API の制限なし

emo-v1

モデル呼び出し、従量課金:

  • 1:1 の縦横比のビデオを生成:$0.011469/秒

  • 3:4 の縦横比のビデオを生成:$0.022937/秒

1

(常に 1 つのジョブのみが実行されています。キュー内の他のジョブは待機中です。)

前提条件

サービスをアクティベートし、API キーを取得していること。詳細については、「準備: API キーの設定」をご参照ください。

モデル呼び出し

  • EMO シリーズモデルは、従量課金制で利用できます。

  • モデルを呼び出すには、次の手順に従います。

    1. EMO-detect モデルを呼び出して、入力ポートレート画像が仕様を満たしていることを確認します。 詳細については、「EMO 画像検出」をご参照ください。

    2. EMO モデルを呼び出します。元のポートレート画像、画像が検出に合格した後に返される関連する画像領域パラメーター、およびクリアな人の声を含むオーディオファイルを提供して、動的なポートレートビデオを生成します。詳細については、「EMO ビデオ生成」をご参照ください。