EMO は、ポートレート画像と人の声を含むオーディオファイルから、高品質で動的なポートレートビデオを生成します。このサービスは、ポートレート画像のコンプライアンス検出用の EMO-detect と、ポートレートビデオ生成用の EMO の 2 つの独立したモデルで構成されています。
このドキュメントは 中国 (北京) リージョンにのみ適用されます。モデルを使用するには、中国 (北京) リージョンの API キー を使用する必要があります。
モデルの概要
モデルの紹介
EMO-detect は、入力画像が EMO モデルの仕様を満たしているかどうかを確認するために使用される画像検出モデルです。
EMO は、ポートレート画像と人の声を含むオーディオファイルから動的なポートレートビデオを生成するポートレートビデオ生成モデルです。
パフォーマンスショーケース
入力:ポートレート画像と人の声のオーディオファイル | 出力:動的ポートレートビデオ |
ポートレート:
オーディオ: 右側のビデオを参照 | ポートレートビデオ: 使用されたアクションスタイル: アクティブ ("style_level": "active") |
ポートレート:
オーディオ: 右側のビデオを参照 | ポートレートビデオ: 使用されたアクションスタイル: ノーマル ("style_level": "normal") |
ポートレート:
オーディオ: 右側のビデオを参照 | ポートレートビデオ: 使用されたアクションスタイル: 穏やか ("style_level": "calm") |
上記の例は、EMO を統合した Tongyi アプリによって生成されました。
課金と速度制限
モード | モデル | 単価 | タスク送信 API の QPS 制限 | 同時タスク数 |
モデル呼び出し | emo-detect-v1 | モデル呼び出し、従量課金: $0.000574/画像 | 5 | 同期 API の制限なし |
emo-v1 | モデル呼び出し、従量課金:
| 1 (常に 1 つのジョブのみが実行されています。キュー内の他のジョブは待機中です。) |
前提条件
サービスをアクティベートし、API キーを取得していること。詳細については、「準備: API キーの設定」をご参照ください。


