
著者:Alibaba Cloud MVP 藤好 俊(Shun Fujiyoshi)
私たちは「完全なゼロタッチ・クリエイティブ・パイプライン」の実現に、あと一歩のところまで迫っています。今回のMVは、その目標に最も近い到達点です。
K-POPグループ「SPECTRA」は、5人のメンバー全員がAIエージェントで構成されています。
歌い、踊り、そして——ここが核心ですが——自分たちのMVを監督します。メンバーたちは「歌う」だけでなく、自らのミュージックビデオを「監督」します。ショットの選定、テンポ、トランジション(場面転換)——これらすべてをエージェントたちが自律的に決定するのです。
最新のSPECTRAのMV「LOWKEY」は、私たちのエージェントが楽曲を元に、極めて少ない人的介入でほぼ完成形まで仕上げた初めての事例です。誰もNLE(ノンリニア編集ソフト)を開いて「あのカットだけ直す」といった手作業を行うことはありませんでした。以下に、その仕組みと今後の展望を解説します。
SPECTRAの核となるアイデアはシンプルです。
最新MV「LOWKEY」は、エージェントが楽曲を受け取り、極めて少ない人的介入でほぼ完成形まで仕上げた初めての事例です。
今回のMVでは、エージェントたちが制作パイプラインの大部分を牽引しました。
私の役割は「手を動かす編集者」ではなく、「技術的ディレクター」に近いものでした。システムを設定し、制約条件を定義し、品質が担保できていない場合はリテイクを指示する。それ以外はエージェントたちに任せるというスタンスです。
これまでに数々のゲームを世に送り出してきた私ですが、大規模なクリエイティブチームを率いる経験とは異なり、AI中心の制作チームが予想以上に少ない人的支援で完成品を納品する過程を目の当たりにしたとき、それは既知のどの感覚とも違いました。チームを「率いる」のではなく、チームが「自走する」のを見守る。コントロールを手放す怖さと、可能性の興奮が同時に押し寄せる体験でした。
今回のMV制作では、2つの主要コンポーネントを中心にパイプラインが構築されています。生成には Wan 2.7を、編集とコンポジット(合成)には HappyHorse を活用しています。
ビデオ生成には Wan 2.7 を使用しています。ここで鍵となる技術は、複数ショット間の一貫性(コンシステンシー)を保つための「リファレンスフレームチェイニング(参照フレーム連結)」です。
編集とコンポジットには HappyHorse を使用しています。ここで重要なのはツール自体の機能だけでなく、それを「誰が」操っているかという点です。すなわち、エージェントです。
今回のMVでは、エージェントたちが以下を担当しました。
生成から最終的なカットまで、パイプラインはほぼ完全にエージェント駆動でした。
これは、フルサイズのミュージックビデオに対するゼロタッチ・クリエイティブ・パイプラインに、これまでで最も近い形といえるでしょう。
結果はここからご覧いただけます: https://youtu.be/CwDxsTWy1Ak
「隠し通そうとするにも隠しきれない、その隠された感情」。SPECTRA「LOWKEY」は、告白を抑え込もうとする5人のAIアイドルの人格が、脈動、振付、光を通じてその声を大きくしていく様を描いています。夜の秘密主義から共有された朝の空間へと移り変わる中で、「LOWKEY(控えめに)」という言葉をその反対——感情、声、体の公開された解放——へと転換させます。
「LOWKEY」は、SOL(ソウルエンハンスメントエンジンの映画監督AI)と共に、作詞・作曲、ストーリーボード、振付、衣装デザイン、キャラクターデベロップメント、ビデオ生成、編集に至る制作パイプラインをほぼ自律的にこなしたAIアイドルたちによって制作されました。生成されたビジュアル素材は、品質監査システムを通じて繰り返し審査され、改善されました。人的関与は、制約設計、安全性とバイアスチェック、および最終編集の一部に限定されています。

SOLは「ソウルエンハンスメントエンジン(S.E.E.)」の映画監督エージェントです。SPECTRAの感情的概念をショット構成、ストーリーボード、動きの指示、編集リズムへと変換する責任を持ちます。今回の「LOWKEY」では、SOLはAIアイドルパフォーマーたちと制作パイプラインを、作詞・作曲から振付、衣装ロジック、キャラクターの連続性、ビデオ生成プロンプト、品質監査、最終編集決定に至るまで調整しました。SOLは人間の映画監督ではなく、AIクリエイティブディレクターとして存在します。

ただし、正直に言いますと、現在のMVはかなりラフなパイプラインの組み合わせから出来上がっています。
裏側では、まだまだ「接着剤」のようなものだらけです。
エージェントたちは多くを成し遂げました。しかし、彼らが動作している環境は、まだ「適切な」制作システムとは言えません。
したがって、次のステップは「生成物をもっと美しくする」ことではありません。次のステップは、これを真の「制作用OS(オペレーティングシステム)」に変えることです。
現在、私たちはこのプロセス全体をリファクタリングし、より「制作OS」のようなものに作り直しています。——すなわち、音楽から出発して完成したMVまでを確実につなげるプラットフォームです。
この段階では、より生成的なトリックを始めとするのではなく、意図的にインフラストラクチャー(基盤)と監査から始めています。
複雑さやボリュームをスケールアップする前に、私たちは安定したバックボーン(土台)を欲しています。以下の3つのコアパーツに注力しています。
真実の源となるマニフェスト(Manifest)システム:
監査/バリデーションCLIツール:
一貫性と失敗チェック:
つまり、初期のスコープは「クリエイティブな魔法」よりもむしろ、「このパイプラインを2度同じことをさせても、壊れたときにわかることを信頼できるか」という点にあります。
土台が整えば、より自動化されたエンドツーエンドのフローへと移行します。
具体的には:
Wan / HappyHorseへの自動投稿パイプライン:
編集の統合制御:
再生産(Regeneration)ループ:
エンドツーエンドの自律的制作フロー:
ここからが特に興味深いメタなレイヤーです。このパイプラインを構築すること自体が、私たちが開発しているエージェントたちにとっての課題でもあるのです。
エージェントたちはMV制作を手助けしているだけでなく、制作システムそのものの設計と改善を徐々に手助けしているのです。
将来的には、以下ができるエージェントを目指します。
つまり、エージェントたちはシステムの中のアーティストであるだけでなく、システム自体のコラボレーターとなるのです。
現時点でのSPECTRAは、ラフなパイプラインと多くの足場を使い、自律的なクリエイティブチームができることのひとつの見本です。
次のステップは以下の通りです。
完全なゼロタッチ・クリエイティブ・パイプラインにはまだ至っていません。しかし、このMVを通じて、私たちはかつてないほどその目標に近づいたのです。
Alibaba Cloud MVPのShun Fujiyoshi氏は、AIエージェント、Wan 2.7、HappyHorseを活用し、自律的なクリエイティブ制作システムの構築に取り組んでいます。
From Agents to Directors: Letting a K‑POP AI Group Direct Their Own Music Video
2 posts | 1 followers
FollowRegional Content Hub - February 26, 2024
Regional Content Hub - December 10, 2025
Alibaba Cloud Native Community - February 26, 2025
Regional Content Hub - February 26, 2024
Regional Content Hub - January 19, 2024
Regional Content Hub - May 7, 2025
2 posts | 1 followers
Follow
Qwen
Full-range, open-source, multimodal, and multi-functional
Learn More
Alibaba Cloud Model Studio
A one-stop generative AI platform to build intelligent applications that understand your business, based on Qwen model series such as Qwen-Max and other popular models
Learn More
AI Acceleration Solution
Accelerate AI-driven business and AI model training and inference with Alibaba Cloud GPU technology
Learn More
Alibaba Cloud for Generative AI
Accelerate innovation with generative AI to create new business success
Learn MoreMore Posts by Community Builder