ビデオ翻訳技術は、人工知能と機械学習アルゴリズムを活用して、ビデオコンテンツをソース言語から 1 つ以上のターゲット言語に効率的かつ正確に変換します。この技術は、字幕翻訳、音声 (ナレーション) 翻訳、顔 (唇) の同期翻訳をカバーし、翻訳されたコンテンツの視覚と聴覚の一貫性と自然さを保証します。言語の壁を乗り越え、教育コンテンツを豊かにし、エンターテインメント体験を向上させ、異文化コミュニケーションを促進します。
このサービスは、次のリージョンで利用できます:
字幕レベルの翻訳:中国 (上海)、中国 (北京)、中国 (深圳)、中国 (杭州)、アジア太平洋 SE 1 (シンガポール)、および米国 (米国西部)
音声レベルの翻訳:中国 (上海)、中国 (北京)、中国 (深圳)、中国 (杭州)、アジア太平洋 SE 1 (シンガポール)、および米国 (米国西部)
顔レベルの翻訳:中国 (上海) およびアジア太平洋 SE 1 (シンガポール)。他のリージョンはサポートされていません。
メリット
多言語および方言のサポート:
40 以上の国語の翻訳サービスをサポートします。
10 種類以上の中国語の方言をサポートし、多様な音声要件に対応します。
1 つの翻訳タスクで 40 以上の異なるターゲット言語を出力できます。
幅広いビデオフォーマットの互換性:
MP4、WebM、MOV、M3U8 などの複数の主流ビデオフォーマットをサポートし、コンテンツのシームレスな統合を保証します。
豊富なオーディオフォーマットとカスタマイズオプション:
MP3、WAV などの複数のオーディオフォーマットをサポートします。
ユーザーは、さまざまなシナリオの特定の要件を満たすために、パーソナライズされた構成を行うことができます。
特徴
Intelligent Media Services が提供するビデオ翻訳サービスは、字幕レベルの翻訳、音声 (ナレーション) レベルの翻訳、および顔 (唇) レvel の翻訳をサポートしています。その主な特徴は次のとおりです:
特徴 | 説明 | ハイライト |
字幕レベルの翻訳 |
| 効率的で正確なテキスト翻訳で、多言語サポートを迅速に追加する必要があるシナリオに適しています。 |
音声 (ナレーション) レベルの翻訳 | 字幕レベルの翻訳に加えて、以下もサポートします:
| テキスト翻訳に音声ディメンションを追加し、元の音声の信頼性と感情的な表現を維持し、視聴者体験を向上させます。 |
顔 (唇) レベルの翻訳 | 前の 2 つの翻訳機能に加えて、話者の唇の同期もサポートします。 | 最高レベルの翻訳サービスで、視覚と聴覚の一貫性を保証し、特に非常にリアルなインタラクティブコンテンツやプロモーションコンテンツに適しています。 |
音声翻訳の修正/二次編集 | 翻訳出力を柔軟に調整してパーソナライズされたニーズに対応し、ユーザーが特定の状況に応じて微調整して最適な結果を達成できるようにします。 |
課金
課金の詳細については、「ビデオ翻訳の課金」をご参照ください。
使用方法
ユーザーがビデオ翻訳タスクを簡単に作成および管理できるように、コンソール、オンライン編集、OpenAPI の 3 つのアプローチを提供しています。
Intelligent Media Services コンソール:グラフィカルインターフェイスによる直感的な操作を好むユーザーに適しています。
オンライン編集:ビデオ編集に精通しており、翻訳出力を柔軟に調整したいユーザー向けに、オンライン編集はより洗練された操作スペースを提供します。ユーザーは編集プロジェクトに直接素材を追加し、AI 翻訳ツールを使用して翻訳を行い、結果に二次的な修正を加えることができます。
OpenAPI:開発者および技術担当者を対象としており、プログラミングインターフェイスを介してビデオ翻訳サービスを呼び出すことができ、サードパーティシステムに統合して大規模なビデオ翻訳タスクの自動処理を可能にします。
さまざまな翻訳レベルで、次のメソッドがサポートされています:
字幕レベルの翻訳は、Intelligent Media Services コンソール、オンライン編集 (WebSDK)、OpenAPI をサポートしています。
音声レベルの翻訳は、Intelligent Media Services コンソール、オンライン編集 (WebSDK)、OpenAPI をサポートしています。
顔レベルの翻訳は、Intelligent Media Services コンソール、OpenAPI をサポートしています。
翻訳タスクの作成
方法 1:コンソールを介した翻訳タスクの作成
Intelligent Media Services - ビデオ翻訳 にアクセスして、翻訳タスクリストページに移動します。
必要に応じて、左上隅で適切なリージョンを選択します。
[翻訳タスクの作成] ボタンをクリックして、 [翻訳タスクの作成] ページに移動します。

ページのプロンプトに従ってパラメーター設定を完了します:
翻訳方法:字幕レベルの翻訳、音声レベルの翻訳、または顔レベルの翻訳を選択します。
ソースファイルの選択:翻訳が必要なビデオファイルをアップロードします。現在、mp4、webm、および mov ビデオフォーマットがサポートされています。
字幕ソース:元の字幕を消去するかどうかや字幕ソースなどのオプションが含まれます。字幕ソースには、OCR 検出、ASR 検出、および Srt ソース字幕ファイルの指定 が含まれます。
OCR 検出:既製の字幕ファイルはないが、表示可能なテキストを含むビデオがある場合、OCR 検出技術を使用してビデオ画面から字幕テキストを抽出できます。効率と精度を向上させるために、OCR 検出範囲 を指定することもできます。
ASR 検出:ビデオファイルに字幕がない場合、ASR 検出によってオーディオトラックから音声を認識して字幕を抽出できます。
OCR/ASR 検出:OCR と ASR を組み合わせた字幕抽出方法で、字幕の OCR 検出を優先し、OCR 検出が失敗した場合は ASR 検出を使用して字幕を取得します。
Srt ソース字幕ファイルの指定:既製の字幕ファイル (
.srtフォーマットなど) が既にある場合は、ビデオ編集ソフトウェアに直接ロードしてビデオと同期して再生できます。
翻訳言語:一度に複数のターゲット言語を選択できます。翻訳タスクを送信すると、システムは複数のターゲット言語のビデオファイルを生成します。
ストレージディレクトリとファイル名:翻訳されたファイルの保存場所と名前を指定します。
すべてのパラメーターが正しいことを確認したら、[翻訳タスクの送信] をクリックしてタスクの作成を完了します。
タスクリストを通じてタスクのステータス、パラメーター、および翻訳結果をクエリできます。タスクのステータスが [処理完了] に変わったら、[詳細の表示] をクリックしてタスクの詳細情報を確認します。

方法 2:オンライン編集による翻訳タスクの作成
準備
オンライン編集に慣れていない場合は、まず オンライン編集 の操作ガイドを学習して理解することをお勧めします。
操作プロセス
Intelligent Media Services - オンライン編集 にアクセスします。
必要に応じて、左上隅で適切なリージョンを選択します。
[ビデオ編集プロジェクト] タブで、[編集プロジェクトの作成] をクリックし、ページのプロンプトに従って編集プロジェクトの作成を完了してから、リストの [編集] ボタンをクリックしてオンライン編集の作成ページに移動します。

左上の [リソースライブラリ] で、画面右側の [素材の追加] ポップアップから [素材のインポート] をクリックし、翻訳が必要なファイルを選択してリソースライブラリに追加し、ファイルの右下隅にある
アイコンをクリックするか、ファイルを直接ドラッグして、下の編集操作エリアのトラックに追加します。下の編集トラックで翻訳が必要なオーディオまたはビデオを選択し、右上のプロパティ編集エリアにある [AI 翻訳] ボタンをクリックしてビデオ翻訳コントロールパネルを開きます。ページのプロンプトに従って、翻訳タイプ、字幕抽出、翻訳言語、字幕消去の設定を順番に完了し、最後に [タスクの開始] をクリックして翻訳タスクを送信します。ここでは、音声レベルの翻訳を例として使用します。下の図に示すとおりです。
数分待つと、下の図に示すように、編集トラックで翻訳結果を表示できるようになります。

タスクが完了したら、右上の をクリックすると、システムにビデオを制作するためのウィンドウが表示されます。ページのプロンプトに従って対応する情報を入力し、[確認] をクリックして翻訳されたビデオを制作およびエクスポートします。

方法 3:OpenAPI を介したビデオ翻訳の作成
翻訳タスクの作成
必要に応じて適切なインターフェイスパラメーターを設定し、SubmitVideoTranslationJob - ビデオ翻訳タスクの送信 を呼び出します。送信する際は、ビデオ翻訳のパラメーター紹介と例 をよく読んで、各パラメーターを正しく設定してください。
個々の翻訳タスクの結果のクエリ:
特定のビデオ翻訳タスクのステータスと結果を取得するには、GetSmartHandleJob - ビデオ翻訳タスクの結果の取得 を呼び出します。このインターフェイスを使用すると、処理の進行状況、完了時間、最終的な翻訳出力リンクなど、指定されたタスクに関する詳細情報を取得できます。
翻訳タスクリストのクエリ
進行中または完了したすべてのビデオ翻訳タスクを表示するには、ListSmartJobs - ビデオ翻訳タスクリストの取得 を使用してこれらのタスクをリスト表示できます。
翻訳タスクの削除
完了し、保存する必要がなくなったタスクについては、DeleteSmartJob - スマートタスクの削除 を呼び出してシステムから削除し、リソースを解放できます。
音声翻訳 - 二次修正 (オプション)
音声レベルの翻訳結果に満足できず、結果に二次修正を加えたい場合は、翻訳タスクを送信する前に「二次編集を有効にする」パラメーターを有効にしてください。以下では、音声レベルの翻訳結果に二次修正を加える 2 つの方法を紹介します。
注:「顔レベルの翻訳」の現在のバージョンでは、音声の二次翻訳修正のみがサポートされており、ビデオ内のキャラクターの顔の唇の同期の二次修正はサポートされていません。
方法 1:OpenAPI による実装
OpenAPI を呼び出すことで、音声レベルの翻訳結果の修正を実装します。詳細については、「音声翻訳 - 手動修正」をご参照ください。
方法 2:オンライン編集 (webSDK) による実装
準備
オンライン編集に慣れていない場合は、まず オンライン編集 の操作ガイドを学習して理解することをお勧めします。
操作プロセス
Intelligent Media Services - ビデオ翻訳 にアクセスして翻訳タスクリストページに移動し、二次修正が必要なタスクを選択します。
操作列の [翻訳修正/編集] ボタンをクリックして、対応するオンライン編集プロジェクトを開きます。その後の操作については、以下のビデオ説明をご参照ください:
FAQ
オーディオ波形と組み合わせて単一行字幕の開始時刻と終了時刻を設定する
たとえば、下の図に示すように、翻訳された字幕「Great where are you」を「Great」と「where are you」の 2 つのセグメントに分割したい場合などです。字幕の開始時刻と終了時刻を調整して、字幕の開始時刻と終了時刻の時点がオーディオ波形の谷にできるだけ対応するようにすることができます。このような処理を行うと、音声翻訳の二次修正の効果がより最適化されます。

二次修正字幕の文字数を制御する
二次翻訳修正を行う際、翻訳されたバイリンガル字幕の内容を編集するには、調整後の字幕の文字数が調整前の文字数の 1.5 倍を超えないようにしてください。そうしないと、二次翻訳修正後の話速が速すぎる可能性があります。
たとえば、最初の翻訳後、ある翻訳行は「これについては後で話しましょう。今は家に帰る必要があります」となります。
不適切な例: この件については、後ほど詳しく話し合いましょう。今は、安全かつ適切な時間内に帰宅することが重要であるため、家に帰ることにフォーカスすべきです。お互いがもっとリラックスし、あらゆる側面を徹底的に検討する十分な機会が持てたときに、この会話を再開できます。
正しい例: この件はまた別の機会にしましょう。もう家に帰る時間です。
関連ドキュメント
OpenAPI を介して翻訳タスクを送信したい場合は、事前に ビデオ翻訳のパラメーター紹介と例 について学習できます。