用語 - ApsaraVideo VOD - Alibaba Cloud ドキュメントセンター

このトピックでは、ビデオ形式、コーデック、トランスコーディングなど、ApsaraVideo VOD で一般的に使用される用語について説明します。

ファイル形式

オペレーティングシステムのファイル名には、.doc、.jpg、.avi など、ファイル名拡張子である接尾辞が付いています。ファイル名拡張子を使用すると、オペレーティングシステムは各ファイルを開くために使用するアプリケーションを決定できます。このようにして、ファイルは対応するアプリケーションによって認識され、開かれることができます。ビデオの一般的なファイル名拡張子には、.avi、.mpg、.mp4 が含まれます。ビデオファイルは、PC にインストールされているビデオプレーヤーに関連付けて再生できます。

コンテナ形式

コンテナ形式とは、圧縮されたビデオストリーム、オーディオストリーム、およびメタデータを特定の仕様に基づいて単一のファイルにパッケージできるファイル形式です。メタデータには、タイトルや字幕など、ビデオに関する基本情報が含まれています。

コンテナ形式は、ビデオの保存またはストリーミングに使用されます。

ビデオの保存には、次のコンテナ形式が使用されます。AVI、ASF（WMA または WMV）、MP4、MKV、および RMVB（RM または RA）。
ビデオのストリーミングには、次のコンテナ形式が使用されます。Flash Video（FLV）、Transport Stream（TS）、および MP4。TS 形式は、HTTP Live Streaming（HLS）やリアルタイムメッセージングプロトコル（RTMP）などのストリーミングプロトコルと共に使用する必要があります。 MP4 形式は、HTTP プロトコルと共に使用する必要があります。

次のセクションでは、ストリーミングプロトコルに基づいてビデオストリーミングに使用されるコンテナ形式について説明します。

MP4：モバイルデバイス（iOS および Android）や PC の Web ブラウザーなど、複数のクライアントでサポートされている従来のビデオコンテナ形式。ただし、MP4 ファイルのファイルヘッダーはサイズが大きく、構造が複雑です。 MP4 ファイルの再生時間が数時間など長い場合、大きなファイルヘッダーのためにビデオの読み込みに必要な時間が長くなります。したがって、MP4 形式は短いビデオに適しています。
MP4 ファイルは、メディアの配置や時間情報など、すべてのメディアメタデータを含むボックス（以前はアトムと呼ばれていました）で構成されています。メタデータは、ビデオフレームなどのメディアデータへの参照を提供し、ボックス内のメディアデータの配置は、最初のプライマリファイルのメタデータに記述されています。ビデオの再生時間が長いほどファイルヘッダーが大きくなり、ビデオの読み込みに必要な時間が長くなります。
HLS：Apple Inc. によって開発された、メディアストリーミング用の HTTP ベースのネットワーク伝送プロトコル。デフォルトでは、このプロトコルは TS コンテナ形式を使用して、ストリームを複数の TS フラグメントに分割します。また、このプロトコルは、再生を制御するための M3U8 インデックスファイル（テキストファイル）も定義します。 HLS はヘッダーデータをバッファリングする時間が短く、オンデマンドビデオの再生に適しています。 HLS はモバイルデバイス（iOS および Android）でサポートされていますが、PC の Internet Explorer とは互換性がありません。したがって、HLS には、PC 用に開発されたカスタムプレーヤーが必要です。 ApsaraVideo Player for Web を使用することをお勧めします。
FLV：Adobe によって開発された標準形式。この形式は PC の Flash Player でサポートされていますが、プレーヤーアプリがインストールされていない限り、モバイルデバイスではサポートされていません。 iPhone などのほとんどの携帯電話のブラウザーは FLV をサポートしていません。 ApsaraVideo Player を使用することをお勧めします。
Dynamic Adaptive Streaming over HTTP（DASH）：フラグメント化された MP4（fMP4）形式を使用して MP4 ビデオを複数のフラグメントに分割するストリーミング標準。フラグメントは、解像度やビットレートなど、異なるコーデック設定を持つことができます。異なるフラグメントを再生して、適応ビットレートストリーミングを実装し、異なる解像度間をシームレスに切り替えることができます。これにより、より良い再生体験が提供されます。 DASH では、メディアプレゼンテーション記述（MPD）ファイルは HLS M3U8 ファイルに類似しています。 YouTube や Netflix など、多くのビデオ Web サイトは DASH を使用してビデオコンテンツをストリーミングしています。
fMP4 を使用した HLS：本質的には HLS プロトコル。 2016 年の Apple Worldwide Developers Conference（WWDC）で、Apple Inc. は、新しい HLS 標準が TS 形式と同様に fMP4 形式をサポートすることを発表しました。これにより、ビデオファイルを DASH 形式と HLS 形式で同時にトランスコードおよびパッケージ化できます。
fMP4 を使用した HLS を含む HLS と DASH は、最も一般的に使用される適応ストリーミングテクノロジーです。 HLS と DASH を使用することをお勧めします。

コーデック

コーデックとは、デジタルビデオを圧縮または解凍（またはデコード）できるプログラムまたはデバイスです。ほとんどの場合、このような圧縮は非可逆圧縮です。コーデックは、ビデオをある形式から別の形式に変換するために使用される圧縮テクノロジーも指します。次のセクションでは、一般的なコーデックについて説明します。

H.26X：国際電気通信連合（ITU）によって開発されました。このファミリには、H.261、H.262、H.263、H.264、および H.265 が含まれます。
- H.261：初期のビデオ会議およびビデオ通話で使用されていました。
- H.262：標準解像度（SD）ビデオのエンコーディングと伝送をサポートし、主に放送、DVD、デジタル TV などの分野で使用されています。
- H.263：ビデオ会議、ビデオ通話、およびオンラインビデオで使用されています。
- H.264：MPEG-4 Part 10 または MPEG-4 Advanced Video Coding（MPEG-4 AVC）とも呼ばれます。これは、高精度ビデオの録画、圧縮、公開に広く使用されているビデオ圧縮標準および形式です。
- H.265：High Efficiency Video Coding（HEVC）とも呼ばれます。 H.265 は、H.264 の後継となるビデオ圧縮標準です。 H.264 と比較して、H.265 は 2 倍の圧縮率を提供することでビデオ品質を向上させます。これにより、ビデオ品質を損なうことなくビットレートが 50% 削減されます。 H.265 は、トレンドの定義である最大 8192 × 4320 の解像度をサポートしています。
MPEG：国際標準化機構（ISO）と国際電気標準会議（IEC）によって設立されたワーキンググループの連合である Moving Picture Experts Group（MPEG）によって開発されました。 MPEG には、次のビデオ圧縮標準が含まれています。
- MPEG-1 Part 2：VCD および一部のオンラインビデオで使用されています。この標準で提供されるビデオ品質は、VHS のビデオ品質に似ています。
- MPEG-2 Part 2：H.262 と同等であり、DVD、SVCD、およびほとんどのデジタルビデオ放送システムとケーブル配信システムで使用されています。
- MPEG-4 Part 2：ネットワーク伝送、放送、およびメディアストレージで使用されています。この標準は、MPEG-2 および H.263 V1 よりも優れた圧縮パフォーマンスを提供します。
- MPEG-4 Part 10：ITU-T の H.264 と同じ技術コンテンツを提供します。 ITU-T と MPEG は協力して H.264 または MPEG-4 AVC 標準を開発しています。 ITU-T はこの標準を H.264 と名付け、ISO と IEC は MPEG-4 AVC と名付けました。
Audio Video Coding Standard（AVS）：中国の Audio Video Coding Standards Workgroup によって策定された一連のデジタルオーディオおよびビデオコーディング標準。 2 世代の AVS 標準が策定されています。
- 第 1 世代の AVS 標準には、「情報技術：オーディオとビデオの高度なコーディング、パート 2：ビデオ」（AVS1）と「情報技術：オーディオとビデオの高度なコーディング、パート 16：ラジオテレビビデオ」（AVS+）が含まれます。 AVS+ は、H.264 または MPEG-4 AVC High Profile と同じ圧縮効率を提供します。
- 第 2 世代の AVS（AVS2）標準は、UHD（4K 以上）およびハイダイナミックレンジ（HDR）ビデオの効率的な圧縮のために設計されています。 AVS2 の圧縮効率は AVS+ および H.264 または MPEG-4 AVC の 2 倍であり、H.265 または HEVC の圧縮効率を上回っています。
Google によって開発された VP8 や VP9、RealNetworks によって立ち上げられた RealVideo などの他のコーデックは、オンラインビデオではめったに使用されません。

コーデックを選択する前に、アプリや Web ブラウザーなどの再生クライアントとのコーデックの互換性を考慮してください。最も一般的で広くサポートされているコーデックを使用することをお勧めします。 ApsaraVideo VOD は、次のビデオコーデックをサポートしています。H.264 または MPEG-4 AVC、および H.265 または HEVC。 H.264 または MPEG-4 AVC は、デフォルトのビデオコーデックとして使用されます。 ApsaraVideo VOD は、次のオーディオコーデックもサポートしています。MP3、AAC、VORBIS、および FLAC。 MP3 は、デフォルトのオーディオコーデックとして使用されます。

トランスコーディング

ビデオトランスコーディングとは、圧縮されたビデオストリームを別のビデオストリームに変換して、異なるネットワーク帯域幅、端末処理能力、およびユーザー要件に適応させるプロセスです。トランスコーディングは、デコードとエンコードが実行されるプロセスです。トランスコーディング前後のストリームは、同じまたは異なるビデオコーデックを使用する場合があります。

コンテナ形式変換

コンテナ形式変換とは、エンコードまたはデコードを行わずに、圧縮されたオーディオまたはビデオストリームをあるコンテナ形式から別のコンテナ形式に変換するプロセスです。たとえば、AVI ビデオを MP4 に変換します。圧縮されたビデオおよびオーディオストリームは、あるコンテナ形式のファイルから取得され、別のコンテナ形式のファイルにパッケージ化されます。コンテナ形式変換には、次の機能があります。

高速処理。オーディオファイルとビデオファイルのデコードとエンコードは複雑であり、トランスコーディング時間の大部分を占めます。コンテナ形式変換では、エンコードまたはデコードは必要ありません。これにより、処理時間が短縮されます。
ロスレスオーディオまたはビデオ品質。コンテナ形式変換では、エンコードとデコードが関係しないため、オーディオファイルまたはビデオファイルは圧縮されません。

変換されたファイルの解像度とビットレートは、元のファイルの解像度とビットレートとほぼ同じです。したがって、変換されたファイルは元の品質で再生されると見なされます。

ビットレート

ビットレートとは、ビデオファイルが単位時間あたりに使用するデータトラフィックを指します。これは、ビデオエンコーディングにおける画質管理の最も重要な項目です。ビットレートは 1 秒あたりのビット数（bit/s）で測定され、多くの場合、Kbit/s および Mbit/s の単位で使用されます。同じ解像度のビデオの場合、ビットレートが高いほど圧縮率が低く、ビデオ品質が高いことを示します。ビットレートが高いほど、単位時間あたりのサンプリングレートが高く、データストリームの精度が高いことを示します。したがって、処理されたビデオファイルの品質と精細度は、元のファイルの品質と精細度に近くなります。処理されたファイルには、再生デバイスからの優れたデコード機能が必要です。

ビットレートが高いほど、ファイルサイズが大きくなります。ファイルサイズは、次の式に基づいて計算できます。ファイルサイズ = 時間 × ビットレート/8。たとえば、60 分の 720p オンラインビデオファイルのビットレートが 1 Mbit/s の場合、ファイルのサイズは次の式に基づいて計算されます。3,600 秒 × 1 Mbit/s/8 = 450 MB。

解像度

解像度とは、各次元に含まれるピクセル数です。たとえば、1,280 × 720 のビデオは、ビデオの幅が 1,280 ピクセル、高さが 720 ピクセルであることを示します。ビデオの解像度によって、ビデオの詳細の量が決まります。ビデオの解像度によって、ビデオのリアルさと鮮明さが決まります。解像度が高いビデオほどピクセル数が多く、画像が鮮明になります。

解像度は、ビットレートを決定する重要な要素です。解像度が異なるビデオは、異なるビットレートを使用します。ほとんどの場合、解像度が高いほど高いビットレートが必要になります。各解像度には、推奨されるビットレートの範囲が対応しています。推奨範囲の下限よりも低い解像度とビットレートを指定すると、ビデオ品質が低下します。推奨範囲の上限よりも高い解像度とビットレートを指定すると、ビデオはより多くのストレージ容量を占有し、読み込みにより多くのトラフィックが必要になりますが、ビデオ品質は大幅に向上しません。

フレームレート

フレームレートは、ビデオで単位時間あたりに表示されるフレーム数、または画像で 1 秒あたりにリフレッシュされるフレーム数を測定するために使用されます。フレームレートの単位は、1 秒あたりのフレーム数（FPS）または Hz です。

フレームレートが高いほど、ビデオはよりスムーズでリアルに見えます。ほとんどの場合、25 ～ 30 fps で十分です。 60 fps は、没入型でリアルな再生体験を提供できます。フレームレートを 75 fps 以上に増やしても、再生体験の向上はそれほど顕著ではありません。モニターのリフレッシュレートよりも高いフレームレートを指定すると、モニターはフレームを正しく表示できず、グラフィックカードの処理能力が無駄になります。同じ解像度でフレームレートが高いほど、グラフィックカードの処理能力が高くなります。

GOP

Group of Pictures（GOP）は、MPEG エンコードされたビデオまたはビデオストリームの一連の連続画像です。 GOP は I フレームで始まり、次の I フレームで終わります。 GOP には、次の画像タイプが含まれています。

I フレーム（イントラコードピクチャ）：キーフレーム。 I フレームには、そのフレームのピクチャを生成するために必要なすべての情報が含まれています。独立してデコードされ、静止画と見なすことができます。ビデオシーケンスの最初のフレームは常に I フレームであり、各 GOP は I フレームで始まります。
P フレーム（予測コードピクチャ）：P フレームは、前の I フレームに基づいてエンコードする必要があります。 P フレームには、前の I フレームまたは P フレームに対する動き補償された差分情報が含まれています。デコード中、現在の P フレームで定義された差分が以前にキャッシュされた画像に重ね合わされて、最終画像が生成されます。 P フレームは、I フレームと比較してデータビット数が少なくなります。ただし、P フレームは前の I フレームまたは P フレームへの複雑な依存関係があるため、伝送エラーの影響を受けやすいです。
B フレーム（双方向予測コードピクチャ）：B フレームには、前後のフレームに対する動き補償された差分情報が含まれています。デコード中、現在の B フレームのデータが以前にキャッシュされた画像とデコードされた後続の画像に重ね合わされて、最終画像が生成されます。 B フレームは高い圧縮率を提供し、高いデコードパフォーマンスを必要とします。

GOP 値は、キーフレームの間隔を示します。これは、2 つの瞬時デコードリフレッシュ（IDR）フレーム間の距離、またはフレームグループ内の最大フレーム数です。ビデオの 1 秒あたり少なくとも 1 つのキーフレームが必要です。キーフレームが多いほどビデオ品質は向上しますが、帯域幅消費量とネットワーク負荷が増加します。間隔は、GOP 値（フレーム数）をフレームレートで割ることによって計算されます。たとえば、ApsaraVideo VOD のデフォルトの GOP 値は 250 フレームで、フレームレートは 25 FPS です。時間間隔は、次の式に基づいて計算されます。250/25 = 10 秒。

GOP 値は、ビデオ品質、ファイルサイズ（帯域幅消費量）、およびシーク効果（ドラッグおよび早送り操作への応答速度）のバランスをとるために、適切な範囲内である必要があります。

GOP 値を大きくすると、ファイルサイズが小さくなります。ただし、GOP 値が大きすぎると、GOP の最後のフレームが歪み、ビデオ品質が低下します。
GOP 値は、ビデオのシークへの応答速度を決定する上でも重要な要素です。シーク中、プレーヤーは指定された位置の前に最も近いキーフレームを見つけます。 GOP 値が大きいほど、指定された位置と最も近いキーフレームの間の距離が長くなり、デコードが必要な予測フレームが多くなります。この場合、読み込み時間が長くなり、シーク操作の完了に時間がかかります。
P フレームと B フレームのエンコードは、I フレームのエンコードと比較してより複雑です。 GOP 値が大きいと、P フレームと B フレームが多くなります。これにより、エンコード効率が低下します。
ただし、GOP 値が小さすぎると、画像品質が低下しないようにビデオのビットレートを上げる必要があります。このプロセスにより、帯域幅消費量が増加します。

スキャンモード

プログレッシブスキャン：各フレームのすべてのラインが順番に描画されて画面が塗りつぶされます。
インターレーススキャン：偶数スキャンラインが画面に描画され、次に奇数スキャンラインが画面に描画されます。これらの偶数と奇数のスキャンラインフィールドの 2 つで 1 つのビデオフレームが構成されます。

IDR フレームアライメント

IDR フレームは、特殊なタイプの I フレームです。通常の I フレーム後の P フレームと B フレームは、IDR フレーム前の他の I フレームを参照できます。ただし、IDR フレーム後のフレームは、IDR フレーム前の他のフレームを参照できません。エンコードプロセスとデコードプロセスを制御するために、フレームシーケンスの最初の I フレームが IDR フレームとして指定されます。

IDR フレームは、コーデックに参照フレームバッファーをすぐにリフレッシュするように指示します。このようにして、IDR フレーム前のフレームのエラーが IDR フレーム後のフレームに伝播されません。 IDR フレームとその後のフレームは、新しいシーケンスとしてコード化されます。 IDR フレームはランダムアクセスにも使用できます。通常の I フレームはランダムアクセスをサポートしていません。ほとんどのプレーヤーでは、ユーザーがプログレスバーの特定の位置にシーク（スライダーをドラッグ）できます。この場合、最も効率的な再生方法は、指定された位置に最も近い IDR フレームからビデオを再生することです。 IDR フレーム後のすべてのフレームはそれ以前の他の I フレームを参照しないため、これにより複雑な逆解析が回避されます。

ビデオを異なるビットレートの複数のビデオにトランスコードする場合、IDR フレームアライメントを有効にすることができます。このようにして、すべての出力ビデオの IDR フレームは、時間とフレームコンテンツに基づいて正確に調整されます。その後、プレーヤーは明らかな遅延なしに、異なるビットレートのビデオ間をスムーズに切り替えることができます。

プロファイル

プロファイルは、特定のクラスのアプリケーションに焦点を当てた一連の機能を定義します。 H.264 は、次のプロファイルを提供します。

ベースラインプロファイル：I フレームと P フレームを使用し、プログレッシブビデオとコンテキスト適応可変長コーディング（CAVLC）のみをサポートします。このプロファイルは、モバイルデバイスでビデオ通話をサポートするインスタントメッセージアプリケーションなど、ローエンドアプリケーションまたは追加のフォールトトレランスを必要とするアプリケーションで使用されます。
メインプロファイル：I フレーム、P フレーム、および B フレームを使用し、プログレッシブビデオとインターレースビデオをサポートします。また、CAVLC とコンテキスト適応バイナリ算術コーディング（CABAC）もサポートしています。このプロファイルは、デコード機能が比較的低い MP4 プレーヤー、ポータブルビデオプレーヤー、PSP、iPod などの主流の消費者向け電子製品で使用されます。
ハイプロファイル：8 × 8 相互予測、カスタム量子化、ロスレスビデオコーディング、および 4:4:4 などのより多くの YUV 形式をサポートします。このプロファイルは、メインプロファイルの機能もサポートしています。放送およびディスクストレージアプリケーション、特に高精細テレビアプリケーションで使用されます。たとえば、Blu-ray Disc ストレージ形式はこのプロファイルを採用しています。

ビットレート

ビットレートとは、1 秒あたりに送信されるビット数を指します。単位は 1 秒あたりのビット数（bit/s）です。ビットレートが高いほど、送信されるデータ量が多くなります。このビデオ分野では、[ビットレートはビットレートと同等です]。ビットレートは、コード化（圧縮）されたオーディオまたはビデオデータを 1 秒あたりに表すために必要なビット数を示します。ビットは最小のバイナリ単位です。ビットを 0 または 1 に設定できます。ビットレートと同様に、ビットレートが高いほどオーディオまたはビデオの品質が良く、ファイルサイズが大きくなります。ビットレートが小さいほど、ファイルサイズが小さくなります。

ビットレート制御方式

ビットレート制御方式とは、コード化されたストリームのビットレートを制御するために使用される方式を指します。次の方式がサポートされています。

可変ビットレート（VBR）：この方式を使用する場合、ビットレートは固定されません。ビデオファイルまたはオーディオファイルを圧縮する場合、ビデオまたはオーディオ圧縮ソフトウェアは、ビデオデータまたはオーディオデータの複雑さに基づいてビットレートを決定します。この方式は、品質とファイルサイズのバランスをとります。
固定ビットレート（CBR）：この方式を使用する場合、ビットレートはコード化されたストリームに対して固定されます。 CBR 圧縮ファイルは、VBR 圧縮ファイルおよび ABR 圧縮ファイルと比較してサイズが大きくなります。ただし、CBR 圧縮ファイルの品質は、VBR 圧縮ファイルまたは ABR 圧縮ファイルの品質と比較してそれほど優れていません。
平均ビットレート（ABR）：この方式は、補間パラメーターを使用した VBR のバリエーションです。 LAME は、CBR 圧縮ファイルのサイズと品質の不一致、および VBR の予測できないファイルサイズを解決するために、この方式を作成しました。特定のファイルサイズでは、ABR はストリームを 50 フレーム単位（約 30 フレーム/秒）でパーツに分割し、比較的低いビットレートを使用して複雑度の低いセグメントをコード化し、高いビットレートを使用して複雑度の高いパーツをコード化します。 ABR は、VBR と CBR の妥協案と見なすことができます。
ビットレートは特定の時間範囲内で指定された値に達する可能性がありますが、一部のパーツのピークビットレートは指定されたビットレートを超える可能性があります。平均ビットレートは一定のままです。 ABR は VBR の修正バージョンです。 ABR は、平均出力ビットレートが適切な範囲内にあることを保証し、複雑さに基づいてこの範囲内でビデオをコード化します。 Alibaba Cloud は、デフォルトのビットレート制御方式として ABR を使用します。

エンコード形式

詳細については、前のセクションのコーデックの説明をご参照ください。オーディオコーデックは、非可逆コーデックと可逆コーデックに分類されます。サンプリング理論に基づいて、オーディオコーデックは自然信号に限りなく近い信号のみを生成できます。したがって、すべてのオーディオコーデックは非可逆コーデックです。コンピューター分野では、パルス符号変調（PCM）は、すべてのオーディオコーデックの中で最高の忠実度を実現するため、従来の可逆コーデックです。 MP3 や AAC などのインターネット上の一般的なオーディオコーデックはすべて非可逆コーデックです。

サンプリングレート

サンプリングレートは、連続時間信号から 1 秒あたりに抽出されて離散時間信号を形成するサンプル数を定義します。 Hz 単位で測定され、アナログ信号をデジタルに変換するときにサンプリングされる頻度を表します。サンプリングレートが高いほど、元のサウンドの表現がより正確で自然になります。

サウンドチャンネル

サウンドチャンネルとは、音が異なる空間位置で録音または再生されるときに収集または再生される独立したオーディオ信号を指します。サウンドチャンネルの数は、録音中の音源の数、または再生中のスピーカーの数を指します。

UTC（ISO 8601 標準時間形式）

協定世界時（UTC）は、世界統一時、世界標準時、国際協定時としても知られています。この用語の頭字語は、英語では CUT、フランス語では TUC です。頭字語 UTC は妥協案として使用されます。 UTC は原子秒に基づく時間計測システムであり、世界時に近いです。中国本土は、データ要素と交換形式 - 情報交換 - 日付と時刻の表現（ISO 8601:1988 または GB/T 7408-1994）の標準を採用しており、UTC を国際協定時と呼んでいます。

デフォルトでは、ApsaraVideo VOD で返されるすべての時間フィールドと API リクエストの時間パラメーターは UTC です。時刻は YYYY-MM-DDThh:mm:ssZ 形式で表示され、ISO8601 標準に準拠しています。たとえば、2017-01-11T12:00:00Z は、UTC+8（中国標準時）の 2017 年 1 月 11 日 20:00:00 を示します。中国標準時と UTC の時差は 8 時間です。したがって、UTC+8 は中国標準時を示します。

ショートビデオ SDK の用語

マルチソース録画

マルチソース録画は、画面ビューやカメラフィードなど、さまざまなビデオキャプチャソースを単一のビデオに録画することをサポートしています。水平分割画面、垂直分割画面、ピクチャインピクチャ（PiP）など、指定されたレイアウトに従って複数のビデオソースを組み合わせます。合成ビデオの各フレームには、これらのソースからのビデオデータが同時に含まれています。

デュエット録画

デュエット録画を使用すると、サンプルビデオとカメラでキャプチャされたビデオで構成されるデュエットを録画できます。 2 つのビデオは、指定されたレイアウトに配置されます。サンプルビデオの音声は、デュエットの音声として使用されます。

次の図は、サンプルレイアウトを示しています。詳細については、レイアウトをご参照ください。

トラック

トラックは、ビデオまたはオーディオデータの個別のソースを表します。開発者が単一の録画内で異なるメディアコンテンツストリームを管理するのに役立ちます。

例：

デュエット録画の場合、トラック A にはカメラでキャプチャされたビデオデータが含まれ、トラック B にはサンプルビデオが含まれる場合があります。
マルチソース録画の場合、トラック A にはカメラでキャプチャされたビデオデータが含まれ、トラック B には画面録画が含まれる場合があります。

レイアウト

レイアウトは、合成ビデオでのビデオ画像の位置を表すプロパティです。レイアウトは、ビデオ中心点の座標とトラックサイズ（幅と高さ）の 2 つの次元を使用して、正規化された座標系で記述されます。

並べて表示される画面を例にとります。

このレイアウトでは、トラック A（カメラフィード）とトラック B（サンプルビデオまたは画面録画）がそれぞれ画面の半分を占めています。したがって、両方のトラックの幅は 0.5、高さは 1.0 です。トラック A の中心点の座標は（0.25, 0.5）、トラック B の中心点の座標は（0.75, 0.5）です。