iTAG は、音声分類、音声セグメンテーション、自動音声認識 (ASR) のラベリングテンプレートをサポートしています。各テンプレートの入出力データ形式について説明します。
サポートされているテンプレート
以下の音声ラベリングテンプレートが利用可能です:
音声分類
音声分類は、オーディオクリップに 1 つ以上の事前定義ラベルを割り当てます。このテンプレートは、単一ラベル分類と複数ラベル分類の両方をサポートしています。
-
ユースケース
環境音分類。
-
データ構造
-
入力データ
入力 .manifest ファイルの各行は、単一のオーディオファイルを表す JSON オブジェクトです。各オブジェクトには source フィールドを含める必要があります。
{"data":{"source":"oss://example-bucket.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}} ... -
出力データ
出力 .manifest ファイルの各行は、ソースオーディオファイルの場所とアノテーション結果を含む JSON オブジェクトです。
{ "data": { "source": "oss://example-bucket.oss-cn-hangzhou.aliyuncs.com/audio/6.wav" }, "label-1432993193909231616": { "results": [ { "questionId": "1", "data": "Label 1", "markTitle": "single-choice", "type": "survey/value" } ] } }
-
音声セグメンテーション
音声セグメンテーションは、オーディオファイル内の特定のタイムセグメントを識別し、ラベルを付けます。音波グラフを使用して、各セグメントの開始時間と終了時間を定義します。
-
ユースケース
会話分析。
-
データ構造
-
入力データ
入力 .manifest ファイルの各行は、単一のオーディオファイルを表す JSON オブジェクトです。各オブジェクトには source フィールドを含める必要があります。
{"data":{"source":"oss://example-bucket.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}} ... -
出力データ
出力 .manifest ファイルの各行は、ソースオーディオファイルの場所とアノテーション結果を含む JSON オブジェクトです。
{ "data": { "source": "oss://example-bucket.oss-cn-hangzhou.aliyuncs.com/audio/21.wav" }, "label-1435480301706092544": { "results": [ { "duration": 0, "objects": [ { "result": { "Audio recognition result": "This is the transcribed content for segment 1.", "single-choice": "Label 1" }, "color": null, "id": "wavesurfer_ei0aet9uvp8", "start": 2.3886218302094817, "end": 4.635545755237045 }, { "result": { "Audio recognition result": "This is the transcribed content for segment 2.", "single-choice": "Label 2" }, "color": null, "id": "wavesurfer_kl39gnlb2k", "start": 5.698280044101433, "end": 7.348048511576626 } ], "empty": false } ] } }
-
自動音声認識 (ASR)
ASR は、話し言葉の音声を書き起こされたテキストに変換します。このテンプレートは、ラベルの割り当てを伴う文字起こしをサポートしています。
-
ユースケース
方言認識。
-
データ構造
-
入力データ
入力 .manifest ファイルの各行は、単一のオーディオファイルを表す JSON オブジェクトです。各オブジェクトには source フィールドを含める必要があります。
{"data":{"source":"oss://example-bucket.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}} ... -
出力データ
出力 .manifest ファイルの各行は、ソースオーディオファイルの場所とアノテーション結果を含む JSON オブジェクトです。
{ "data": { "source": "oss://example-bucket.oss-cn-hangzhou.aliyuncs.com/audio/14.wav" }, "label-1435448359497441280": { "results": [ { "questionId": "1", "data": "This is the transcribed content.", "markTitle": "Audio recognition result", "type": "survey/value" }, { "questionId": "3", "data": [ "Label 1", "Label 2" ], "markTitle": "multiple-choice", "type": "survey/multivalue" } ] } }
-