オーディオテンプレートのシナリオとデータ構造 - Platform for AI (PAI) - Alibaba Cloud - Platform For AI

iTAG は、音声分類、音声セグメンテーション、自動音声認識 (ASR) のラベリングテンプレートをサポートしています。各テンプレートの入出力データ形式について説明します。

サポートされているテンプレート

以下の音声ラベリングテンプレートが利用可能です：

音声分類
音声セグメンテーション
自動音声認識 (ASR)

音声分類

音声分類は、オーディオクリップに 1 つ以上の事前定義ラベルを割り当てます。このテンプレートは、単一ラベル分類と複数ラベル分類の両方をサポートしています。

ユースケース

環境音分類。

データ構造

入力データ
入力 .manifest ファイルの各行は、単一のオーディオファイルを表す JSON オブジェクトです。各オブジェクトには source フィールドを含める必要があります。
```
{"data":{"source":"oss://example-bucket.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}}
...
```

出力データ

出力 .manifest ファイルの各行は、ソースオーディオファイルの場所とアノテーション結果を含む JSON オブジェクトです。

{
    "data": {
        "source": "oss://example-bucket.oss-cn-hangzhou.aliyuncs.com/audio/6.wav"
    },
    "label-1432993193909231616": {
        "results": [
            {
                "questionId": "1",
                "data": "Label 1",
                "markTitle": "single-choice",
                "type": "survey/value"
            }
        ]
    }
}

音声セグメンテーション

音声セグメンテーションは、オーディオファイル内の特定のタイムセグメントを識別し、ラベルを付けます。音波グラフを使用して、各セグメントの開始時間と終了時間を定義します。

ユースケース

会話分析。

データ構造

入力データ
入力 .manifest ファイルの各行は、単一のオーディオファイルを表す JSON オブジェクトです。各オブジェクトには source フィールドを含める必要があります。
```
{"data":{"source":"oss://example-bucket.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}}
...
```

出力データ

出力 .manifest ファイルの各行は、ソースオーディオファイルの場所とアノテーション結果を含む JSON オブジェクトです。

{
    "data": {
        "source": "oss://example-bucket.oss-cn-hangzhou.aliyuncs.com/audio/21.wav"
    },
    "label-1435480301706092544": {
        "results": [
            {
                "duration": 0,
                "objects": [
                    {
                        "result": {
                            "Audio recognition result": "This is the transcribed content for segment 1.",
                            "single-choice": "Label 1"
                        },
                        "color": null,
                        "id": "wavesurfer_ei0aet9uvp8",
                        "start": 2.3886218302094817,
                        "end": 4.635545755237045
                    },
                    {
                        "result": {
                            "Audio recognition result": "This is the transcribed content for segment 2.",
                            "single-choice": "Label 2"
                        },
                        "color": null,
                        "id": "wavesurfer_kl39gnlb2k",
                        "start": 5.698280044101433,
                        "end": 7.348048511576626
                    }
                ],
                "empty": false
            }
        ]
    }
}

自動音声認識 (ASR)

ASR は、話し言葉の音声を書き起こされたテキストに変換します。このテンプレートは、ラベルの割り当てを伴う文字起こしをサポートしています。

ユースケース

方言認識。

データ構造

入力データ
入力 .manifest ファイルの各行は、単一のオーディオファイルを表す JSON オブジェクトです。各オブジェクトには source フィールドを含める必要があります。
```
{"data":{"source":"oss://example-bucket.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}}
...
```

出力データ

出力 .manifest ファイルの各行は、ソースオーディオファイルの場所とアノテーション結果を含む JSON オブジェクトです。

{
    "data": {
        "source": "oss://example-bucket.oss-cn-hangzhou.aliyuncs.com/audio/14.wav"
    },
    "label-1435448359497441280": {
        "results": [
            {
                "questionId": "1",
                "data": "This is the transcribed content.",
                "markTitle": "Audio recognition result",
                "type": "survey/value"
            },
            {
                "questionId": "3",
                "data": [
                    "Label 1",
                    "Label 2"
                ],
                "markTitle": "multiple-choice",
                "type": "survey/multivalue"
            }
        ]
    }
}