Skenario dan struktur data template audio - Platform For AI - Alibaba Cloud - Platform For AI

iTAG mendukung templat pelabelan untuk audio classification, audio segmentation, dan automatic speech recognition (ASR). Pelajari format data input dan output untuk setiap templat.

Templat yang didukung

Templat pelabelan audio berikut tersedia:

Audio classification
Audio segmentation
Automatic speech recognition (ASR)

Audio classification

Audio classification memberikan satu atau beberapa label yang telah ditentukan kepada sebuah klip audio. Templat ini mendukung klasifikasi single-label maupun multi-label.

Use case

Klasifikasi suara ambient.

Data structure

Input data
Setiap baris dalam file .manifest input adalah objek JSON yang merepresentasikan satu file audio. Setiap objek harus berisi bidang source.
```
{"data":{"source":"oss://example-bucket.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}}
...
```

Output data

Setiap baris dalam file .manifest output adalah objek JSON yang berisi lokasi file audio sumber dan hasil anotasi.

{
    "data": {
        "source": "oss://example-bucket.oss-cn-hangzhou.aliyuncs.com/audio/6.wav"
    },
    "label-1432993193909231616": {
        "results": [
            {
                "questionId": "1",
                "data": "Label 1",
                "markTitle": "single-choice",
                "type": "survey/value"
            }
        ]
    }
}

Audio segmentation

Audio segmentation mengidentifikasi dan memberi label pada segmen waktu tertentu dalam sebuah file audio. Gunakan graf gelombang suara untuk menentukan waktu mulai dan akhir setiap segmen.

Use case

Analisis percakapan.

Data structure

Input data
Setiap baris dalam file .manifest input adalah objek JSON yang merepresentasikan satu file audio. Setiap objek harus berisi bidang source.
```
{"data":{"source":"oss://example-bucket.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}}
...
```

Output data

Setiap baris dalam file .manifest output adalah objek JSON yang berisi lokasi file audio sumber dan hasil anotasi.

{
    "data": {
        "source": "oss://example-bucket.oss-cn-hangzhou.aliyuncs.com/audio/21.wav"
    },
    "label-1435480301706092544": {
        "results": [
            {
                "duration": 0,
                "objects": [
                    {
                        "result": {
                            "Audio recognition result": "This is the transcribed content for segment 1.",
                            "single-choice": "Label 1"
                        },
                        "color": null,
                        "id": "wavesurfer_ei0aet9uvp8",
                        "start": 2.3886218302094817,
                        "end": 4.635545755237045
                    },
                    {
                        "result": {
                            "Audio recognition result": "This is the transcribed content for segment 2.",
                            "single-choice": "Label 2"
                        },
                        "color": null,
                        "id": "wavesurfer_kl39gnlb2k",
                        "start": 5.698280044101433,
                        "end": 7.348048511576626
                    }
                ],
                "empty": false
            }
        ]
    }
}

Automatic speech recognition (ASR)

ASR mengonversi audio yang diucapkan menjadi teks tertulis. Templat ini mendukung transkripsi dengan penugasan label.

Use case

Pengenalan dialek.

Data structure

Input data
Setiap baris dalam file .manifest input adalah objek JSON yang merepresentasikan satu file audio. Setiap objek harus berisi bidang source.
```
{"data":{"source":"oss://example-bucket.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}}
...
```

Output data

Setiap baris dalam file .manifest output adalah objek JSON yang berisi lokasi file audio sumber dan hasil anotasi.

{
    "data": {
        "source": "oss://example-bucket.oss-cn-hangzhou.aliyuncs.com/audio/14.wav"
    },
    "label-1435448359497441280": {
        "results": [
            {
                "questionId": "1",
                "data": "This is the transcribed content.",
                "markTitle": "Audio recognition result",
                "type": "survey/value"
            },
            {
                "questionId": "3",
                "data": [
                    "Label 1",
                    "Label 2"
                ],
                "markTitle": "multiple-choice",
                "type": "survey/multivalue"
            }
        ]
    }
}