iTAG mendukung templat pelabelan untuk audio classification, audio segmentation, dan automatic speech recognition (ASR). Pelajari format data input dan output untuk setiap templat.
Templat yang didukung
Templat pelabelan audio berikut tersedia:
Audio classification
Audio classification memberikan satu atau beberapa label yang telah ditentukan kepada sebuah klip audio. Templat ini mendukung klasifikasi single-label maupun multi-label.
-
Use case
Klasifikasi suara ambient.
-
Data structure
-
Input data
Setiap baris dalam file .manifest input adalah objek JSON yang merepresentasikan satu file audio. Setiap objek harus berisi bidang source.
{"data":{"source":"oss://example-bucket.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}} ... -
Output data
Setiap baris dalam file .manifest output adalah objek JSON yang berisi lokasi file audio sumber dan hasil anotasi.
{ "data": { "source": "oss://example-bucket.oss-cn-hangzhou.aliyuncs.com/audio/6.wav" }, "label-1432993193909231616": { "results": [ { "questionId": "1", "data": "Label 1", "markTitle": "single-choice", "type": "survey/value" } ] } }
-
Audio segmentation
Audio segmentation mengidentifikasi dan memberi label pada segmen waktu tertentu dalam sebuah file audio. Gunakan graf gelombang suara untuk menentukan waktu mulai dan akhir setiap segmen.
-
Use case
Analisis percakapan.
-
Data structure
-
Input data
Setiap baris dalam file .manifest input adalah objek JSON yang merepresentasikan satu file audio. Setiap objek harus berisi bidang source.
{"data":{"source":"oss://example-bucket.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}} ... -
Output data
Setiap baris dalam file .manifest output adalah objek JSON yang berisi lokasi file audio sumber dan hasil anotasi.
{ "data": { "source": "oss://example-bucket.oss-cn-hangzhou.aliyuncs.com/audio/21.wav" }, "label-1435480301706092544": { "results": [ { "duration": 0, "objects": [ { "result": { "Audio recognition result": "This is the transcribed content for segment 1.", "single-choice": "Label 1" }, "color": null, "id": "wavesurfer_ei0aet9uvp8", "start": 2.3886218302094817, "end": 4.635545755237045 }, { "result": { "Audio recognition result": "This is the transcribed content for segment 2.", "single-choice": "Label 2" }, "color": null, "id": "wavesurfer_kl39gnlb2k", "start": 5.698280044101433, "end": 7.348048511576626 } ], "empty": false } ] } }
-
Automatic speech recognition (ASR)
ASR mengonversi audio yang diucapkan menjadi teks tertulis. Templat ini mendukung transkripsi dengan penugasan label.
-
Use case
Pengenalan dialek.
-
Data structure
-
Input data
Setiap baris dalam file .manifest input adalah objek JSON yang merepresentasikan satu file audio. Setiap objek harus berisi bidang source.
{"data":{"source":"oss://example-bucket.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}} ... -
Output data
Setiap baris dalam file .manifest output adalah objek JSON yang berisi lokasi file audio sumber dan hasil anotasi.
{ "data": { "source": "oss://example-bucket.oss-cn-hangzhou.aliyuncs.com/audio/14.wav" }, "label-1435448359497441280": { "results": [ { "questionId": "1", "data": "This is the transcribed content.", "markTitle": "Audio recognition result", "type": "survey/value" }, { "questionId": "3", "data": [ "Label 1", "Label 2" ], "markTitle": "multiple-choice", "type": "survey/multivalue" } ] } }
-