iTAG menyediakan templat pelabelan untuk klasifikasi audio, segmentasi audio, dan pengenalan audio. Saat membuat pekerjaan pelabelan, pilih templat yang sesuai dengan skenario Anda. Topik ini menjelaskan skenario dan struktur data untuk templat audio tersebut.
Informasi latar belakang
Topik ini menjelaskan struktur data untuk templat pelabelan audio berikut:
Klasifikasi audio
Klasifikasi audio memberikan satu atau beberapa label dari kumpulan yang telah ditentukan ke input audio. Templat ini mendukung klasifikasi audio berlabel tunggal maupun multi-label.
-
Skenario
Contoh skenario meliputi klasifikasi suara lingkungan.
-
Struktur data
-
Data input
Setiap baris dalam file manifest merepresentasikan sebuah objek dan harus memuat bidang source.
{"data":{"source":"oss://example-bucket.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}} ... -
Data output
Setiap baris dalam file manifest berisi objek dan hasil pelabelannya. Kode berikut menunjukkan struktur JSON setiap baris.
{ "data": { "source": "oss://itag.oss-cn-hangzhou.aliyuncs.com/example-bucket/6.wav" }, "label-1432993193909231616": { "results": [ { "questionId": "1", "data": "Label 1", "markTitle": "Single-choice", "type": "survey/value" } ] } }
-
Segmentasi audio
Segmentasi audio membagi klip audio menjadi beberapa segmen berdasarkan graf gelombang, lalu memberikan label pada setiap segmen.
-
Skenario
Menganalisis konten percakapan dan lainnya.
-
Struktur data
-
Data input
Setiap baris dalam file manifest merepresentasikan sebuah objek dan harus memuat bidang source.
{"data":{"source":"oss://example-bucket.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}} ... -
Data output
Setiap baris dalam file manifest berisi objek dan hasil pelabelannya. Kode berikut menunjukkan struktur JSON setiap baris.
{ "data": { "source": "oss://itag.oss-cn-hangzhou.aliyuncs.com/example-bucket/21.wav" }, "label-1435480301706092544": { "results": [ { "duration": 0, "objects": [ { "result": { "Audio recognition result": "Recognized content 1.", "Single-choice": "Label 1" }, "color": null, "id": "wavesurfer_ei0aet9uvp8", "start": 2.3886218302094817, "end": 4.635545755237045 }, { "result": { "Audio recognition result": "Recognized content 2.", "Single-choice": "Label 2" }, "color": null, "id": "wavesurfer_kl39gnlb2k", "start": 5.698280044101433, "end": 7.348048511576626 } ], "empty": false } ] } }
-
Pengenalan audio
Pengenalan audio, juga dikenal sebagai Automatic Speech Recognition (ASR), mengonversi klip audio menjadi teks dan mencocokkan teks tersebut dengan label yang sesuai.
-
Skenario
Contoh skenario meliputi pengenalan dialek.
-
Struktur data
-
Data input
Setiap baris dalam file manifest merepresentasikan sebuah objek dan harus memuat bidang source.
{"data":{"source":"oss://example-bucket.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}} ... -
Data output
Setiap baris dalam file manifest berisi objek dan hasil pelabelannya. Kode berikut menunjukkan struktur JSON setiap baris.
{ "data": { "source": "oss://itag.oss-cn-hangzhou.aliyuncs.com/example-bucket/14.wav" }, "label-1435448359497441280": { "results": [ { "questionId": "1", "data": "ASR result.", "markTitle": "ASR result", "type": "survey/value" }, { "questionId": "3", "data": [ "Label 1", "Label 2" ], "markTitle": "Multiple-choice", "type": "survey/multivalue" } ] } }
-