iTAG dari Machine Learning Platform for AI (PAI) menyediakan template pelabelan untuk klasifikasi audio, segmentasi audio, dan Pengenalan Suara Otomatis (ASR). Saat membuat pekerjaan pelabelan audio, Anda dapat memilih template pelabelan berdasarkan skenario bisnis Anda. Topik ini menjelaskan skenario penggunaan template pelabelan audio serta struktur data input dan output untuk masing-masing template.
Informasi latar belakang
iTAG menyediakan template pelabelan audio yang mendukung fitur-fitur berikut:
Klasifikasi audio
Klasifikasi audio digunakan untuk menemukan satu atau lebih label yang sesuai dengan input audio dari sekumpulan label dan menambahkan label tersebut ke audio. Template ini mendukung klasifikasi audio dengan satu label maupun multi-label.
Skenario
Template pelabelan ini cocok untuk skenario seperti klasifikasi suara lingkungan.
Struktur Data
Data Input
Setiap baris dalam file .manifest data input berisi sebuah objek. Setiap baris harus mencakup bidang source.
{"data":{"source":"oss://examplebucket.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}} ...Data Output
Setiap baris dalam file .manifest data output berisi sebuah objek beserta hasil pelabelannya. Kode berikut menunjukkan contoh string JSON di setiap baris:
{ "data": { "source": "oss://itag.oss-cn-hangzhou.aliyuncs.com/examplebucket/6.wav" }, "label-1432993193909231616": { "results": [ { "questionId": "1", "data": "Label 1", "markTitle": "Pilihan tunggal", "type": "survey/value" } ] } }
Segmentasi audio
Segmentasi audio digunakan untuk membagi sepotong audio menjadi beberapa klip dan melabeli klip-klip tersebut. Anda dapat menggunakan grafik gelombang suara untuk menentukan cara membagi audio.
Skenario
Template pelabelan ini cocok untuk skenario seperti analisis dialog.
Struktur Data
Data Input
Setiap baris dalam file .manifest data input berisi sebuah objek. Setiap baris harus mencakup bidang source.
{"data":{"source":"oss://examplebucket.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}} ...Data Output
Setiap baris dalam file .manifest data output berisi sebuah objek beserta hasil pelabelannya. Kode berikut menunjukkan contoh string JSON di setiap baris:
{ "data": { "source": "oss://itag.oss-cn-hangzhou.aliyuncs.com/examplebucket/21.wav" }, "label-1435480301706092544": { "results": [ { "duration": 0, "objects": [ { "result": { "Hasil segmentasi audio": "Hasil 1", "Pilihan tunggal": "Label 1" }, "color": null, "id": "wavesurfer_ei0aet9uvp8", "start": 2.3886218302094817, "end": 4.635545755237045 }, { "result": { "Hasil segmentasi audio": "Hasil 2", "Pilihan tunggal": "Label 2" }, "color": null, "id": "wavesurfer_kl39gnlb2k", "start": 5.698280044101433, "end": 7.348048511576626 } ], "empty": false } ] } }
ASR
ASR digunakan untuk mengubah isi audio menjadi teks dan melabeli teks tersebut.
Skenario
Template pelabelan ini cocok untuk skenario seperti pengenalan dialek.
Struktur Data
Data Input
Setiap baris dalam file .manifest data input berisi sebuah objek. Setiap baris harus mencakup bidang source.
{"data":{"source":"oss://examplebucket.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}} ...Data Output
Setiap baris dalam file .manifest data output berisi sebuah objek beserta hasil pelabelannya. Kode berikut menunjukkan contoh string JSON di setiap baris:
{ "data": { "source": "oss://itag.oss-cn-hangzhou.aliyuncs.com/examplebucket/14.wav" }, "label-1435448359497441280": { "results": [ { "questionId": "1", "data": "Hasil ASR", "markTitle": "Hasil ASR", "type": "survey/value" }, { "questionId": "3", "data": [ "Label 1", "Label 2" ], "markTitle": "Pilihan ganda", "type": "survey/multivalue" } ] } }