All Products
Search
Document Center

Platform For AI:Format data pelabelan audio

Last Updated:Mar 07, 2026

iTAG menyediakan templat pelabelan untuk klasifikasi audio, segmentasi audio, dan pengenalan audio. Saat membuat pekerjaan pelabelan, pilih templat yang sesuai dengan skenario Anda. Topik ini menjelaskan skenario dan struktur data untuk templat audio tersebut.

Informasi latar belakang

Topik ini menjelaskan struktur data untuk templat pelabelan audio berikut:

Klasifikasi audio

Klasifikasi audio memberikan satu atau beberapa label dari kumpulan yang telah ditentukan ke input audio. Templat ini mendukung klasifikasi audio berlabel tunggal maupun multi-label.

  • Skenario

    Contoh skenario meliputi klasifikasi suara lingkungan.

  • Struktur data

    • Data input

      Setiap baris dalam file manifest merepresentasikan sebuah objek dan harus memuat bidang source.

      {"data":{"source":"oss://example-bucket.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}}
      ...
    • Data output

      Setiap baris dalam file manifest berisi objek dan hasil pelabelannya. Kode berikut menunjukkan struktur JSON setiap baris.

      {
          "data": {
              "source": "oss://itag.oss-cn-hangzhou.aliyuncs.com/example-bucket/6.wav"
          },
          "label-1432993193909231616": {
              "results": [
                  {
                      "questionId": "1", 
                      "data": "Label 1", 
                      "markTitle": "Single-choice", 
                      "type": "survey/value"
                  }
              ]
          }
      }

Segmentasi audio

Segmentasi audio membagi klip audio menjadi beberapa segmen berdasarkan graf gelombang, lalu memberikan label pada setiap segmen.

  • Skenario

    Menganalisis konten percakapan dan lainnya.

  • Struktur data

    • Data input

      Setiap baris dalam file manifest merepresentasikan sebuah objek dan harus memuat bidang source.

      {"data":{"source":"oss://example-bucket.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}}
      ...
    • Data output

      Setiap baris dalam file manifest berisi objek dan hasil pelabelannya. Kode berikut menunjukkan struktur JSON setiap baris.

      {
          "data": {
              "source": "oss://itag.oss-cn-hangzhou.aliyuncs.com/example-bucket/21.wav"
          }, 
          "label-1435480301706092544": {
              "results": [
                  {
                      "duration": 0, 
                      "objects": [
                          {
                              "result": {
                                  "Audio recognition result": "Recognized content 1.", 
                                  "Single-choice": "Label 1"
                              }, 
                              "color": null, 
                              "id": "wavesurfer_ei0aet9uvp8", 
                              "start": 2.3886218302094817, 
                              "end": 4.635545755237045
                          }, 
                          {
                              "result": {
                                  "Audio recognition result": "Recognized content 2.", 
                                  "Single-choice": "Label 2"
                              }, 
                              "color": null, 
                              "id": "wavesurfer_kl39gnlb2k", 
                              "start": 5.698280044101433, 
                              "end": 7.348048511576626
                          }
                      ], 
                      "empty": false
                  }
              ]
          }
      }

Pengenalan audio

Pengenalan audio, juga dikenal sebagai Automatic Speech Recognition (ASR), mengonversi klip audio menjadi teks dan mencocokkan teks tersebut dengan label yang sesuai.

  • Skenario

    Contoh skenario meliputi pengenalan dialek.

  • Struktur data

    • Data input

      Setiap baris dalam file manifest merepresentasikan sebuah objek dan harus memuat bidang source.

      {"data":{"source":"oss://example-bucket.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}}
      ...
    • Data output

      Setiap baris dalam file manifest berisi objek dan hasil pelabelannya. Kode berikut menunjukkan struktur JSON setiap baris.

      {
          "data": {
              "source": "oss://itag.oss-cn-hangzhou.aliyuncs.com/example-bucket/14.wav"
          }, 
          "label-1435448359497441280": {
              "results": [
                  {
                      "questionId": "1", 
                      "data": "ASR result.", 
                      "markTitle": "ASR result", 
                      "type": "survey/value"
                  }, 
                  {
                      "questionId": "3", 
                      "data": [
                          "Label 1", 
                          "Label 2"
                      ], 
                      "markTitle": "Multiple-choice", 
                      "type": "survey/multivalue"
                  }
              ]
          }
      }