全部产品
Search
文档中心

Platform For AI:Template pelabelan audio

更新时间:Jun 22, 2025

iTAG dari Machine Learning Platform for AI (PAI) menyediakan template pelabelan untuk klasifikasi audio, segmentasi audio, dan Pengenalan Suara Otomatis (ASR). Saat membuat pekerjaan pelabelan audio, Anda dapat memilih template pelabelan berdasarkan skenario bisnis Anda. Topik ini menjelaskan skenario penggunaan template pelabelan audio serta struktur data input dan output untuk masing-masing template.

Informasi latar belakang

iTAG menyediakan template pelabelan audio yang mendukung fitur-fitur berikut:

Klasifikasi audio

Klasifikasi audio digunakan untuk menemukan satu atau lebih label yang sesuai dengan input audio dari sekumpulan label dan menambahkan label tersebut ke audio. Template ini mendukung klasifikasi audio dengan satu label maupun multi-label.

  • Skenario

    Template pelabelan ini cocok untuk skenario seperti klasifikasi suara lingkungan.

  • Struktur Data

    • Data Input

      Setiap baris dalam file .manifest data input berisi sebuah objek. Setiap baris harus mencakup bidang source.

      {"data":{"source":"oss://examplebucket.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}}
      ...
    • Data Output

      Setiap baris dalam file .manifest data output berisi sebuah objek beserta hasil pelabelannya. Kode berikut menunjukkan contoh string JSON di setiap baris:

      {
          "data": {
              "source": "oss://itag.oss-cn-hangzhou.aliyuncs.com/examplebucket/6.wav"
          },
          "label-1432993193909231616": {
              "results": [
                  {
                      "questionId": "1", 
                      "data": "Label 1", 
                      "markTitle": "Pilihan tunggal", 
                      "type": "survey/value"
                  }
              ]
          }
      }

Segmentasi audio

Segmentasi audio digunakan untuk membagi sepotong audio menjadi beberapa klip dan melabeli klip-klip tersebut. Anda dapat menggunakan grafik gelombang suara untuk menentukan cara membagi audio.

  • Skenario

    Template pelabelan ini cocok untuk skenario seperti analisis dialog.

  • Struktur Data

    • Data Input

      Setiap baris dalam file .manifest data input berisi sebuah objek. Setiap baris harus mencakup bidang source.

      {"data":{"source":"oss://examplebucket.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}}
      ...
    • Data Output

      Setiap baris dalam file .manifest data output berisi sebuah objek beserta hasil pelabelannya. Kode berikut menunjukkan contoh string JSON di setiap baris:

      {
          "data": {
              "source": "oss://itag.oss-cn-hangzhou.aliyuncs.com/examplebucket/21.wav"
          }, 
          "label-1435480301706092544": {
              "results": [
                  {
                      "duration": 0, 
                      "objects": [
                          {
                              "result": {
                                  "Hasil segmentasi audio": "Hasil 1", 
                                  "Pilihan tunggal": "Label 1"
                              }, 
                              "color": null, 
                              "id": "wavesurfer_ei0aet9uvp8", 
                              "start": 2.3886218302094817, 
                              "end": 4.635545755237045
                          }, 
                          {
                              "result": {
                                  "Hasil segmentasi audio": "Hasil 2", 
                                  "Pilihan tunggal": "Label 2"
                              }, 
                              "color": null, 
                              "id": "wavesurfer_kl39gnlb2k", 
                              "start": 5.698280044101433, 
                              "end": 7.348048511576626
                          }
                      ], 
                      "empty": false
                  }
              ]
          }
      }

ASR

ASR digunakan untuk mengubah isi audio menjadi teks dan melabeli teks tersebut.

  • Skenario

    Template pelabelan ini cocok untuk skenario seperti pengenalan dialek.

  • Struktur Data

    • Data Input

      Setiap baris dalam file .manifest data input berisi sebuah objek. Setiap baris harus mencakup bidang source.

      {"data":{"source":"oss://examplebucket.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}}
      ...
    • Data Output

      Setiap baris dalam file .manifest data output berisi sebuah objek beserta hasil pelabelannya. Kode berikut menunjukkan contoh string JSON di setiap baris:

      {
          "data": {
              "source": "oss://itag.oss-cn-hangzhou.aliyuncs.com/examplebucket/14.wav"
          }, 
          "label-1435448359497441280": {
              "results": [
                  {
                      "questionId": "1", 
                      "data": "Hasil ASR", 
                      "markTitle": "Hasil ASR", 
                      "type": "survey/value"
                  }, 
                  {
                      "questionId": "3", 
                      "data": [
                          "Label 1", 
                          "Label 2"
                      ], 
                      "markTitle": "Pilihan ganda", 
                      "type": "survey/multivalue"
                  }
              ]
          }
      }