All Products
Search
Document Center

Platform For AI:Templat pelabelan audio

Last Updated:Apr 11, 2026

iTAG mendukung templat pelabelan untuk audio classification, audio segmentation, dan automatic speech recognition (ASR). Pelajari format data input dan output untuk setiap templat.

Templat yang didukung

Audio classification

Audio classification memberikan satu atau beberapa label yang telah ditentukan kepada sebuah klip audio. Templat ini mendukung klasifikasi single-label maupun multi-label.

  • Use case

    Klasifikasi suara ambient.

  • Data structure

    • Input data

      Setiap baris dalam file .manifest input adalah objek JSON yang merepresentasikan satu file audio. Setiap objek harus berisi bidang source.

      {"data":{"source":"oss://example-bucket.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}}
      ...
    • Output data

      Setiap baris dalam file .manifest output adalah objek JSON yang berisi lokasi file audio sumber dan hasil anotasi.

      {
          "data": {
              "source": "oss://example-bucket.oss-cn-hangzhou.aliyuncs.com/audio/6.wav"
          },
          "label-1432993193909231616": {
              "results": [
                  {
                      "questionId": "1",
                      "data": "Label 1",
                      "markTitle": "single-choice",
                      "type": "survey/value"
                  }
              ]
          }
      }

Audio segmentation

Audio segmentation mengidentifikasi dan memberi label pada segmen waktu tertentu dalam sebuah file audio. Gunakan graf gelombang suara untuk menentukan waktu mulai dan akhir setiap segmen.

  • Use case

    Analisis percakapan.

  • Data structure

    • Input data

      Setiap baris dalam file .manifest input adalah objek JSON yang merepresentasikan satu file audio. Setiap objek harus berisi bidang source.

      {"data":{"source":"oss://example-bucket.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}}
      ...
    • Output data

      Setiap baris dalam file .manifest output adalah objek JSON yang berisi lokasi file audio sumber dan hasil anotasi.

      {
          "data": {
              "source": "oss://example-bucket.oss-cn-hangzhou.aliyuncs.com/audio/21.wav"
          },
          "label-1435480301706092544": {
              "results": [
                  {
                      "duration": 0,
                      "objects": [
                          {
                              "result": {
                                  "Audio recognition result": "This is the transcribed content for segment 1.",
                                  "single-choice": "Label 1"
                              },
                              "color": null,
                              "id": "wavesurfer_ei0aet9uvp8",
                              "start": 2.3886218302094817,
                              "end": 4.635545755237045
                          },
                          {
                              "result": {
                                  "Audio recognition result": "This is the transcribed content for segment 2.",
                                  "single-choice": "Label 2"
                              },
                              "color": null,
                              "id": "wavesurfer_kl39gnlb2k",
                              "start": 5.698280044101433,
                              "end": 7.348048511576626
                          }
                      ],
                      "empty": false
                  }
              ]
          }
      }

Automatic speech recognition (ASR)

ASR mengonversi audio yang diucapkan menjadi teks tertulis. Templat ini mendukung transkripsi dengan penugasan label.

  • Use case

    Pengenalan dialek.

  • Data structure

    • Input data

      Setiap baris dalam file .manifest input adalah objek JSON yang merepresentasikan satu file audio. Setiap objek harus berisi bidang source.

      {"data":{"source":"oss://example-bucket.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}}
      ...
    • Output data

      Setiap baris dalam file .manifest output adalah objek JSON yang berisi lokasi file audio sumber dan hasil anotasi.

      {
          "data": {
              "source": "oss://example-bucket.oss-cn-hangzhou.aliyuncs.com/audio/14.wav"
          },
          "label-1435448359497441280": {
              "results": [
                  {
                      "questionId": "1",
                      "data": "This is the transcribed content.",
                      "markTitle": "Audio recognition result",
                      "type": "survey/value"
                  },
                  {
                      "questionId": "3",
                      "data": [
                          "Label 1",
                          "Label 2"
                      ],
                      "markTitle": "multiple-choice",
                      "type": "survey/multivalue"
                  }
              ]
          }
      }