すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:音声ラベリングテンプレート

最終更新日:Apr 10, 2026

iTAG は、音声分類、音声セグメンテーション、自動音声認識 (ASR) のラベリングテンプレートをサポートしています。各テンプレートの入出力データ形式について説明します。

サポートされているテンプレート

以下の音声ラベリングテンプレートが利用可能です:

音声分類

音声分類は、オーディオクリップに 1 つ以上の事前定義ラベルを割り当てます。このテンプレートは、単一ラベル分類と複数ラベル分類の両方をサポートしています。

  • ユースケース

    環境音分類。

  • データ構造

    • 入力データ

      入力 .manifest ファイルの各行は、単一のオーディオファイルを表す JSON オブジェクトです。各オブジェクトには source フィールドを含める必要があります。

      {"data":{"source":"oss://example-bucket.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}}
      ...
    • 出力データ

      出力 .manifest ファイルの各行は、ソースオーディオファイルの場所とアノテーション結果を含む JSON オブジェクトです。

      {
          "data": {
              "source": "oss://example-bucket.oss-cn-hangzhou.aliyuncs.com/audio/6.wav"
          },
          "label-1432993193909231616": {
              "results": [
                  {
                      "questionId": "1",
                      "data": "Label 1",
                      "markTitle": "single-choice",
                      "type": "survey/value"
                  }
              ]
          }
      }

音声セグメンテーション

音声セグメンテーションは、オーディオファイル内の特定のタイムセグメントを識別し、ラベルを付けます。音波グラフを使用して、各セグメントの開始時間と終了時間を定義します。

  • ユースケース

    会話分析。

  • データ構造

    • 入力データ

      入力 .manifest ファイルの各行は、単一のオーディオファイルを表す JSON オブジェクトです。各オブジェクトには source フィールドを含める必要があります。

      {"data":{"source":"oss://example-bucket.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}}
      ...
    • 出力データ

      出力 .manifest ファイルの各行は、ソースオーディオファイルの場所とアノテーション結果を含む JSON オブジェクトです。

      {
          "data": {
              "source": "oss://example-bucket.oss-cn-hangzhou.aliyuncs.com/audio/21.wav"
          },
          "label-1435480301706092544": {
              "results": [
                  {
                      "duration": 0,
                      "objects": [
                          {
                              "result": {
                                  "Audio recognition result": "This is the transcribed content for segment 1.",
                                  "single-choice": "Label 1"
                              },
                              "color": null,
                              "id": "wavesurfer_ei0aet9uvp8",
                              "start": 2.3886218302094817,
                              "end": 4.635545755237045
                          },
                          {
                              "result": {
                                  "Audio recognition result": "This is the transcribed content for segment 2.",
                                  "single-choice": "Label 2"
                              },
                              "color": null,
                              "id": "wavesurfer_kl39gnlb2k",
                              "start": 5.698280044101433,
                              "end": 7.348048511576626
                          }
                      ],
                      "empty": false
                  }
              ]
          }
      }

自動音声認識 (ASR)

ASR は、話し言葉の音声を書き起こされたテキストに変換します。このテンプレートは、ラベルの割り当てを伴う文字起こしをサポートしています。

  • ユースケース

    方言認識。

  • データ構造

    • 入力データ

      入力 .manifest ファイルの各行は、単一のオーディオファイルを表す JSON オブジェクトです。各オブジェクトには source フィールドを含める必要があります。

      {"data":{"source":"oss://example-bucket.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}}
      ...
    • 出力データ

      出力 .manifest ファイルの各行は、ソースオーディオファイルの場所とアノテーション結果を含む JSON オブジェクトです。

      {
          "data": {
              "source": "oss://example-bucket.oss-cn-hangzhou.aliyuncs.com/audio/14.wav"
          },
          "label-1435448359497441280": {
              "results": [
                  {
                      "questionId": "1",
                      "data": "This is the transcribed content.",
                      "markTitle": "Audio recognition result",
                      "type": "survey/value"
                  },
                  {
                      "questionId": "3",
                      "data": [
                          "Label 1",
                          "Label 2"
                      ],
                      "markTitle": "multiple-choice",
                      "type": "survey/multivalue"
                  }
              ]
          }
      }