すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:イメージラベリングデータ形式

最終更新日:Mar 07, 2026

iTAG は、イメージ光学文字認識 (OCR)、オブジェクト検出、およびイメージ分類用のアノテーションテンプレートを提供します。アノテーションタスクを作成する際は、ご利用のアプリケーションシナリオに対応するテンプレートを選択します。本トピックでは、これらのテンプレートのアプリケーションシナリオとデータ構造について説明します。

背景情報

本トピックでは、以下のイメージアノテーションテンプレートのデータ構造について説明します。

イメージ OCR

OCR タスクは、まず入力イメージからテキストを抽出します。次に、抽出されたテキストのカテゴリに基づいてイメージをグループ化します。

  • シナリオ

    シナリオには、証明書、チケット、ナンバープレート、銀行カードの認識などが含まれます。

  • データ構造

    • 入力データ

      [マニフェスト] ファイルの各行にはオブジェクトが含まれます。各行には [ソース] フィールドが含まれている必要があります。

      {"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/demo_test/ocr_pic/img6.jpeg"}}
      ...
    • 出力

      [マニフェスト] ファイルの各行は、オブジェクトとそのアノテーション結果から生成されます。以下のコードは、各行の JSON 構造を示しています。

      {
          "data": {
              "source": "oss://****.oss-cn-hangzhou.aliyuncs.com/demo_test/ocr_pic/img6.jpeg"
          }, 
          "label-144863699223676****": {
              "results": [
                  {
                      "questionId": "1", 
                      "data": [
                          {
                              "id": "ecdb7552-2a4e-4d0e-8abb-0f1a2dc0****", 
                              "type": "image/polygon", 
                              "value": [
                                  [
                                      368.1112214498511, 
                                      71.72740814299901
                                  ], 
                                  [
                                      444.34359483614696, 
                                      71.72740814299901
                                  ], 
                                  [
                                      444.34359483614696, 
                                      106.26762661370405
                                  ], 
                                  [
                                      368.1112214498511, 
                                      106.26762661370405
                                  ]
                              ], 
                              "labels": {
                                  "OCR result": "Financial consultant", 
                                  "Single-choice": "Label 1"
                              }
                          }
                      ], 
                      "rotation": 0, 
                      "markTitle": "OCR label configuration", 
                      "width": 1024, 
                      "type": "image", 
                      "height": 1024
                  }
              ]
          }
      }

オブジェクト検出

オブジェクト検出アノテーションタスクは、イメージ内の特定のオブジェクトを特定します。このタスクには、長方形ボックスツールが一般的に使用されます。

  • シナリオ

    シナリオには、車両検出、歩行者検出、イメージ検索などが含まれます。

  • データ構造

    • 入力データ

      [マニフェスト] ファイルの各行にはオブジェクトが含まれます。各行には [ソース] フィールドが含まれている必要があります。

      {"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/pic_ocr/img17.jpeg"}}
      ...
    • 出力

      [マニフェスト] ファイルの各行は、オブジェクトとそのアノテーション結果から生成されます。以下のコードは、各行の JSON 構造を示しています。

      {
          "data": {
              "source": "oss://****.oss-cn-hangzhou.aliyuncs.com/pic_ocr/img17.jpeg"
          }, 
          "label-144853549785619****": {
              "results": [
                  {
                      "questionId": "1", 
                      "data": [
                          {
                              "id": "e02a574b-9fd9-45e9-8c8a-9682567b****", 
                              "type": "image/polygon", 
                              "value": [
                                  [
                                      499.93454545454546, 
                                      255.0981818181818
                                  ], 
                                  [
                                      911.0109090909091, 
                                      255.0981818181818
                                  ], 
                                  [
                                      911.0109090909091, 
                                      338.6836363636363
                                  ], 
                                  [
                                      499.93454545454546, 
                                      338.6836363636363
                                  ]
                              ], 
                              "labels": {
                                  "Single-choice": "Label 1"
                              }
                          }
                      ], 
                      "rotation": 0, 
                      "markTitle": "Object detection label configuration", 
                      "width": 1024, 
                      "type": "image", 
                      "height": 1024
                  }
              ]
          }
      }

イメージ分類

イメージ分類は、事前定義されたセットから1つ以上のラベルをイメージに割り当てるプロセスです。このテンプレートは、シングルラベル分類とマルチラベル分類の両方をサポートしています。

  • シナリオ

    シナリオには、イメージ分類、画像認識、イメージ検索、コンテンツレコメンデーションなどが含まれます。

  • データ構造

    • 入力データ

      [マニフェスト] ファイルの各行にはオブジェクトが含まれます。各行には [ソース] フィールドが含まれている必要があります。

      {"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/1.jpg"}}
      ...
    • 出力

      [マニフェスト] ファイルの各行は、オブジェクトとそのアノテーション結果から生成されます。以下のコードは、各行の JSON 構造を示しています。

      {
          "data": {
              "source": "oss://****.oss-cn-hangzhou.aliyuncs.com/pic/3.jpg"
          }, 
          "label-143082452899667****": {
              "results": [
                  {
                      "questionId": "2", 
                      "data": [
                          "Label 1", 
                          "Label 2"
                      ], 
                      "markTitle": "Multiple-choice", 
                      "type": "survey/multivalue"
                  }
              ]
          }
      }