iTAG は、イメージ光学文字認識 (OCR)、オブジェクト検出、およびイメージ分類用のアノテーションテンプレートを提供します。アノテーションタスクを作成する際は、ご利用のアプリケーションシナリオに対応するテンプレートを選択します。本トピックでは、これらのテンプレートのアプリケーションシナリオとデータ構造について説明します。
背景情報
イメージ OCR
OCR タスクは、まず入力イメージからテキストを抽出します。次に、抽出されたテキストのカテゴリに基づいてイメージをグループ化します。
-
シナリオ
シナリオには、証明書、チケット、ナンバープレート、銀行カードの認識などが含まれます。
-
データ構造
-
入力データ
[マニフェスト] ファイルの各行にはオブジェクトが含まれます。各行には [ソース] フィールドが含まれている必要があります。
{"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/demo_test/ocr_pic/img6.jpeg"}} ... -
出力
[マニフェスト] ファイルの各行は、オブジェクトとそのアノテーション結果から生成されます。以下のコードは、各行の JSON 構造を示しています。
{ "data": { "source": "oss://****.oss-cn-hangzhou.aliyuncs.com/demo_test/ocr_pic/img6.jpeg" }, "label-144863699223676****": { "results": [ { "questionId": "1", "data": [ { "id": "ecdb7552-2a4e-4d0e-8abb-0f1a2dc0****", "type": "image/polygon", "value": [ [ 368.1112214498511, 71.72740814299901 ], [ 444.34359483614696, 71.72740814299901 ], [ 444.34359483614696, 106.26762661370405 ], [ 368.1112214498511, 106.26762661370405 ] ], "labels": { "OCR result": "Financial consultant", "Single-choice": "Label 1" } } ], "rotation": 0, "markTitle": "OCR label configuration", "width": 1024, "type": "image", "height": 1024 } ] } }
-
オブジェクト検出
オブジェクト検出アノテーションタスクは、イメージ内の特定のオブジェクトを特定します。このタスクには、長方形ボックスツールが一般的に使用されます。
-
シナリオ
シナリオには、車両検出、歩行者検出、イメージ検索などが含まれます。
-
データ構造
-
入力データ
[マニフェスト] ファイルの各行にはオブジェクトが含まれます。各行には [ソース] フィールドが含まれている必要があります。
{"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/pic_ocr/img17.jpeg"}} ... -
出力
[マニフェスト] ファイルの各行は、オブジェクトとそのアノテーション結果から生成されます。以下のコードは、各行の JSON 構造を示しています。
{ "data": { "source": "oss://****.oss-cn-hangzhou.aliyuncs.com/pic_ocr/img17.jpeg" }, "label-144853549785619****": { "results": [ { "questionId": "1", "data": [ { "id": "e02a574b-9fd9-45e9-8c8a-9682567b****", "type": "image/polygon", "value": [ [ 499.93454545454546, 255.0981818181818 ], [ 911.0109090909091, 255.0981818181818 ], [ 911.0109090909091, 338.6836363636363 ], [ 499.93454545454546, 338.6836363636363 ] ], "labels": { "Single-choice": "Label 1" } } ], "rotation": 0, "markTitle": "Object detection label configuration", "width": 1024, "type": "image", "height": 1024 } ] } }
-
イメージ分類
イメージ分類は、事前定義されたセットから1つ以上のラベルをイメージに割り当てるプロセスです。このテンプレートは、シングルラベル分類とマルチラベル分類の両方をサポートしています。
-
シナリオ
シナリオには、イメージ分類、画像認識、イメージ検索、コンテンツレコメンデーションなどが含まれます。
-
データ構造
-
入力データ
[マニフェスト] ファイルの各行にはオブジェクトが含まれます。各行には [ソース] フィールドが含まれている必要があります。
{"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/1.jpg"}} ... -
出力
[マニフェスト] ファイルの各行は、オブジェクトとそのアノテーション結果から生成されます。以下のコードは、各行の JSON 構造を示しています。
{ "data": { "source": "oss://****.oss-cn-hangzhou.aliyuncs.com/pic/3.jpg" }, "label-143082452899667****": { "results": [ { "questionId": "2", "data": [ "Label 1", "Label 2" ], "markTitle": "Multiple-choice", "type": "survey/multivalue" } ] } }
-