iTAG menyediakan templat anotasi untuk Optical Character Recognition (OCR) gambar, deteksi objek, dan klasifikasi gambar. Saat membuat tugas anotasi, pilih templat yang sesuai dengan skenario aplikasi Anda. Topik ini menjelaskan skenario aplikasi dan struktur data untuk templat tersebut.
Informasi latar belakang
Topik ini menjelaskan struktur data untuk templat anotasi gambar berikut:
OCR Gambar
Tugas OCR mengekstraksi teks dari gambar input, lalu mengelompokkan gambar berdasarkan kategori teks yang diekstraksi.
-
Skenario
Skenario mencakup pengenalan Sertifikat, Tiket, plat nomor kendaraan, dan kartu bank.
-
Struktur Data
-
Data Input
Setiap baris dalam file manifest berisi sebuah objek. Setiap baris harus memuat bidang source.
{"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/demo_test/ocr_pic/img6.jpeg"}} ... -
Output
Setiap baris dalam file manifest dihasilkan dari objek dan hasil anotasinya. Kode berikut menunjukkan struktur JSON untuk setiap baris.
{ "data": { "source": "oss://****.oss-cn-hangzhou.aliyuncs.com/demo_test/ocr_pic/img6.jpeg" }, "label-144863699223676****": { "results": [ { "questionId": "1", "data": [ { "id": "ecdb7552-2a4e-4d0e-8abb-0f1a2dc0****", "type": "image/polygon", "value": [ [ 368.1112214498511, 71.72740814299901 ], [ 444.34359483614696, 71.72740814299901 ], [ 444.34359483614696, 106.26762661370405 ], [ 368.1112214498511, 106.26762661370405 ] ], "labels": { "OCR result": "Financial consultant", "Single-choice": "Label 1" } } ], "rotation": 0, "markTitle": "OCR label configuration", "width": 1024, "type": "image", "height": 1024 } ] } }
-
Deteksi objek
Tugas anotasi deteksi objek menentukan lokasi objek tertentu dalam gambar. Alat kotak persegi panjang umumnya digunakan untuk tugas ini.
-
Skenario
Skenario mencakup deteksi kendaraan, deteksi pejalan kaki, dan image search.
-
Struktur Data
-
Data Input
Setiap baris dalam file manifest berisi sebuah objek. Setiap baris harus memuat bidang source.
{"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/pic_ocr/img17.jpeg"}} ... -
Output
Setiap baris dalam file manifest dihasilkan dari objek dan hasil anotasinya. Kode berikut menunjukkan struktur JSON untuk setiap baris.
{ "data": { "source": "oss://****.oss-cn-hangzhou.aliyuncs.com/pic_ocr/img17.jpeg" }, "label-144853549785619****": { "results": [ { "questionId": "1", "data": [ { "id": "e02a574b-9fd9-45e9-8c8a-9682567b****", "type": "image/polygon", "value": [ [ 499.93454545454546, 255.0981818181818 ], [ 911.0109090909091, 255.0981818181818 ], [ 911.0109090909091, 338.6836363636363 ], [ 499.93454545454546, 338.6836363636363 ] ], "labels": { "Single-choice": "Label 1" } } ], "rotation": 0, "markTitle": "Object detection label configuration", "width": 1024, "type": "image", "height": 1024 } ] } }
-
Klasifikasi gambar
Klasifikasi gambar adalah proses memberikan satu atau beberapa Label dari kumpulan yang telah ditentukan ke sebuah gambar. Templat ini mendukung klasifikasi single-label maupun multi-label.
-
Skenario
Skenario mencakup klasifikasi gambar, pengenalan gambar, image search, dan rekomendasi konten.
-
Struktur Data
-
Data Input
Setiap baris dalam file manifest berisi sebuah objek. Setiap baris harus memuat bidang source.
{"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/1.jpg"}} ... -
Output
Setiap baris dalam file manifest dihasilkan dari objek dan hasil anotasinya. Kode berikut menunjukkan struktur JSON untuk setiap baris.
{ "data": { "source": "oss://****.oss-cn-hangzhou.aliyuncs.com/pic/3.jpg" }, "label-143082452899667****": { "results": [ { "questionId": "2", "data": [ "Label 1", "Label 2" ], "markTitle": "Multiple-choice", "type": "survey/multivalue" } ] } }
-