iTAG dari Machine Learning Platform for AI (PAI) menyediakan templat pelabelan untuk pengenalan karakter optik (OCR), deteksi objek, dan klasifikasi gambar. Saat membuat pekerjaan pelabelan gambar, Anda dapat memilih templat berdasarkan skenario bisnis Anda. Topik ini menjelaskan skenario templat pelabelan gambar serta struktur data input dan output untuk masing-masing templat.
Informasi latar belakang
iTAG menyediakan templat pelabelan gambar yang mendukung fitur-fitur berikut:
OCR
OCR digunakan untuk mengekstrak teks dari gambar input dan mengklasifikasikan gambar berdasarkan teks tersebut.
Skenario
Templat pelabelan ini cocok untuk skenario seperti pengenalan kartu identitas, tiket, plat nomor, dan kartu bank.
Struktur Data
Data Input
Setiap baris dalam file .manifest data input berisi sebuah objek. Setiap baris harus mencakup bidang source.
{"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/demo_test/ocr_pic/img6.jpeg"}} ...Data Output
Setiap baris dalam file .manifest data output berisi sebuah objek beserta hasil pelabelannya. Kode berikut menunjukkan contoh string JSON di setiap baris:
{ "data": { "source": "oss://****.oss-cn-hangzhou.aliyuncs.com/demo_test/ocr_pic/img6.jpeg" }, "label-144863699223676****": { "results": [ { "questionId": "1", "data": [ { "id": "ecdb7552-2a4e-4d0e-8abb-0f1a2dc0****", "type": "image/polygon", "value": [ [ 368.1112214498511, 71.72740814299901 ], [ 444.34359483614696, 71.72740814299901 ], [ 444.34359483614696, 106.26762661370405 ], [ 368.1112214498511, 106.26762661370405 ] ], "labels": { "OCR result": "Konsultan keuangan", "Single-choice": "Label 1" } } ], "rotation": 0, "markTitle": "Konfigurasi label untuk OCR", "width": 1024, "type": "image", "height": 1024 } ] } }
Deteksi objek
Deteksi objek digunakan untuk menemukan lokasi objek tertentu dalam gambar. Alat seleksi persegi panjang sering digunakan untuk tujuan ini.
Skenario
Templat pelabelan ini cocok untuk skenario seperti deteksi kendaraan, deteksi penumpang, dan pencarian gambar.
Struktur Data
Data Input
Setiap baris dalam file .manifest data input berisi sebuah objek. Setiap baris harus mencakup bidang source.
{"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/pic_ocr/img17.jpeg"}} ...Data Output
Setiap baris dalam file .manifest data output berisi sebuah objek beserta hasil pelabelannya. Kode berikut menunjukkan contoh string JSON di setiap baris:
{ "data": { "source": "oss://****.oss-cn-hangzhou.aliyuncs.com/pic_ocr/img17.jpeg" }, "label-144853549785619****": { "results": [ { "questionId": "1", "data": [ { "id": "e02a574b-9fd9-45e9-8c8a-9682567b****", "type": "image/polygon", "value": [ [ 499.93454545454546, 255.0981818181818 ], [ 911.0109090909091, 255.0981818181818 ], [ 911.0109090909091, 338.6836363636363 ], [ 499.93454545454546, 338.6836363636363 ] ], "labels": { "Single-choice": "Label 1" } } ], "rotation": 0, "markTitle": "Konfigurasi label untuk deteksi objek", "width": 1024, "type": "image", "height": 1024 } ] } }
Klasifikasi gambar
Klasifikasi gambar digunakan untuk menemukan satu atau lebih label yang sesuai dengan gambar input dari sekumpulan label dan menambahkan label-label tersebut ke gambar. Templat ini mendukung klasifikasi gambar dengan satu label maupun multi-label.
Skenario
Templat pelabelan ini cocok untuk skenario seperti klasifikasi gambar, pengenalan gambar, pencarian gambar, dan rekomendasi konten.
Struktur Data
Data Input
Setiap baris dalam file .manifest data input berisi sebuah objek. Setiap baris harus mencakup bidang source.
{"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/1.jpg"}} ...Data Output
Setiap baris dalam file .manifest data output berisi sebuah objek beserta hasil pelabelannya. Kode berikut menunjukkan contoh string JSON di setiap baris:
{ "data": { "source": "oss://****.oss-cn-hangzhou.aliyuncs.com/pic/3.jpg" }, "label-143082452899667****": { "results": [ { "questionId": "2", "data": [ "Label 1", "Label 2" ], "markTitle": "Pilihan ganda", "type": "survey/multivalue" } ] } }