Untuk membuat pekerjaan pelabelan, Anda harus memilih sebuah dataset. Topik ini menjelaskan cara membuat dataset untuk pelabelan data serta format data yang diperlukan.
Informasi latar belakang
Sebelum melabeli data di iTAG, Anda harus membuat dataset dari file yang ingin dilabeli. PAI memungkinkan Anda membuat pekerjaan pelabelan menggunakan templat umum atau templat kustom. Metode persiapan data dan pembuatan dataset berbeda tergantung pada templat yang dipilih. Untuk informasi lebih lanjut, lihat bagian berikut:
Templat umum
Templat umum tersedia untuk empat tipe data: gambar, teks, video, atau audio. Untuk langkah-langkah dan persyaratan format dalam membuat dataset tersebut, lihat Buat dataset teks dan Buat dataset gambar, video, atau audio.
Templat kustom
Templat kustom memberikan fleksibilitas lebih tinggi. Misalnya, Anda dapat melabeli beberapa tipe data, seperti gambar dan teks, dalam satu pekerjaan pelabelan. Untuk langkah-langkah dan persyaratan format dalam membuat dataset untuk kasus penggunaan ini, lihat Buat dataset kustom.
Buat dataset teks
Item | Metode 1: Dari layanan cloud | Metode 2: Unggah lokal |
Prosedur | Buat file lokal .manifest atau .txt sesuai dengan persyaratan format dalam topik ini. Unggah file tersebut ke OSS. Untuk informasi lebih lanjut, lihat Unggah file. Buat dataset dari layanan cloud. Untuk informasi lebih lanjut, lihat Buat dataset: Dari layanan cloud Alibaba Cloud.
| Buat file lokal .csv atau .xlsx sesuai dengan persyaratan format dalam topik ini. Buka iTAG. Login ke Konsol PAI. Di panel navigasi sebelah kiri, klik Workspaces. Di halaman Workspaces, klik nama ruang kerja yang dituju. Di panel navigasi sebelah kiri, pilih Data Preparation>iTAG.
Di halaman iTAG, klik Go to Task Center atau Go to Management Page. Di tab Data Management, klik Create Original Dataset. Di halaman Create Original Dataset, konfigurasikan parameter utama berikut: Untuk Import Data, pilih Local Upload. Untuk Import Format, pilih File. Konfigurasikan OSS Bucket dan File Path in OSS. Klik Upload file dan pilih file .csv atau .xlsx yang telah Anda buat.
Klik Create.
|
Ekstensi nama file | File .manifest atau .txt. | File .csv atau .xlsx. |
Format file | {"data":{"source":"text sample 1"}}
{"data":{"source":"text sample 2"}}
{"data":{"source":"text sample 3"}}
Parameter source menentukan konten sampel yang akan dilabeli. Anda harus mengganti nilai source dengan konten teks yang sesuai. | Satu kolom dalam file .csv atau .xlsx berisi teks yang akan dilabeli. |
Contoh file | textDemo1.manifest | textDemo2.csv |
Buat dataset gambar, video, atau audio
Bagian ini menggunakan gambar sebagai contoh. Prosedurnya sama untuk file video dan audio.
Item | Metode 1: Pemindaian folder | Metode 2: Unggah lokal |
Prosedur | Unggah file gambar ke bucket OSS untuk menghasilkan URL-nya. Untuk informasi lebih lanjut, lihat Unggah file. Buat dataset dengan memindai folder, yang secara otomatis menghasilkan file .manifest. Untuk informasi lebih lanjut, lihat Buat dan kelola dataset.
| Buat folder lokal yang berisi gambar-gambar tersebut. Buka iTAG. Login ke Konsol PAI. Di panel navigasi sebelah kiri, klik Workspaces. Di halaman Workspaces, klik nama ruang kerja yang dituju. Di panel navigasi sebelah kiri, pilih Data Preparation>iTAG.
Di halaman iTAG, klik Go to Task Center atau Go to Management Page. Di tab Data Management, klik Create Original Dataset. Di panel Create Original Dataset, konfigurasikan parameter berikut: Untuk Import Data, pilih Local Upload. Untuk Import Format, pilih Folder. Konfigurasikan OSS bucket dan File Path in OSS. Klik Upload Folder dan unggah folder lokal tersebut.
Klik Create.
|
Format file | {"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/1.jpg"}}
{"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/10.jpg"}}
{"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/11.jpg"}}
Di sini, source menentukan konten sampel yang akan dianotasi, dan nilai source adalah URL jalur penyimpanan OSS dari sampel yang sesuai. |
Contoh file | |
Buat dataset kustom
Item | Dari layanan cloud |
Prosedur | Buat file lokal .manifest atau .txt sesuai dengan persyaratan format dalam topik ini. Unggah file tersebut ke OSS. Untuk informasi lebih lanjut, lihat Unggah file. Buat dataset dari layanan cloud. Untuk informasi lebih lanjut, lihat Buat dan kelola dataset.
|
Ekstensi nama file | File .manifest atau .txt. |
Format file | {"data":{"picture_url":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/1.jpg","text":"Jack Ma dan 17 pendiri lainnya mendirikan Alibaba Group di sebuah apartemen di Hangzhou. Situs web pertama grup tersebut adalah Alibaba.com, sebuah pasar grosir global berbahasa Inggris."}}
{"data":{"picture_url":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/10.jpg","text":"Alibaba Group mengadakan West Lake Summit pertama, mengumpulkan para pemimpin bisnis dan pemikir dari industri internet untuk membahas topik-topik penting."}}
{"data":{"picture_url":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/11.jpg","text":"Alibaba Group mengumpulkan USD 82 juta dari beberapa firma investasi terkemuka, yang merupakan pendanaan ekuitas swasta terbesar di industri internet Tiongkok pada saat itu."}}
Objek "data" pada setiap baris merepresentasikan item data yang akan dilabeli. Objek ini dapat berisi beberapa pasangan kunci-nilai, sehingga memungkinkan Anda menyertakan berbagai tipe data, seperti gambar dan teks, dalam satu pekerjaan pelabelan. Sebagai contoh, baris berikut mendefinisikan item data yang mencakup gambar dengan jalur penyimpanan oss://****.oss url 01 dan teks text sample1. {"data":{"picture_url":"oss://****.oss url 01","text":"text sample1"}}
|
Contoh file | multiModal.manifest |
Langkah selanjutnya
Anda dapat menggunakan dataset yang telah dibuat untuk membuat pekerjaan pelabelan. Untuk informasi lebih lanjut, lihat Buat pekerjaan pelabelan.