Saat membuat pekerjaan pemberian label, Anda harus memilih dataset. Topik ini menjelaskan cara membuat dataset untuk pekerjaan pemberian label dan persyaratan format yang berlaku.
Informasi latar belakang
Sebelum membuat pekerjaan pemberian label menggunakan iTAG, Anda perlu menyiapkan file yang akan dilabel sebagai dataset. iTAG dari Platform for AI (PAI) memungkinkan Anda membuat pekerjaan pemberian label menggunakan common template atau custom template. Persiapan data dan metode pembuatan dataset bervariasi tergantung pada template yang digunakan.
Template Umum
iTAG menyediakan jenis template umum berikut: gambar, teks, video, dan audio. Untuk informasi lebih lanjut tentang cara membuat dataset untuk pekerjaan pemberian label yang menggunakan template umum dan persyaratan formatnya, lihat Buat Dataset Teks dan Buat Dataset Gambar, Dataset Video, atau Dataset Audio.
Template Kustom
Template kustom membantu Anda melabel data secara fleksibel. Misalnya, Anda dapat melabel beberapa jenis sampel seperti gambar dan teks dalam satu pekerjaan pemberian label. Untuk informasi lebih lanjut tentang cara membuat dataset untuk pekerjaan pemberian label yang menggunakan template kustom dan persyaratan formatnya, lihat Buat Dataset Kustom.
Buat dataset teks
Item | Metode 1: Gunakan Data yang Disimpan di Layanan Penyimpanan Alibaba Cloud | Metode 2: Unggah Data dari Mesin Lokal |
Prosedur | Buat file .manifest atau .txt di mesin lokal Anda sesuai dengan persyaratan format file. Unggah file .manifest atau .txt yang telah dibuat ke OSS. Untuk informasi lebih lanjut, lihat Unggah Sederhana. Buat dataset berdasarkan data yang disimpan di layanan penyimpanan Alibaba Cloud. Untuk informasi lebih lanjut, lihat Buat Dataset Berdasarkan Data yang Disimpan di Layanan Penyimpanan Alibaba Cloud.
| Buat file .csv atau .xlsx di mesin lokal Anda sesuai dengan persyaratan format file. Pergi ke halaman iTAG. Masuk ke konsol PAI. Di panel navigasi sebelah kiri, klik Workspaces. Di halaman Workspaces, klik nama workspace yang ingin Anda kelola. Di panel navigasi sebelah kiri halaman yang muncul, pilih Data Preparation>iTAG.
Di halaman iTAG, klik Go to Task Center atau Go to Management Page. Di halaman yang muncul, klik tab Data Management. Di sudut kanan atas tab Manajemen Data, klik Create Original Dataset. Di kotak dialog Buat Dataset Asli, konfigurasikan parameter. Pilih Local Upload untuk melakukan Import Data. Pilih File untuk Import Format. Konfigurasikan parameter OSS Bucket dan OSS File Path. Klik Upload File dan pilih file .csv atau .xlsx yang telah dibuat.
Klik Create.
|
Ekstensi Nama File | File .manifest atau .txt. | File .csv atau .xlsx. |
Format File | {"data":{"source":"contoh teks 1"}}
{"data":{"source":"contoh teks 2"}}
{"data":{"source":"contoh teks 3"}}
source menunjukkan konten sampel yang ingin Anda label. Ganti nilai source dengan konten teks terkait yang ingin Anda label.
| Kolom dalam file .csv atau .xlsx dapat berupa konten teks yang ingin Anda label atau URL gambar. |
Demo File | textDemo1.manifest | textDemo2.csv |
Buat dataset gambar, dataset video, atau dataset audio
Bagian ini menjelaskan cara membuat dataset gambar. Prosedur untuk membuat dataset video atau dataset audio sama dengan prosedur untuk membuat dataset gambar.
Item | Metode 1: Pindai folder | Metode 2: Unggah data dari mesin lokal |
Prosedur | Unggah file gambar yang ingin Anda label ke bucket OSS dan dapatkan path bucket OSS. Untuk informasi lebih lanjut, lihat Unggah sederhana. Buat dataset dengan memindai folder. File .manifest akan dibuat secara otomatis. Untuk informasi lebih lanjut, lihat Buat dan kelola dataset.
| Buat folder yang berisi file gambar di mesin lokal Anda. Pergi ke halaman iTAG. Masuk ke konsol PAI. Di panel navigasi di sebelah kiri, klik Workspaces. Di halaman Workspaces, klik nama workspace yang ingin Anda kelola. Di panel navigasi di sebelah kiri halaman yang muncul, pilih Data Preparation>iTAG.
Di halaman iTAG, klik Go to Task Center atau Go to Management Page. Di halaman yang muncul, klik tab Data Management. Di sudut kanan atas tab Manajemen Data, klik Create Original Dataset. Di kotak dialog Buat Dataset Asli, konfigurasikan parameter. Pilih Local Upload untuk Import Data. Pilih Folder untuk Import Format. Konfigurasikan parameter OSS Bucket dan OSS File Path. Klik Upload Folder untuk mengunggah folder yang Anda buat.
Klik Create.
|
Konten file | {"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/1.jpg"}}
{"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/10.jpg"}}
{"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/11.jpg"}}
source menunjukkan konten sampel yang ingin Anda label. Anda harus mengganti nilai source dengan path bucket OSS.
|
Demo file | |
Buat dataset kustom
Item | Gunakan data yang disimpan di layanan penyimpanan Alibaba Cloud |
Prosedur | Buat file .manifest atau .txt di mesin lokal Anda berdasarkan persyaratan format file. Unggah file .manifest atau .txt yang Anda buat ke OSS. Untuk informasi lebih lanjut, lihat Unggah sederhana. Buat dataset berdasarkan data yang disimpan di layanan penyimpanan Alibaba Cloud. Untuk informasi lebih lanjut, lihat Buat dataset berdasarkan data yang disimpan di layanan penyimpanan Alibaba Cloud.
|
Ekstensi nama file | File .manifest atau .txt. |
Format file | {"data":{"picture_url":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/1.jpg","text":"Jack Ma mendirikan Alibaba Group di sebuah apartemen di Hangzhou bersama 18 pendiri. Situs web pertama Alibaba Group adalah Alibaba.com, yang merupakan situs web berbahasa Inggris yang fokus pada pasar perdagangan grosir global."}}
{"data":{"picture_url":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/10.jpg","text":"Alibaba Group mengadakan Konferensi Keamanan Siber West Lake pertama. Selama konferensi, pemimpin komersial dan opini industri Internet berkumpul untuk membahas isu-isu besar industri."}}
{"data":{"picture_url":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/11.jpg","text":"Alibaba Group mengumpulkan USD 82 juta dari beberapa agen investasi. Acara ini menjadi pembiayaan ekuitas swasta terbesar di industri Internet China pada saat itu."}}
"data" di awal setiap baris menunjukkan pekerjaan pemberian label. Beberapa jenis sampel dapat diperiksa dalam pekerjaan pemberian label. Nama sampel dipisahkan oleh koma (,).
Contoh kode berikut menunjukkan bahwa gambar dan teks diperiksa dalam pekerjaan pemberian label. Path penyimpanan contoh gambar adalah oss://****.oss url 01. Contoh teks adalah contoh teks1. {"data":{"picture_url":"oss://****.oss url 01","text":"contoh teks1"}}
|
Demo file | multiModal.manifest |
Apa yang harus dilakukan selanjutnya
Setelah membuat dataset, Anda dapat membuat pekerjaan pemberian label berdasarkan dataset tersebut. Untuk informasi lebih lanjut, lihat Buat Pekerjaan Pemberian Label.