全部产品
Search
文档中心

Platform For AI:Buat dataset untuk pekerjaan pemberian label

更新时间:Jul 02, 2025

Saat membuat pekerjaan pemberian label, Anda harus memilih dataset. Topik ini menjelaskan cara membuat dataset untuk pekerjaan pemberian label dan persyaratan format yang berlaku.

Informasi latar belakang

Sebelum membuat pekerjaan pemberian label menggunakan iTAG, Anda perlu menyiapkan file yang akan dilabel sebagai dataset. iTAG dari Platform for AI (PAI) memungkinkan Anda membuat pekerjaan pemberian label menggunakan common template atau custom template. Persiapan data dan metode pembuatan dataset bervariasi tergantung pada template yang digunakan.

  • Template Umum

    iTAG menyediakan jenis template umum berikut: gambar, teks, video, dan audio. Untuk informasi lebih lanjut tentang cara membuat dataset untuk pekerjaan pemberian label yang menggunakan template umum dan persyaratan formatnya, lihat Buat Dataset Teks dan Buat Dataset Gambar, Dataset Video, atau Dataset Audio.

  • Template Kustom

    Template kustom membantu Anda melabel data secara fleksibel. Misalnya, Anda dapat melabel beberapa jenis sampel seperti gambar dan teks dalam satu pekerjaan pemberian label. Untuk informasi lebih lanjut tentang cara membuat dataset untuk pekerjaan pemberian label yang menggunakan template kustom dan persyaratan formatnya, lihat Buat Dataset Kustom.

Prasyarat

Object Storage Service (OSS) telah diaktifkan. Untuk informasi lebih lanjut, lihat Mulai Menggunakan Konsol OSS.

Buat dataset teks

Item

Metode 1: Gunakan Data yang Disimpan di Layanan Penyimpanan Alibaba Cloud

Metode 2: Unggah Data dari Mesin Lokal

Prosedur

  1. Buat file .manifest atau .txt di mesin lokal Anda sesuai dengan persyaratan format file.

  2. Unggah file .manifest atau .txt yang telah dibuat ke OSS. Untuk informasi lebih lanjut, lihat Unggah Sederhana.

  3. Buat dataset berdasarkan data yang disimpan di layanan penyimpanan Alibaba Cloud. Untuk informasi lebih lanjut, lihat Buat Dataset Berdasarkan Data yang Disimpan di Layanan Penyimpanan Alibaba Cloud.

  1. Buat file .csv atau .xlsx di mesin lokal Anda sesuai dengan persyaratan format file.

  2. Pergi ke halaman iTAG.

    1. Masuk ke konsol PAI.

    2. Di panel navigasi sebelah kiri, klik Workspaces. Di halaman Workspaces, klik nama workspace yang ingin Anda kelola.

    3. Di panel navigasi sebelah kiri halaman yang muncul, pilih Data Preparation>iTAG.

  3. Di halaman iTAG, klik Go to Task Center atau Go to Management Page.

  4. Di halaman yang muncul, klik tab Data Management. Di sudut kanan atas tab Manajemen Data, klik Create Original Dataset.

  5. Di kotak dialog Buat Dataset Asli, konfigurasikan parameter.

    • Pilih Local Upload untuk melakukan Import Data.

    • Pilih File untuk Import Format.

    • Konfigurasikan parameter OSS Bucket dan OSS File Path.

    • Klik Upload File dan pilih file .csv atau .xlsx yang telah dibuat.

  6. Klik Create.

Ekstensi Nama File

File .manifest atau .txt.

File .csv atau .xlsx.

Format File

{"data":{"source":"contoh teks 1"}}
{"data":{"source":"contoh teks 2"}}
{"data":{"source":"contoh teks 3"}}

source menunjukkan konten sampel yang ingin Anda label. Ganti nilai source dengan konten teks terkait yang ingin Anda label.

Kolom dalam file .csv atau .xlsx dapat berupa konten teks yang ingin Anda label atau URL gambar.

Demo File

textDemo1.manifest

textDemo2.csv

Buat dataset gambar, dataset video, atau dataset audio

Bagian ini menjelaskan cara membuat dataset gambar. Prosedur untuk membuat dataset video atau dataset audio sama dengan prosedur untuk membuat dataset gambar.

Item

Metode 1: Pindai folder

Metode 2: Unggah data dari mesin lokal

Prosedur

  1. Unggah file gambar yang ingin Anda label ke bucket OSS dan dapatkan path bucket OSS. Untuk informasi lebih lanjut, lihat Unggah sederhana.

  2. Buat dataset dengan memindai folder. File .manifest akan dibuat secara otomatis. Untuk informasi lebih lanjut, lihat Buat dan kelola dataset.

  1. Buat folder yang berisi file gambar di mesin lokal Anda.

  2. Pergi ke halaman iTAG.

    1. Masuk ke konsol PAI.

    2. Di panel navigasi di sebelah kiri, klik Workspaces. Di halaman Workspaces, klik nama workspace yang ingin Anda kelola.

    3. Di panel navigasi di sebelah kiri halaman yang muncul, pilih Data Preparation>iTAG.

  3. Di halaman iTAG, klik Go to Task Center atau Go to Management Page.

  4. Di halaman yang muncul, klik tab Data Management. Di sudut kanan atas tab Manajemen Data, klik Create Original Dataset. Di kotak dialog Buat Dataset Asli, konfigurasikan parameter.

    • Pilih Local Upload untuk Import Data.

    • Pilih Folder untuk Import Format.

    • Konfigurasikan parameter OSS Bucket dan OSS File Path.

    • Klik Upload Folder untuk mengunggah folder yang Anda buat.

  5. Klik Create.

Konten file

{"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/1.jpg"}}
{"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/10.jpg"}}
{"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/11.jpg"}}

source menunjukkan konten sampel yang ingin Anda label. Anda harus mengganti nilai source dengan path bucket OSS.

Demo file

Buat dataset kustom

Item

Gunakan data yang disimpan di layanan penyimpanan Alibaba Cloud

Prosedur

  1. Buat file .manifest atau .txt di mesin lokal Anda berdasarkan persyaratan format file.

  2. Unggah file .manifest atau .txt yang Anda buat ke OSS. Untuk informasi lebih lanjut, lihat Unggah sederhana.

  3. Buat dataset berdasarkan data yang disimpan di layanan penyimpanan Alibaba Cloud. Untuk informasi lebih lanjut, lihat Buat dataset berdasarkan data yang disimpan di layanan penyimpanan Alibaba Cloud.

Ekstensi nama file

File .manifest atau .txt.

Format file

{"data":{"picture_url":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/1.jpg","text":"Jack Ma mendirikan Alibaba Group di sebuah apartemen di Hangzhou bersama 18 pendiri. Situs web pertama Alibaba Group adalah Alibaba.com, yang merupakan situs web berbahasa Inggris yang fokus pada pasar perdagangan grosir global."}}
{"data":{"picture_url":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/10.jpg","text":"Alibaba Group mengadakan Konferensi Keamanan Siber West Lake pertama. Selama konferensi, pemimpin komersial dan opini industri Internet berkumpul untuk membahas isu-isu besar industri."}}
{"data":{"picture_url":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/11.jpg","text":"Alibaba Group mengumpulkan USD 82 juta dari beberapa agen investasi. Acara ini menjadi pembiayaan ekuitas swasta terbesar di industri Internet China pada saat itu."}} 

"data" di awal setiap baris menunjukkan pekerjaan pemberian label. Beberapa jenis sampel dapat diperiksa dalam pekerjaan pemberian label. Nama sampel dipisahkan oleh koma (,).

Contoh kode berikut menunjukkan bahwa gambar dan teks diperiksa dalam pekerjaan pemberian label. Path penyimpanan contoh gambar adalah oss://****.oss url 01. Contoh teks adalah contoh teks1.

{"data":{"picture_url":"oss://****.oss url 01","text":"contoh teks1"}}

Demo file

multiModal.manifest

Apa yang harus dilakukan selanjutnya

Setelah membuat dataset, Anda dapat membuat pekerjaan pemberian label berdasarkan dataset tersebut. Untuk informasi lebih lanjut, lihat Buat Pekerjaan Pemberian Label.