DataWorks menyediakan sumber data dataset publik bawaan yang siap digunakan, memungkinkan Anda menguji sinkronisasi data offline untuk satu tabel secara cepat tanpa perlu konfigurasi tambahan. Topik ini menjelaskan kemampuan sinkronisasi data yang didukung DataWorks untuk dataset publik.
Dataset dan wilayah yang didukung
Untuk daftar dataset publik yang didukung beserta detailnya, lihat kategori Alibaba Cloud Marketplace Datasets di DataWorks Gallery. Anda harus berlangganan dataset terlebih dahulu sebelum dapat menggunakannya dalam task sinkronisasi.
Sumber data dataset publik tersedia di wilayah-wilayah berikut:
Beijing, Shanghai, Hangzhou, Shenzhen, Zhangjiakou, Chengdu, Ulanqab, Tiongkok (Hong Kong), Jepang (Tokyo), Singapura, Malaysia (Kuala Lumpur), Indonesia (Jakarta), Jerman (Frankfurt), Inggris (London), AS (Silicon Valley), dan AS (Virginia).
Kembangkan task sinkronisasi data
Untuk titik masuk konfigurasi dan proses konfigurasi umum task sinkronisasi data, lihat panduan berikut.
Konfigurasikan task sinkronisasi offline satu tabel
Untuk prosedurnya, lihat Konfigurasikan di Antarmuka tanpa kode dan Konfigurasikan di editor kode.
Untuk semua parameter dan contoh skrip konfigurasi task di editor kode, lihat Lampiran: Contoh skrip dan deskripsi parameter.
Lampiran: Contoh skrip dan deskripsi parameter
Konfigurasikan skrip task offline
Jika Anda menggunakan editor kode untuk mengonfigurasi task offline, Anda harus menulis parameter dalam skrip sesuai format standar. Untuk informasi selengkapnya, lihat Konfigurasikan di editor kode. Bagian berikut menjelaskan parameter sumber data untuk editor kode.
Contoh skrip Reader
{
"type": "job",
"version": "2.0",
"steps": [
{
"stepType": "public_dataset",
"parameter": {
"datasource": "Curated Book Dataset",
"column": [
"bookid",
"title",
"authors",
"average_rating",
"isbn",
"isbn13",
"language_code",
"__num_pages",
"ratings_count",
"text_reviews_count",
"publication_date",
"publisher"
],
"table": "good_reads_books"
},
"name": "Reader",
"category": "reader"
},
{
"stepType": "stream",
"parameter": {
"print": true
},
"name": "Writer",
"category": "writer"
}
],
"setting": {
"errorLimit": {
"record": "0"
},
"locale": "zh_CN",
"speed": {
"concurrent": 2,
"throttle": false
}
}
}Parameter skrip Reader
Parameter | Description | Required | Default value |
datasource | Nama dataset publik. Contoh: Curated Book Dataset. | Yes | None |
table | Nama tabel yang akan disinkronkan. Temukan nama tabel tersebut di detail dataset. | Yes | None |
column | Bidang yang akan dibaca dari tabel dataset publik. Pisahkan bidang dengan koma. Contoh: "column": ["id", "name", "age"]. | Yes | None |