全部产品
Search
文档中心

DataWorks:Sumber data dataset publik

更新时间:Dec 09, 2025

DataWorks menyediakan sumber data dataset publik bawaan yang siap digunakan, memungkinkan Anda menguji sinkronisasi data offline untuk satu tabel secara cepat tanpa perlu konfigurasi tambahan. Topik ini menjelaskan kemampuan sinkronisasi data yang didukung DataWorks untuk dataset publik.

Dataset dan wilayah yang didukung

  • Untuk daftar dataset publik yang didukung beserta detailnya, lihat kategori Alibaba Cloud Marketplace Datasets di DataWorks Gallery. Anda harus berlangganan dataset terlebih dahulu sebelum dapat menggunakannya dalam task sinkronisasi.

  • Sumber data dataset publik tersedia di wilayah-wilayah berikut:

    Beijing, Shanghai, Hangzhou, Shenzhen, Zhangjiakou, Chengdu, Ulanqab, Tiongkok (Hong Kong), Jepang (Tokyo), Singapura, Malaysia (Kuala Lumpur), Indonesia (Jakarta), Jerman (Frankfurt), Inggris (London), AS (Silicon Valley), dan AS (Virginia).

Kembangkan task sinkronisasi data

Untuk titik masuk konfigurasi dan proses konfigurasi umum task sinkronisasi data, lihat panduan berikut.

Konfigurasikan task sinkronisasi offline satu tabel

Lampiran: Contoh skrip dan deskripsi parameter

Konfigurasikan skrip task offline

Jika Anda menggunakan editor kode untuk mengonfigurasi task offline, Anda harus menulis parameter dalam skrip sesuai format standar. Untuk informasi selengkapnya, lihat Konfigurasikan di editor kode. Bagian berikut menjelaskan parameter sumber data untuk editor kode.

Contoh skrip Reader

{
    "type": "job",
    "version": "2.0",
    "steps": [
        {
            "stepType": "public_dataset",
            "parameter": {
                "datasource": "Curated Book Dataset",
                "column": [
                    "bookid",
                    "title",
                    "authors",
                    "average_rating",
                    "isbn",
                    "isbn13",
                    "language_code",
                    "__num_pages",
                    "ratings_count",
                    "text_reviews_count",
                    "publication_date",
                    "publisher"
                ],
                "table": "good_reads_books"
            },
            "name": "Reader",
            "category": "reader"
        },
        {
            "stepType": "stream",
            "parameter": {
                "print": true
            },
            "name": "Writer",
            "category": "writer"
        }
    ],
    "setting": {
        "errorLimit": {
            "record": "0"
        },
        "locale": "zh_CN",
        "speed": {
            "concurrent": 2,
            "throttle": false
        }
    }
}

Parameter skrip Reader

Parameter

Description

Required

Default value

datasource

Nama dataset publik. Contoh: Curated Book Dataset.

Yes

None

table

Nama tabel yang akan disinkronkan. Temukan nama tabel tersebut di detail dataset.

Yes

None

column

Bidang yang akan dibaca dari tabel dataset publik. Pisahkan bidang dengan koma. Contoh: "column": ["id", "name", "age"].

Yes

None