全部產品
Search
文件中心

DataWorks:公用資料集資料來源

更新時間:Dec 09, 2025

DataWorks 內建了開箱即用的公用資料集資料來源,協助您零配置快速體驗單表離線資料同步。本文為您介紹DataWorks的公用資料集資料同步能力支援情況。

支援的資料集詳情及地區

  • 支援的公用資料集列表以及資料集的詳情參見DataWorks Gallery雲市場資料集類別,資料集需訂閱後方可在同步任務中使用。

  • 支援使用公用資料集資料來源的地區如下:

    北京、上海、杭州、深圳、張家口、成都、烏蘭察布、中國香港、日本(東京)、新加坡、馬來西亞(吉隆坡)、印尼(雅加達)、德國(法蘭克福)、英國(倫敦)、美國(矽谷)、美國(維吉尼亞)。

資料同步任務開發

資料同步任務的配置入口和通用配置流程可參見下文的配置指導。

單表離線同步任務配置指導

附錄:指令碼Demo與參數說明

離線任務指令碼配置方式

如果您配置離線任務時使用指令碼模式的方式進行配置,您需要按照統一的指令碼格式要求,在任務指令碼中編寫相應的參數,詳情請參見指令碼模式配置,以下為您介紹指令碼模式下資料來源的參數配置詳情。

Reader指令碼Demo

{
    "type": "job",
    "version": "2.0",
    "steps": [
        {
            "stepType": "public_dataset",
            "parameter": {
                "datasource": "精心準備的圖書資料集",
                "column": [
                    "bookid",
                    "title",
                    "authors",
                    "average_rating",
                    "isbn",
                    "isbn13",
                    "language_code",
                    "__num_pages",
                    "ratings_count",
                    "text_reviews_count",
                    "publication_date",
                    "publisher"
                ],
                "table": "good_reads_books"
            },
            "name": "Reader",
            "category": "reader"
        },
        {
            "stepType": "stream",
            "parameter": {
                "print": true
            },
            "name": "Writer",
            "category": "writer"
        }
    ],
    "setting": {
        "errorLimit": {
            "record": "0"
        },
        "locale": "zh_CN",
        "speed": {
            "concurrent": 2,
            "throttle": false
        }
    }
}

Reader指令碼參數

參數

描述

是否必選

預設值

datasource

公用資料集名稱,例如:精心準備的圖書資料集。

table

選取的需要同步的表名稱。表名可在資料集詳情中查看。

column

需要讀取的公用資料集表欄位,欄位之間用英文逗號分隔。例如"column": ["id", "name", "age"]