DataWorks 內建了開箱即用的公用資料集資料來源,協助您零配置快速體驗單表離線資料同步。本文為您介紹DataWorks的公用資料集資料同步能力支援情況。
支援的資料集詳情及地區
支援的公用資料集列表以及資料集的詳情參見DataWorks Gallery雲市場資料集類別,資料集需訂閱後方可在同步任務中使用。
支援使用公用資料集資料來源的地區如下:
北京、上海、杭州、深圳、張家口、成都、烏蘭察布、中國香港、日本(東京)、新加坡、馬來西亞(吉隆坡)、印尼(雅加達)、德國(法蘭克福)、英國(倫敦)、美國(矽谷)、美國(維吉尼亞)。
資料同步任務開發
資料同步任務的配置入口和通用配置流程可參見下文的配置指導。
單表離線同步任務配置指導
指令碼模式配置的全量參數和指令碼Demo請參見下文的附錄:指令碼Demo與參數說明。
附錄:指令碼Demo與參數說明
離線任務指令碼配置方式
如果您配置離線任務時使用指令碼模式的方式進行配置,您需要按照統一的指令碼格式要求,在任務指令碼中編寫相應的參數,詳情請參見指令碼模式配置,以下為您介紹指令碼模式下資料來源的參數配置詳情。
Reader指令碼Demo
{
"type": "job",
"version": "2.0",
"steps": [
{
"stepType": "public_dataset",
"parameter": {
"datasource": "精心準備的圖書資料集",
"column": [
"bookid",
"title",
"authors",
"average_rating",
"isbn",
"isbn13",
"language_code",
"__num_pages",
"ratings_count",
"text_reviews_count",
"publication_date",
"publisher"
],
"table": "good_reads_books"
},
"name": "Reader",
"category": "reader"
},
{
"stepType": "stream",
"parameter": {
"print": true
},
"name": "Writer",
"category": "writer"
}
],
"setting": {
"errorLimit": {
"record": "0"
},
"locale": "zh_CN",
"speed": {
"concurrent": 2,
"throttle": false
}
}
}Reader指令碼參數
參數 | 描述 | 是否必選 | 預設值 |
datasource | 公用資料集名稱,例如:精心準備的圖書資料集。 | 是 | 無 |
table | 選取的需要同步的表名稱。表名可在資料集詳情中查看。 | 是 | 無 |
column | 需要讀取的公用資料集表欄位,欄位之間用英文逗號分隔。例如"column": ["id", "name", "age"]。 | 是 | 無 |