全部產品
Search
文件中心

DataWorks:節點開發

更新時間:Dec 04, 2025

DataWorks的Data Studio模組提供多種節點以滿足不同資料處理需求:Data Integration節點用於同步,引擎計算節點(如MaxCompute SQL、Hologres SQL、EMR Hive)用於資料清洗,通用節點(如虛擬節點和do-while迴圈節點)用於複雜邏輯處理。各節點協同工作,有效應對各種資料處理挑戰。

支援的節點類型

以下為周期調度支援的節點類型,手動任務或手動商務程序支援的節點類型可能存在差異,請以實際介面為準。

說明

各節點在不同版本、不同地區支援情況存在差異,實際請以介面為準。

節點類型

節點名稱

節點說明

節點編碼

TaskType

Data Integration

離線同步

用於離線(批量)資料周期性同步情境,並且支援複雜情境下多種異構資料來源間資料同步。

離線同步支援的資料來源詳情,請參見支援的資料來源及同步方案

23

DI

即時同步

DataWorks提供的即時資料同步功能,支援您通過單表或整庫方式,將來源資料庫的資料變化即時同步到目標資料庫,確保兩者資料一致。

即時同步支援的資料來源詳情,請參見支援的資料來源及同步方案

900

RI

Notebook

Notebook

Notebook提供了一個互動式且靈活的資料處理與分析平台,它通過增強直觀性、模組化及互動體驗,使資料處理、探索、可視化和模型構建變得更加高效便捷。

1323

NOTEBOOK

MaxCompute

MaxCompute SQL

支援周期性調度MaxCompute的SQL任務。MaxCompute SQL任務採用類似SQL的文法,適用于海量資料(TB級)但即時性要求不高的分散式處理情境。

10

ODPS_SQL

SQL組件

SQL組件是一種包含多輸入輸出參數的SQL代碼模板,能夠通過過濾、串連和彙總資料來源表來處理資料並產生結果表。在資料開發過程中,可以建立SQL元件節點,利用這些預定義組件快速搭建資料處理流程,從而顯著提升開發效率。

1010

COMPONENT_SQL

MaxCompute Script

可以將多條SQL語句整合成一個指令碼進行整體編譯和執行,這非常適合處理複雜的查詢情境,如嵌套子查詢或需要分步操作的情況。通過一次性提交整個指令碼並產生統一的執行計畫,作業僅需排隊和執行一次,從而更加高效地利用資源。

24

ODPS_SQL_SCRIPT

PyODPS 2

通過整合MaxCompute的Python SDK,能夠在PyODPS 2節點上直接編寫和編輯Python代碼,從而便捷地進行MaxCompute的資料處理與分析任務。

221

PY_ODPS

PyODPS 3

通過PyODPS 3節點,可以直接使用Python代碼編寫MaxCompute作業,並配置這些作業進行周期性調度。

1221

PYODPS3

MaxCompute Spark

在DataWorks平台上,支援運行基於MaxCompute的Spark離線作業(Cluster模式)。

225

ODPS_SPARK

MaxCompute MR

通過建立MaxCompute MR類型節點並提交任務調度,可以使用MapReduce Java API編寫MapReduce程式來處理MaxCompute中的大規模資料集。

11

ODPS_MR

中繼資料映射至Hologres

當您在Hologres需要加速查詢MaxCompute資料時,可以使用資料目錄的MaxCompute中繼資料映射功能,將MaxCompute表中繼資料映射至Hologres,通過Hologres外表實現對MaxCompute資料的加速查詢。

-

-

資料同步至Hologres

支援將MaxCompute單表資料同步至Hologres,助力高效巨量資料分析與即時查詢。

-

-

Hologres

Hologres SQL

Hologres SQL節點不僅支援查詢Hologres執行個體中的資料,而且Hologres與MaxCompute在底層實現了無縫串連,使您無需遷移資料,即可通過Hologres SQL節點直接使用標準的PostgreSQL語句來查詢和分析MaxCompute中的大規模資料,從而快速獲得查詢結果。

1093

HOLOGRES_SQL

資料同步至MaxCompute

支援將Hologres單表資料移轉至MaxCompute。

1070

HOLOGRES_SYNC_DATA_TO_MC

一鍵MaxCompute表結構同步

提供的一鍵匯入表結構功能,能夠快速大量建立與MaxCompute表結構一致的Hologres外部表格。

1094

HOLOGRES_SYNC_DDL

一鍵MaxCompute資料同步

提供了一鍵MaxCompute資料同步節點功能,能夠快速完成從MaxCompute到Hologres資料庫的資料同步。

1095

HOLOGRES_SYNC_DATA

Serverless Spark

Serverless Spark Batch

基於Serverless Spark的Spark節點,適用於大規模資料處理。

2100

SERVERLESS_SPARK_BATCH

Serverless Spark SQL

基於Serverless Spark的SQL查詢節點,支援標準SQL文法,提供高效能資料分析能力。

2101

SERVERLESS_SPARK_SQL

Serverless Kyuubi節點

通過Kyuubi JDBC/ODBC介面串連Serverless Spark,提供多租戶Spark SQL服務。

2103

SERVERLESS_KYUUBI

Severless StarRocks

Serverless StarRocks SQL

基於EMR Serverless StarRocks的SQL節點,相容開源StarRocks的SQL文法,提供極速OLAP查詢分析、LakeHouse湖倉查詢分析。

2104

SERVERLESS_STARROCKS

大模型

大模型節點

內建強大的資料處理與分析挖掘引擎,支援根據您的自然語言指令,智能完成資料清洗與挖掘。

2200

LLM_NODE

Flink

Flink SQL Streaming

支援使用標準SQL語句定義即時任務處理邏輯。它具有易用性、豐富的SQL支援、強大的狀態管理及容錯能力,相容事件時間和處理時間,並可靈活擴充。該節點易於與Kafka、HDFS等系統整合,提供詳盡的日誌和效能監控工具。

2012

FLINK_SQL_STREAM

Flink SQL Batch

能夠使用標準SQL語句定義和執行資料處理任務,適用於巨量資料集的分析與轉換,包括資料清洗和彙總。該節點支援可視化配置,提供高效且靈活的大規模資料批處理方案。

2011

FLINK_SQL_BATCH

EMR

EMR Hive

可以使用類SQL語句讀取、寫入和管理巨量資料集,從而高效地完成海量日誌資料的分析和開發工作。

227

EMR_HIVE

EMR Impala

PB級巨量資料的快速、即時互動式SQL查詢引擎。

260

EMR_IMPALA

EMR MR

可以將大規模資料集分解為多個平行處理的Map任務,從而顯著提高資料處理效率。

230

EMR_MR

EMR Presto

靈活、可擴充的分布式SQL查詢引擎,支援使用標準的SQL查詢語言進行巨量資料的互動式分析查詢。

259

EMR_PRESTO

EMR Shell

可以編輯自訂Shell指令碼,對資料處理、調用Hadoop組件、操作檔案等進階功能進行使用。

257

EMR_SHELL

EMR Spark

是一個通用的巨量資料分析引擎,以其高效能、易用性和廣泛的適用性而著稱。它支援複雜的記憶體計算,非常適合構建大規模且低延遲的資料分析應用。

228

EMR_SPARK

EMR Spark SQL

實現分布式SQL查詢引擎處理結構化資料,提高作業的執行效率。

229

EMR_SPARK_SQL

EMR Spark Streaming

用於處理高輸送量的即時資料流資料,並具備容錯機制,可以快速恢複出錯的資料流。

264

EMR_SPARK_STREAMING

EMR Trino

分布式SQL查詢引擎,適用於多資料來源互動式分析查詢。

267

EMR_TRINO

EMR Kyuubi

分布式和多租戶網關,為資料湖查詢引擎(例如Spark、Flink或Trino等)提供SQL等查詢服務。

268

EMR_KYUUBI

ADB

ADB for PostgreSQL

可進行AnalyticDB for PostgreSQL任務的開發和周期性調度。

1000090

-

ADB for MySQL

可進行AnalyticDB for MySQL任務的開發和周期性調度。

1000126

-

ADB Spark

可進行AnalyticDB Spark任務的開發和周期性調度。

1990

ADB_SPARK

ADB Spark SQL

可進行AnalyticDB Spark SQL任務的開發和周期性調度。

1991

ADB_SPARK_SQL

CDH

CDH Hive

已部署CDH叢集並希望藉助DataWorks執行Hive任務。

270

CDH_HIVE

CDH Spark

通用的巨量資料分析引擎,具有高效能、易用和普遍性等特點,可用於進行複雜的記憶體分析,構建大型、低延遲的資料分析應用。

271

CDH_SPARK

CDH Spark SQL

可實現分布式SQL查詢引擎對結構化資料的處理,提高作業的執行效率。

272

CDH_SPARK_SQL

CDH MR

處理超大規模的資料集。

273

CDH_MR

CDH Presto

該節點提供了分布式SQL查詢引擎,進一步增強了CDH環境的資料分析能力。

278

CDH_PRESTO

CDH Impala

CDH Impala節點可以編寫並執行Impala SQL指令碼,為您提供了更快速的查詢效能。

279

CDH_IMPALA

Lindorm

Lindorm Spark

可進行Lindorm Spark任務的開發和周期性調度。

1800

LINDORM_SPARK

Lindorm Spark SQL

可進行Lindorm Spark SQL任務的開發和周期性調度。

1801

LINDORM_SPARK_SQL

Click House

ClickHouse SQL

可實現分布式SQL查詢及處理結構化資料,提高作業的執行效率。

1301

CLICK_SQL

資料品質

品質監控

可通過配置資料品質監控規則,監控相關資料來源表的資料品質(例如,是否存在髒資料)。同時,支援您自訂調度策略,周期性執行監控任務進行資料校正。

1333

DATA_QUALITY_MONITOR

資料對比

對比節點可實現對不同表資料進行多種方式的對比。

1331

DATA_SYNCHRONIZATION_QUALITY_CHECK

通用

虛擬節點

虛擬節點屬於控制類型節點,它是不產生任何資料的空跑節點,通常作為商務程序統籌節點的根節點,方便您管理節點及商務程序。

99

VIRTUAL

賦值節點

用於參數傳遞,通過內建的output輸出將賦值節點最後一條查詢或輸出結果通過節點上下文功能傳遞到下遊,實現參數跨節點傳遞。

1100

CONTROLLER_ASSIGNMENT

Shell節點

Shell節點支援標準Shell文法,但不支援互動性文法。

6

DIDE_SHELL

參數節點

用於上遊節點將參數匯總並向下分發傳遞。

1115

PARAM_HUB

OSS對象檢查

通過監控OSS對象來觸發下遊節點執行。

239

OSS_INSPECT

Python節點

支援Python3.0語言,支援通過調度配置中的調度參數擷取到上遊參數以及配置自訂參數進行應用,以及將自身的輸出作為參數輸出至下遊節點。

1322

PYTHON

歸併節點

用於對上遊節點的運行狀態進行歸併,解決分支節點下遊節點的依賴掛載和運行觸發問題。

1102

CONTROLLER_JOIN

分支節點

用於對上遊結果進行判斷,決定不同結果走不同的分支邏輯,您可結合賦值節點一起使用。

1101

CONTROLLER_BRANCH

for-each節點

用於遍曆賦值節點傳遞的結果集。

1106

CONTROLLER_TRAVERSE

do-while節點

用於迴圈執行部分節點邏輯,同時您也可結合賦值節點來迴圈輸出賦值節點傳遞的結果。

1103

CONTROLLER_CYCLE

Check節點

用於檢查目標對象(MaxCompute分區表、FTP檔案或OSS檔案)是否可用,當Check節點滿足檢查策略後會返回運行成功狀態。若存在下遊依賴,便會運行成功並觸發下遊任務執行。支援檢查的目標對象:

  • MaxCompute分區表

  • FTP檔案

  • OSS檔案

  • HDFS

  • OSS-HDFS

241

CHECK_NODE

Function Compute

用於周期性調度處理事件函數。

1330

FUNCTION_COMPUTE

HTTP觸發器

如果您希望其他調度系統的任務完成後觸發DataWorks上的任務運行,可以使用此節點。

說明

DataWorks已不再支援建立跨租戶節點,如果您使用跨租戶節點,建議更換為HTTP觸發器節點,該節點與跨租戶節點能力相同。

1114

SCHEDULER_TRIGGER

SSH

可通過指定SSH資料來源的方式,在DataWorks遠端存取該資料來源串連的主機,並觸發指令碼在遠程主機執行。

1321

SSH

資料推送

資料推送節點可將Data Studio商務程序中其他節點產生的資料查詢結果,通過建立資料推送目標,將資料推送至DingTalk群、飛書群、企業微信群、Teams以及郵箱。

1332

DATA_PUSH

資料庫節點

MySQL節點

MySQL節點可以進行MySQL任務的開發和周期性調度。

1000125

-

SQL Server

SQL Server節點可以進行SQL Server任務的開發和周期性調度。

10001

-

Oracle節點

Oracle節點可進行Oracle任務的開發和周期性調度。

10002

-

PostgreSQL節點

PostgreSQL節點可進行PostgreSQL任務的開發和周期性調度。

10003

-

StarRocks節點

可進行StarRocks任務的開發和周期性調度。

10004

-

DRDS節點

可進行DRDS任務的開發和周期性調度。

10005

-

PolarDB MySQL節點

可進行PolarDB MySQL任務的開發和周期性調度。

10006

-

PolarDB PostgreSQL節點

PolarDB PostgreSQL節點可進行PolarDB PostgreSQL任務的開發和周期性調度。

10007

-

Doris節點

Doris節點可進行Doris任務的開發和周期性調度。

10008

-

MariaDB節點

MariaDB節點可進行MariaDB任務的開發和周期性調度。

10009

-

SelectDB節點

SelectDB節點可進行SelectDB任務的開發和周期性調度。

10010

-

Redshift節點

Redshift節點可以進行Redshift任務的開發和周期性調度。

10011

-

Saphana節點

Saphana節點可進行SAP HANA任務的開發和周期性調度。

10012

-

Vertica節點

Vertica節點可進行Vertica任務的開發和周期性調度。

10013

-

DM(達夢)節點

DM節點可進行DM任務的開發和周期性調度。

10014

-

KingbaseES(人大金倉)節點

KingbaseES節點可進行KingbaseES任務的開發和周期性調度。

10015

-

OceanBase節點

OceanBase節點可進行OceanBase任務的開發和周期性調度。

10016

-

DB2節點

DB2節點可進行DB2任務的開發和周期性調度。

10017

-

GBase 8a 節點

GBase 8a節點可進行GBase 8a任務的開發和周期性調度。

10018

-

演算法

PAI Designer

PAI的可視化建模Designer,用於實現端到端的機器學習開發流程的可視化建模工具。

1117

PAI_STUDIO

PAI DLC

PAI的容器訓練DLC,用於分布式執行訓練任務。

1119

PAI_DLC

PAI Flow

PAI知識庫索引工作流程/在DataWorks側產生PAIFlow節點。

1250

PAI_FLOW

邏輯節點

SUB_PROCESS節點

SUB_PROCESS節點通過整合多個商務程序為一個統一的整體進行管理和調度

1122

SUB_PROCESS

建立節點

建立調度工作流程的節點

如果您的任務需要在指定時間定期自動執行(如按小時、天、周等周期運行),可以通過以下方式建立周期任務節點:建立周期任務節點、在周期工作流程中添加內部節點,或通過複製現有節點建立新節點。

  1. 進入DataWorks工作空間列表頁,在頂部切換至目標地區,找到目標工作空間,單擊操作列的快速進入 > Data Studio,進入Data Studio。

  2. 在左側導覽列單擊image,進入資料開發頁面。

建立周期任務節點

  1. 單擊專案目錄右側的image,選擇建立節點,選擇需要的節點類型

    重要

    系統內建常見節點列表全部節點,選擇最下面的全部節點可查看全部節點列表。使用搜尋方塊快速尋找,或通過分類篩選(如MaxCompute、Data Integration、通用等)來定位並建立所需節點。

    可事先建立目錄,對節點進行組織和管理。
  2. 設定節點名稱並儲存後,進入節點編輯頁面。

周期工作流程建立內部節點

  1. 建立周期工作流程

  2. 在工作流程看板,單擊上面工具列建立節點,根據需要開發的任務類型選擇對應的節點類型,將其拖拽至畫布中。

  3. 設定節點名稱並儲存。

複製方式建立節點

通過複製功能,快速複製現有節點以建立新的節點。複製內容包括節點的調度配置資訊(調度參數調度時間調度依賴)。

  1. 在左側專案目錄中,按右鍵需要複製的節點,在快顯功能表中選擇複製

  2. 在彈窗中修改節點名稱路徑(或保留預設值),單擊確認開始複製。

  3. 複製完成後,在專案目錄中查看新產生的節點。

建立手動商務程序的節點

如果您的任務不需要周期性運行,但又需要將任務發布至生產環境,在需要時手動運行,可以在手動商務程序中建立內部節點。

  1. 進入DataWorks工作空間列表頁,在頂部切換至目標地區,找到目標工作空間,單擊操作列的快速進入 > Data Studio,進入Data Studio。

  2. 在左側導覽列單擊image,進入手動商務程序頁面。

    1. 建立手動商務程序

    2. 在手動商務程序編輯頁面上方工具列,單擊建立內部節點,根據需要開發的任務類型選擇對應的節點類型

    3. 設定節點名稱並儲存。

建立手動任務節點

  1. 進入DataWorks工作空間列表頁,在頂部切換至目標地區,找到目標工作空間,單擊操作列的快速進入 > Data Studio,進入Data Studio。

  2. 在左側導覽列單擊image,進入手動任務頁面。

  3. 在下方的手動任務處,單擊手動任務右側的image,選擇建立節點,選擇需要的節點類型。

    說明

    手動任務僅支援建立離線同步NotebookMaxCompute SQLMaxCompute ScriptPyODPS 2MaxCompute MRHologres SQLPython 節點Shell 節點

  4. 設定節點名稱並儲存後,進入節點編輯頁面。

節點大量編輯

當工作流程中的節點數量較多時,逐個開啟節點進行編輯效率較低。DataWorks提供內部節點列表功能,支援在畫布右側以列表形式對所有節點進行快速的預覽、搜尋和大量編輯。

使用方法

  1. 在工作流程畫布頂部的工具列中,單擊顯示內部節點列表按鈕,即可在畫布右側開啟功能面板。

    image

  2. 面板開啟後,將以列表形式展示當前工作流程中的所有節點。

    • 代碼預覽與排序

      • 支援代碼編輯的節點(如MaxCompute SQL)會預設展開代碼編輯器。

      • 不支援代碼編輯的節點(如虛擬節點)會以卡片形式展示,並自動排文在列表底部。

    • 快速搜尋與定位

      • 搜尋:在頂部搜尋方塊中輸入關鍵字可對節點名稱進行模糊搜尋。

      • 聯動:在畫布和側邊欄之間可以雙向聯動定位。在畫布中選擇節點,側邊欄會高亮對應節點;反之,在側邊欄點擊節點,畫布也會自動聚焦。

    • 線上編輯

      • 操作:每個節點卡片右上方提供載入最新代碼開啟節點編輯等快捷操作。

      • 自動儲存:進入編輯狀態後,當滑鼠焦點離開代碼塊地區時,系統會自動儲存修改。

      • 衝突檢測:若代碼在編輯期間被其他使用者更新,儲存時會觸發失敗提醒,防止代碼被意外覆蓋。

    • 專註模式

      • 選中節點,點擊浮窗右上方的image開啟專註模式,側邊欄將僅顯示當前選中的節點,以提供更大的代碼編輯空間。

版本管理

系統支援通過版本管理功能將節點還原到指定的歷史版本,同時還提供版本查看與對比功能,方便您分析差異並做出調整。

  1. 在左側專案目錄中,雙擊目標節點名稱,進入節點編輯頁。

  2. 單擊節點編輯頁右側的版本,在版本頁面查看和管理開發記錄發布記錄資訊。

    • 查看版本

      1. 您可以在開發記錄發布記錄頁簽中,找到需要查看的節點版本。

      2. 單擊操作欄中的查看,可進入詳情頁查看節點代碼內容以及調度配置資訊。

        說明

        調度配置資訊支援指令碼模式可視化模式查看,您可在調度配置頁簽右上方切換查看模式。

    • 對比版本

      您可以在開發記錄發布記錄頁簽中,對不同版本的節點進行對比。下面以開發記錄為例,為您示範對比操作。

      • 開發或發布環境對比:在開發記錄頁簽中,勾選兩個版本,單擊上方的選擇對比按鈕,即可對比不同版本的節點代碼內容和調度配置資訊。

      • 開發與發布或構建環境對比

        1. 開發記錄頁簽中,定位到節點的某個版本。

        2. 單擊操作欄中的對比按鈕,在詳情頁中選擇與發布記錄構建記錄中的某個版本進行對比。

    • 還原版本

      僅支援將開發記錄中的節點還原到指定的歷史版本。您可在開發記錄頁簽中找到目標版本,單擊操作欄中的還原按鈕,即可將該節點的代碼和調度配置資訊還原至目標版本。

相關文檔

常見問題

是否支援下載節點代碼(比如SQL、Python)至本地?

  • 解答:不直接提供下載功能。替代方案為直接在開發過程中複製代碼至本地。或在新版Data Studio個人目錄中添加本地檔案進行開發,開發完之後提交至專案目錄。此時您的代碼直接儲存在本地。