全部產品
Search
文件中心

DataWorks:DataWorks On CDP/CDH使用說明

更新時間:Feb 06, 2025

DataWorks支援基於CDH(Cloudera's Distribution Including Apache Hadoop,以下簡稱CDH)和CDP(Cloudera Data Platform,以下簡稱CDP)叢集建立Hive、MR、Presto和Impala等節點,實現CDP/CDH任務工作流程的配置、定時調度和中繼資料管理等功能,保障資料生產及管理的高效穩定。本文為您介紹在DataWorks上使用CDP/CDH的基本開發流程,以及相關費用說明、環境準備、許可權控制等內容。

背景資訊

  • CDH是Cloudera的開源平台發行版,提供開箱即用的叢集管理、叢集監控、叢集診斷等功能,並支援使用多種組件,助力您執行端到端的巨量資料工作流程。

  • CDP是跨平台收集和整合客戶資料的公用資料平台,可協助您收集即時資料,並將其構建為單獨的使用者資料使用。

您可在DataWorks中註冊CDH及CDP叢集,基於業務需求進行相關任務開發、調度、資料地圖(中繼資料管理)和資料品質等一系列的資料開發和治理操作。

使用限制

  • 僅支援使用Serverless資源群組(推薦)或舊版獨享調度資源群組運行CDH或CDP叢集任務。

    說明
    • (推薦)Serverless資源群組為通用型資源群組,可滿足多種任務類型(例如,資料同步、任務調度)的情境應用,購買詳情請參見新增和使用Serverless資源群組;若您已購買過舊版獨享調度資源群組,也可使用該資源群組運行CDH或CDP叢集任務。

    • 新使用者僅支援購買Serverless資源群組。

    • 若使用自訂版本叢集註冊至DataWorks,僅支援使用舊版獨享調度資源群組。叢集版本介紹,請參見步驟二:註冊CDH或CDP叢集

  • 僅支援華北2(北京)、華東2(上海)、華東1(杭州)、華南1(深圳)、華北3(張家口)、西南1(成都)、德國(法蘭克福)地區註冊CDH或CDP叢集。

前提條件

  • 已開通DataWorks,詳情請參見開通DataWorks服務

  • 已部署並註冊CDP或CDH叢集。

    DataWorks支援使用非阿里雲ECS環境部署的CDP或CDH,但需確保部署CDP或CDH的環境和阿里雲專用網路可連通。通常您可使用Express Connect、VPN等網路連通方案來保障網路的連通性。詳情請參見註冊CDH或CDP叢集至DataWorks

  • 已購買Serverless資源群組。

    Serverless資源群組購買後,預設與其他雲產品網路不連通。在對接使用CDP或CDH時,需先保障CDP或CDH叢集和Serverless資源群組間網路連通,才可進行後續相關操作。購買資源群組,詳情請參見新增和使用Serverless資源群組

  • 已建立DataWorks工作空間,詳情請參見管理工作空間

使用說明

DataWorks on CDP/CDH的相關開發說明如下。

序號

說明

費用說明

DataWorks上進行CDP或CDH任務開發,除DataWorks側產品費用外,還會產生其他產品側的費用。

環境準備

DataWorks上進行CDP或CDH任務開發前,您需根據業務需求購買相應DataWorks版本及所需資源群組,並完成相關CDP或CDH叢集註冊及開發環境的準備工作。

許可權控制

DataWorks為您提供了產品級與模組層級的許可權控制,您可根據業務需求對不同使用者授權不同許可權,實現許可權的精細化管理。

開始使用:Data Integration

DataWorksData Integration提供CDP/CDH Hive資料的讀取與寫入的能力,並提供離線同步、全增量同步處理任務等多種資料同步情境。

開始使用:資料開發與營運

DataWorks提供資料建模服務,將無序、雜亂、繁瑣、龐大且難以管理的資料,進行結構化有序的管理。還提供資料開發(DataStudio)功能,用於調度任務的開發,並與營運中心配合使用,進行調度任務的監控營運。

開始使用:資料治理

DataWorks提供CDP及CDH中繼資料管理與資料治理能力。

開始使用:資料分析與服務

DataWorks資料分析提供CDP及CDH資料分析與服務共用能力。

開始使用:開放平台

DataWorks支援開放能力,協助您快速實現各類應用系統對接DataWorks,並進行資料流程管控、資料治理和營運,及時響應各應用系統對接DataWorks的業務狀態變化。

費用說明

一、DataWorks相關費用

以下費用會體現在DataWorks產品相關賬單中。DataWorks計費詳情請參見DataWorks計費項目說明

費用

說明

DataWorks版本費用

進行任務開發前,您需先開通DataWorks。如果開通的是DataWorks標準版、專業版、企業版,則在開通時需支付相應版本的版本費用。

任務調度的調度資源費用

任務開發完成後,進行任務調度需使用調度資源。您可使用Serverless資源群組(推薦)或舊版獨享調度資源群組,支付相應資源群組費用。

說明

購買的Serverless資源群組可滿足任務調度、資料同步共同使用。

資料同步的同步資源費用

運行資料同步任務時,除調度資源外,還需使用資料同步資源。您可使用Serverless資源群組(推薦)或舊版獨享Data Integration資源群組,支付相應資源群組費用。

說明
  • DataStudio介面使用運行、帶參運行功能執行的任務,不會收取調度費用。

  • 沒有實際執行成功的任務及空跑的任務不收取調度費用。

您可參考DataWorks調度任務下發邏輯,以輔助瞭解上述計費說明。

二、非DataWorks相關費用

以下費用不會體現在DataWorks產品相關賬單中。

重要

涉及其他產品的費用,收費情況以對應產品的收費邏輯決定,您可查看對應產品的計費文檔瞭解詳情。計費詳情請參見產品計費

費用

說明

資料庫費用

資料同步時,讀寫上下遊資料庫中的資料時,可能會產生資料庫費用。

計算和儲存費用

運行計算引擎任務時,可能會產生計算引擎的計算和儲存費用。

網路服務費用

連通DataWorks和其他相關產品的網路環境時,可能會產生網路服務費用。例如,使用Express Connect、共用頻寬、EIP等產品連通網路時,會產生相應產品的服務費用。

環境準備

一、資源準備

類別

描述

相關文檔

版本選擇

DataWorks基礎版服務可滿足CDP或CDH基本的資料上雲、資料開發與調度生產、簡單的資料治理工作,若需擷取更專業的資料治理、資料安全解決方案,可選擇相應的標準版、專業版、企業版服務。

DataWorks各版本詳解

資源群組選擇

CDP或CDH叢集目前支援使用Serverless資源群組(推薦)或舊版獨享調度資源群組。

新增和使用Serverless資源群組

二、開發環境準備

您需先在DataWorks工作空間註冊CDP或CDH叢集,才可在資料開發(DataStudio)進行資料開發工作,並以工作空間為單位管理空間成員,以便進行協同開發。

類別

描述

相關文檔

資料同步環境準備

基於叢集的Hive組件執行資料同步任務前,需先將該組件建立為相應的DataWorks資料來源。

支援的資料來源及同步方案

資料開發、資料分析環境準備

基於DataWorks進行計算引擎任務周期性調度前,您需先將叢集添加至DataWorks。添加後,才可使用該叢集進行相關資料開發、資料分析、周期性調度運行任務等操作。

註冊CDH或CDP叢集至DataWorks

協同開發環境準備

為保障RAM使用者以工作空間為單位進行協同開發,您需執行如下操作:

  • 需將進行協同開發的RAM使用者添加為當前工作空間的成員,並授予其開發角色。

  • 將工作空間成員添加至CDP或CDH叢集環境中。

工作空間新增成員

許可權控制

DataWorks為您提供了產品級與模組層級的許可權控制,您可根據業務需求對不同使用者授權不同許可權。許可權控制相關介紹如下。

一、資料存取權限控制

加入至DataWorks工作空間進行CDP或CDH任務開發的RAM使用者,可通過為其配置叢集帳號映射的方式,使空間成員(RAM使用者)擁有該叢集映射帳號所擁有的許可權。叢集帳號映射,詳情請參見設定叢集身份映射

二、功能模組許可權控制

進行資料開發前,您可參考為RAM使用者授權指引,讓其擁有不同的操作許可權。權限類別型如下:

  • 通過全域級模組許可權控制,管理DataWorks功能模組(例如,不允許使用者訪問資料地圖)與DataWorks控制台的許可權(例如,允許使用者刪除工作空間)。

  • 通過空間級模組許可權管控,管理DataWorks空間級模組(例如,允許使用者進入資料開發執行相關開發操作)與全域模組的使用許可權(例如,禁止使用者訪問資料保護傘模組)。

開始使用

DataWorks為您提供了多個功能模組,您可在資料開發(DataStudio)中進行調度任務的開發,並在開發完成後進入生產營運中心進行調度任務的監控營運。同時,提供了任務開發與發布的流程管控,助力您規範開發操作,保障開發過程的安全性。

一、Data Integration

DataWorks的Data Integration模組為您提供讀取和寫入資料至CDP/CDH Hive、CDP/CDH HBase的能力,您需要將Hive或HBase組件建立為DataWorks的Hive或HBase資料來源,實現將其他資料來源的資料同步至Hive或HBase資料來源,或將Hive或HBase資料來源的資料同步至其他資料來源。同時,可根據需要選擇離線同步、全增量同步處理任務等情境執行相關資料同步操作。詳情請參見Data Integration

二、資料開發與營運

模組

說明

相關文檔

資料建模

資料建模是全鏈路資料治理的第一步,沉澱阿里巴巴資料中台建模方法論,從數倉規劃、資料標準、維度建模、資料指標四個方面,以業務視角對業務的資料進行詮釋,讓企業內部實現“數同文”的快速理解與流通。

資料建模

資料開發

DataWorks將CDP或CDH計算引擎的能力進行了封裝,支援您執行CDP或CDH相關的資料同步、資料開發工作單位。

  • 資料同步:資料開發僅支援部分離線同步和即時同步情境,更多資料同步應用,請前往Data Integration主站查看。

  • 資料開發:您無需接觸複雜的命令列,便可在DataWorks中實現各類任務的開發及周期性調度。

您可結合DataWorks的通用類型節點和引擎計算節點進行複雜的邏輯處理。

主要節點如下:

  • 用於管控商務程序的虛擬節點。

  • 用於外部系統觸發調度的HTTP觸發器節點、OSS對象檢查節點和FTP CHECK節點。

  • 用於節點上下遊參數傳遞的賦值節點與參數節點。

  • 用於迴圈執行代碼的do-while節點,遍曆、判斷上遊賦值結果的for-each節點,分支節點等。

  • 其他節點。例如,通用Shell節點,MySQL資料庫節點等。

節點任務開發完成後,可根據需要執行如下操作:

  • 調度配置

    若節點任務需進行周期性調度運行,可定義該節點的調度相關屬性。例如,節點調度依賴、調度參數等。

  • 節點調試

    為保障生產任務高效運行,避免計算資源浪費,建議您在任務發布前先對任務進行調試運行。

  • 節點發布

    任務需發布至生產環境後,才會周期調度運行。因此,任務開發完成後需發布至生產環境。發布後,您可前往營運中心 > 周期任務介面查看並管理該調度任務。

  • 節點管理

    您可對節點任務進行上線及下線、批量修改調度相關屬性等操作。

  • 流程管控

    DataWorks提供了任務開發與發布的流程管控(例如,代碼審批、強制煙霧測試 (Smoke Test)、自訂校正邏輯等),把控任務相關操作的正確性及安全性。

營運中心

營運中心是一站式巨量資料營運、監控平台,支援即時查看任務的運行狀態,並為異常任務提供智能診斷、重跑等營運操作。它提供智能基準功能,協助您解決重要任務產出時間不可控、海量任務監控難等問題,保障任務產出的時效性。

周期任務基本營運操作

資料品質

資料品質針對資料研發的全鏈路,保障資料可用性。通過對資料品質規則的高效校正,以及與任務調度流程的緊密結合,可以協助使用者第一時間發現品質問題、有效防止資料品質問題擴散,為業務提供高效、可靠、可信賴的資料。

資料品質概述

三、資料治理

CDP/CDH叢集註冊完成後,DataWorks將自動採集您資料來源下的中繼資料,您可前往資料地圖概述進行查看;同時,也可進入資料治理中心概述,查看DataWorks檢測的待治理問題,進行相關資料的治理。

模組

說明

相關文檔

資料地圖

DataWorks資料地圖提供了企業級資料管理平台,能夠基於統一中繼資料的底層建設,提供資料對象的管理和盤點的能力、血緣查看,以及資料對象的快速尋找和深度理解的能力。

說明

當前支援CDH Hive、CDH Spark、CDH Spark SQL、CDH Impala節點的表層級和欄位層級血緣展示,具體詳情,請參見各資料來源血緣展示情況說明

資料地圖概述

資訊安全中心

資料保護傘

核准中心

資訊安全中心、資料保護傘、核准中心是集資料資產分級分類、敏感性資料識別、資料授權管理、敏感性資料脫敏、敏感性資料訪問審計、風險識別與響應於一體的一站式資料安全治理介面,協助使用者落地資料安全治理事項。

說明

核准中心不支援對CDH/CDP表自訂審批次程序。

資料治理中心

資料治理中心針對多個治理領域,通過資料領域規則沉澱、自動識別資產待最佳化問題項、覆蓋事後及事前的治理最佳化策略等方式協助使用者主動式、體系化完成資料治理工作。

說明

僅支援使用資料治理中心的全域檢查項及治理項治理CDH/CDP資料問題,具體請以實際使用為準。

資料治理中心概述

四、資料分析與服務

DataWorks的資料分析與服務提供資料處理和分析功能,支援通過統一管理的API高效共用和訪問資料。

模組

說明

相關文檔

資料分析

協助您實現線上SQL分析、業務洞察、編輯和分享資料;並支援將查詢結果儲存為圖表卡片,快速搭建可視化資料報告便於日常彙報。

資料分析概述

資料服務

DataWorks資料服務旨在為企業提供全面的資料服務及共用能力,協助企業統一管理面向內外部的API服務。

資料服務概述

五、開放平台

DataWorks支援開放能力,協助您快速實現各類應用系統對接DataWorks、方便快捷的進行資料流程管控、資料治理和營運,及時響應應用系統對接DataWorks的業務狀態變化。

類別

描述

相關文檔

OpenAPI

DataWorks開放平台的OpenAPI功能,為您提供開放API能力,通過開放API實現本地服務和DataWorks服務的互動,提升企業巨量資料處理效率,減少人工操作和營運工作,降低資料風險和企業成本。

開放API(OpenAPI)

開放事件

DataWorks開放平台的開放事件(OpenEvent)功能,為您提供訊息訂閱服務,通過訂閱DataWorks事件狀態、應用系統對接DataWorks、即時擷取相關內容的狀態變化,協助您及時響應相應事件,滿足個人化決策需求。

OpenEvent概述

擴充程式

DataWorks通過OpenEvent為您提供訊息發送訂閱功能,您可將服務程式註冊為DataWorks的擴充程式,通過擴充程式來卡點並響應訂閱的事件訊息,實現通過擴充程式對特定事件進行訊息通知與流程管控。

擴充程式概述