全部產品
Search
文件中心

Dataphin:資料開發概述

更新時間:Jan 25, 2025

資料開發包括編碼研發和規範建模。編碼研發用於構建計算任務,例如建立SQL代碼任務、Shell任務、 Python任務、MR任務和Spark任務;規範建模用於構建邏輯化的資料模型。

前提條件

若需進行即時開發,需已購買即時研發增值服務並且當前租戶已開通即時研發模組。

功能介紹

  • 規範建模:基於已明確的業務需求,從業務頂層開始設計,規範定義資料的標準及計算口徑完成資料模型的設計。同時您提供可視化、標準化、正常化和自動化定義資料,而非傳統手動寫SQL代碼的方式,這樣就避免了統計指標計算口徑不一致的情況。可視化構建資料倉儲的模型,邏輯表提交後即產生對應智能黑盒調度任務,自動化生產資料。

    說明

    僅綁定資料板塊的專案支援規範建模功能。

  • 資料處理:通過編寫代碼的方式構建複雜的資料模型、構建同步任務和構建不同類型的代碼任務。

  • 即席查詢:即主題式查詢,面向業務主題的資料查詢。屏蔽了物理模型中技術特性帶來的影響,基於邏輯模型從業務視角出發對外提供查詢服務。

  • 雙開發模式:Dataphin支援BasicDev-Prod的資料開發模式:

    • Basic專案綁定了Basic資料板塊,系統支援規範建模功能。Basic專案綁定了Prod資料板塊,則系統不支援規範建模功能,僅支援資料處理即席查詢功能。

    • Dev專案支援規範建模資料處理即席查詢功能。Prod專案支援規範建模資料處理功能。

  • 智能編輯器:Dataphin代碼編輯器不僅支援基本的代碼高亮、代碼補全,還支援智能代碼提示、許可權校正等功能。助您降低開發成本,更快的交付可靠的代碼和提升編碼體驗。編輯器使用說明,請參見編輯器代碼提效

資料開發入口

在Dataphin首頁,單擊頂部功能表列研發。預設進入資料開發頁面。

image

資料開發介面介紹

image

地區

描述

全域搜尋與程式碼搜尋

  • 全域搜尋:在全域搜尋方塊中支援輸入物理表、邏輯表、元表、規範定義、函數、資源或模板等名稱的關鍵字,搜尋目標對象。您可以單擊研發資產頁簽,快速搜尋目標對象。

    image

    • 專案切換:對象所在專案為Dev-Prod環境時,將會存在Dev專案對象和Prod專案對象,您可以通過專案切換查詢具體對象。

    • 視角切換:Dataphin支援通過研發和資產視角查看對象。不同視角支援查看的物件類型不同。

      • 研發視角:包括物理表、邏輯表、元表、規範定義、函數、資源或模板。

      • 資產視角:包括物理表、邏輯表、元表。

    • 對象列表:為您展示當前匹配的對象。支援全域本專案視角切換同時也支援查看全部某一個物件類型。單擊對象名稱後,系統將自動定位到該對象。

  • 程式碼搜尋:單擊gageg表徵圖,在程式碼搜尋框中,輸入您想尋找的代碼,系統將為您快速搜尋符合代碼的計算任務。如下圖所示:

    image

    • 程式碼搜尋輸入框:輸入計算任務相關代碼關鍵字,多代碼時,可以單擊image切換為文輸入框。同時,您也可以單擊image進入進階搜尋頁面,進行進階搜尋。更多資訊,請參見進階搜尋提效

    • 搜尋結果列表:將為您展示代碼匹配中的計算任務,您可以單擊對應任務查看具體計算任務詳情。

    • 任務匹配詳情:為您展示計算任務中代碼匹配資訊,相關行數及匹配數等。

說明
  • 系統僅支援搜尋已提交開發中發行狀態的代碼。

  • 最多可匹配到50個包含此代碼邏輯的任務,程式碼搜尋僅對當前專案生效。

  • 系統僅支援搜尋版本升級後(2020年7月14日)提交過的代碼。

專案與環境

  • 專案:預設為當前開啟的專案名稱。您可以單擊專案名稱後的test表徵圖,在下拉式清單中,依次選擇專案分類(ProdDevBasic)及專案名稱,切換專案。同時,您也可以在搜尋方塊中輸入專案名稱、所屬板塊關鍵詞,快速搜尋專案。

  • 環境:單擊tstt表徵圖,可以切換專案環境。包括生產開發環境。

說明

Basic專案預設為生產環境,沒有環境區分。

功能項

Dataphin資料開發板塊包括規範建模資料處理、最近開啟即席查詢運行記錄模組。

  • 規範建模:主要包含邏輯表的建模研發相關功能。包括維度邏輯表、事實邏輯表、原子指標、業務限定、指標、匯總邏輯表。更多資訊,請參見規範建模

  • 資料處理:主要包含資料處理的計算任務相關功能。包括表管理、計算任務、計算工作範本、資源、函數。

    • 表管理:包括離線物理表管理和Realtime Compute表管理。

      • 離線物理表:可協助您統一配置與管理計算任務開發過程中用到的離線物理表。更多資訊,請參見建立離線物理表

      • Realtime Compute元表:包括元表鏡像表

        • 元表:元表是通過資料管理的跨儲存類型表,即時任務開發過程中所用到的輸入表、輸出表、維表可以通過建立元表進行建立和管理。更多資訊,請參見建立及管理元表

        • 鏡像表:主要用於流批一體即時任務的開發鏡像表映射了即時表和離線表,在開發流批一體Realtime Compute任務時引用鏡像表,將支援同步操作即時表和離線表。更多資訊,請參見建立鏡像表

    • 計算任務:支援建立包括SQL、MR、Jar、Shell、Python、Virtual類型的計算任務。更多資訊,請參見計算設定

    • 計算工作範本:Dataphin支援建立離線和即時的計算工作範本。在後續開發工作單位時,可以引用建立的計算模板以提高任務的研發效率。更多資訊,請參見:

    • 資源:主要用於儲存、管理代碼研發過程中所需的檔案,如JAR、JSON、Python等資源檔。更多資訊,請參見上傳資源及引用

    • 函數:為您展示計算引擎在Dataphin中支援的內建函數自訂函數,函數資訊包括函數名、函數類型、命令格式和函數說明。展示的計算引擎類型函數根據專案綁定的計算源決定。

      • 內建函數:不同計算引擎支援的內建函數不同,具體請以系統展示的函數為準。

      • 自訂函數:您可以通過上傳Jar資源等方式建立自訂的函數。更多資訊,請參見建立使用者自訂函數

  • 最近開啟:為您記錄最近開啟過的計算任務、函數、表等對象

  • 資源回收筒:在資料開發板塊刪除的對象將會回收到資源回收筒您可以在資源回收筒中進行恢複或徹底刪除。更多資訊,管理資源回收筒的資來源物件

  • 即席查詢:通過即席查詢您可以根據當前的業務情況自訂並執行查詢語句和下載查詢的資料。更多資訊,請參見查詢並下載資料

  • 運行記錄:運行記錄為您儲存近15天的即席查詢、運行計算任務、邏輯資料表預覽、派生指標煙霧測試 (Smoke Test)、資產資料預覽、OpenAPI資料查詢的記錄。更多資訊,請參見查看並管理運行記錄

對象列表目錄

在Dataphin資料開發板塊內建或建立的對象,將在對象列表目錄中為您展示。

資料開發歡迎頁面

為您展示了在Dataphin中進行資料開發的基本使用路徑以及研發相關的工具。您可以在各路徑點工具塊中單擊image建立表徵圖建立對應對象。