全部產品
Search
文件中心

DataWorks:External Catalog採集方式

更新時間:Jan 22, 2026

資料地圖針對External Catalog的中繼資料採集目前為間接關聯形式,如果您在StarRocks類型資料庫中已使用External Catalog能力,並期望在資料地圖中通過StarRocks資料來源類型作為來源,查看其External Catalog下的表及中繼資料詳情,可通過本文進行操作配置。配置並採集完成後,可利用資料地圖的搜尋功能,搜尋和查看StarRocks External Catalog所關聯的表、欄位等中繼資料資訊。

背景資訊

當使用者在DataWorks中配置StarRocks資料來源並啟動中繼資料採集後,資料地圖預設僅針對StarRocks內部Catalog進行中繼資料擷取。如使用者期望擷取StarRocks External Catalog相應中繼資料,需使用者在DataWorks中配置目錄所關聯的資料來源串連,並進行中繼資料採集。採集完成後,資料地圖將自動進行中繼資料關聯,使用者可在StarRocks類型來源中查看External Catalog及其關聯中繼資料。

前提條件

使用限制

  • 暫不支援外部目錄為Elasticsearch Catalog類型。

  • 暫不支援外部目錄來源為OSS的Paimon Catalog類型。

操作步驟

以StarRocks中MySQL External Catalog為例,您如配置某MySQL_DB為mysql_catalog_db,則需在資料地圖中配置並建立MySQL類型中繼資料採集器,採集MySQL_DB相應中繼資料資訊後,對應StarRocks中的mysql_catalog_db下中繼資料資訊亦可被搜尋和查看。

步驟一:資料準備

建立MySQL資料來源

建立MySQL資料來源,資料庫名為mysql_catalog_db,並建立樣本表mysql_catalog_table,樣本指令碼如下:

CREATE TABLE mysql_catalog_table(
  catalog_table_id INT,
  catalog_table_name VARCHAR(255)
)

準備MySQL JDBC驅動包

您需將對應版本的MySQL JDBC驅動上傳到OSS中。

  1. 將與您MySQL版本一致的JDBC驅動JAR包上傳到OSS中,您需登入OSS管理主控台,單擊所在地區左側導覽列的Bucket列表

  2. 單擊目標Bucket名稱,進入檔案管理頁面。本文樣本使用的Bucket為catalog-bucket-oss

  3. 單擊建立目錄,建立JAR包的存放目錄。配置目錄名libs,建立JAR資源的存放目錄。

  4. 進入JDBC驅動JAR包的存放目錄。單擊上傳檔案,在待上傳檔案地區單擊掃描檔案,添加JDBC驅動JAR包mysql-connector-java-8.0.28.jar檔案至Bucket,單擊上傳檔案

  5. 找到您所上傳的JDBC驅動JAR包檔案,單擊檔案對應的操作項的詳情,單擊詳情頁面的設定讀寫權限,進入設定讀寫權限頁面,將檔案使用權限設定為公共讀寫,單擊確定以供後續配置外部參考。

步驟二:外部資料源串連配置

  1. 登入StarRocks執行個體查詢列表。

    1. 登入EMR管理主控台,單擊進入EMR Serverless > StarRocks裡面的實例列表

    2. 找到您所建立的StarRocks執行個體,單擊操作列中的串連執行個體。進入建立串連頁簽。

    3. 建立串連頁簽,選擇您所建立的StarRocks執行個體地域實例名稱資訊,輸入串連名稱使用者名密碼資訊,單擊測試連通性。串連成功後,點擊確定後進入StarRocks執行個體查詢列表頁面。

  2. 在StarRocks資料來源配置MySQL外部串連。

    1. 單擊查詢列表下面的+檔案建立按鈕,進入建立檔案對話方塊,輸入名稱、選擇存儲路徑,單擊確定建立檔案。

    2. 雙擊全部檔案下你所建立的檔案名稱,進入到StarRocks執行個體編輯頁面,輸入以下外部串連樣本指令碼,詳情請參見StarRocks配置External Catalog樣本說明

      CREATE EXTERNAL CATALOG mysql_db_catalog PROPERTIES (
          "driver_class" = "com.mysql.cj.jdbc.Driver", 
          "driver_url" = "https://catalog-bucket-oss.oss-cn-hangzhou-internal.aliyuncs.com/libs/mysql-connector-java-8.0.28.jar", 
          "type" = "jdbc", 
          "user" = "<UserName>", 
          "password"="<PassWord>",
          "jdbc_uri" = "jdbc:mysql://xxx:3306/mysql_catalog_db" );
      說明
      • mysql_db_catalog參數為MySQL資料來源建立的外部儲存資料目錄名稱。

      • UserNamePassWord資訊您需根據實際情況填寫。

      • jdbc_uri:您需填寫您所建立的資料庫連結路徑。

    3. 編輯完成後,您可單擊運行指令碼,等待執行成功後,您可在數據庫頁簽查看相關表資訊。

      image

步驟三:資料來源配置

  1. 您需登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的工作空間,在工作空間列表選擇您所建立的工作空間,單擊操作欄中的管理,進入管理中心

  2. 在管理中心頁面單擊左側導覽列的資料來源 > 數據源列表,在資料來源頁面新增StarRocks與MySQL資料來源,詳情請參見【下線】配置StarRocks資料來源配置MySQL資料來源

    說明

    MySQL資料來源配置模式需選擇串連串模式,同樣您選擇的外部資料源為JDBC類型的,配置模式都需選擇串連串模式。

步驟四:中繼資料採集配置

您需登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資料治理 > 資料地圖,單擊進入資料地圖。在資料地圖中配置中繼資料採集。

StarRocks內部Catalog中繼資料的採集配置

請參照建立自訂採集器步驟,建立StarRocks採集器。

StarRocks External Catalog中繼資料採集配置

同理,您需參照完成MySQL資料來源中繼資料採集。否則無法搜尋到MySQL資料來源External Catalog資訊。

說明

MySQL資料來源中繼資料採集的已創建採集器的數據源選擇MySQL

步驟五:中繼資料搜尋

等待StarRocks中繼資料採集任務、MySQL中繼資料採集任務執行完成,單擊左側image表徵圖進入搜尋網頁。

  1. 找到類型頁面,在資料來源頁簽下選擇StarRocks資料來源,在篩選條件裡面下拉選擇您所建立的StarRocks實例、StarRocks執行個體中MySQL資料來源的外部儲存資料目錄名稱、以及對應的MySQL數據庫。您可在StarRocks資料來源中查看MySQL Catalog資訊。結果如下:

    image

  2. 您也可找到類型頁面,在資料來源頁簽下選擇MySQL資料來源,在篩選條件裡面下拉選擇您所建立的MySQL資料庫名稱,驗證表資訊是否一致。

    image

  3. 查看錶詳情資訊。

    您可單擊如下圖所示位置查看錶詳情資訊。

    image

    詳情資訊如下:

    image

StarRocks配置External Catalog樣本說明

StarRocks配置External Catalog樣本,文法如下所示:

CREATE EXTERNAL CATALOG <Catalog_Name> COMMENT '' PROPERTIES("type"="","xxx1"="","xxx2"="");
說明

Catalog_Name參數為外部儲存資料目錄名稱,可自訂命名。

StarRocks配置External Catalog樣本如下,詳情請參考資料目錄

採集方式

串連方式

StarRocks配置External Catalog樣本

Default Catalog

default

當採集方式設定為Default Catalog時,預設會採集StarRocks的內部中繼資料資訊,因此無需配置External Catalog樣本詳情請參見資料分析

ODPS Catalog

VPC

CREATE EXTERNAL CATALOG cwy_odps_vpc_hangzhou_catalog PROPERTIES(
    "type"="odps",
    "odps.access.id"="<AccessId>",
    "odps.access.key"="<AccessKey>",
    "odps.endpoint"="http://service.cn-hangzhou-vpc.maxcompute.aliyun-inc.com/api",
    "odps.project"="<ODPSProject>"
);
說明

您在配置過程中,需要將AccessIdAccessKeyODPSProject替換成您所使用的實際值。EndPoint樣本值為http://service.cn-hangzhou-vpc.maxcompute.aliyun-inc.com/api,您也可根據資料來源所在地區資訊,在MaxCompute各地區Endpoint對照表中查看相關參數,詳情請參見Endpoint

Hive Catalog

Hive Metastore (HMS)

CREATE EXTERNAL CATALOG `hive_catalog_hms` PROPERTIES (
    "hive.metastore.type" = "hive", 
    "hive.metastore.uris" = "thrift://192.xxx.xxx.xxx:9083", 
    "type" = "hive" 
);
說明

請將樣本中的hive.metastore.uris參數替換為您Hive資料來源的設定檔hive-site.xml中對應的hive.metastore.uris參數值。

Data Lake Formation (DLF)

CREATE EXTERNAL CATALOG `hive_catalog_dlf` PROPERTIES (
    "hive.metastore.type" = "dlf", 
    "dlf.catalog.id"="123456",
    "type" = "hive" 
);
說明

請將樣本中的dlf.catalog.id參數替換為您Hive資料來源的設定檔hive-site.xml中對應的dlf.catalog.id參數值。

Iceberg Catalog

Hive

CREATE EXTERNAL CATALOG iceberg_catalog_by_hms 
PROPERTIES (
  "iceberg.catalog.type"  =  "hive",
  "hive.metastore.uris"  =  "thrift://192.xxx.xxx.xxx:9083",
  "type"  =  "iceberg"
);
說明

使用Hive MetaStore作為中繼資料服務,配置Iceberg外部Catalog時,請將樣本中的hive.metastore.uris參數替換為您Hive資料來源的設定檔hive-site.xml中對應的hive.metastore.uris參數值。

Hudi Catalog

Hive

CREATE EXTERNAL CATALOG hudi_catalog_by_hms 
PROPERTIES (
  "hive.metastore.type"  =  "hive",
  "hive.metastore.uris"  =  "thrift://192.xxx.xxx.xxx:9083",
  "type"  =  "hudi"
);
說明

使用Hive MetaStore作為中繼資料服務,配置Hudi外部Catalog時,請將樣本中的hive.metastore.uris參數替換為您Hive資料來源的設定檔hive-site.xml中對應的hive.metastore.uris參數值。

Data Lake Formation (DLF)

CREATE EXTERNAL CATALOG hudi_catalog_by_dlf
PROPERTIES (
  "hive.metastore.type" ="dlf",
  "dlf.catalog.id"="123456",
  "type"  =  "hudi"
);
說明

使用dlf作為中繼資料服務,配置Hudi外部Catalog時,請將樣本中的dlf.catalog.id參數替換為您Hive資料來源的設定檔hive-site.xml中對應的dlf.catalog.id參數值。

Delta Lake Catalog

Hive

CREATE EXTERNAL CATALOG `deltalake_hive` PROPERTIES (
    "hive.metastore.type" = "hive", 
    "hive.metastore.uris" = "thrift://192.xxx.xxx.xxx:9083",
    "type" = "deltalake" ,
    "aliyun.oss.access_key" = "<AccessId>",
    "aliyun.oss.secret_key" = "<AccessKey>",
    "aliyun.oss.endpoint" = "<EndPoint>" 
);
說明
  • 請將樣本中的hive.metastore.uris參數替換為您Hive資料來源的設定檔hive-site.xml中對應的hive.metastore.uris參數值。

  • 請將樣本中的AccessIdAccessKey替換成實際值。

  • 樣本中的EndPoint參數,您可根據資料來源所在地區,在OSS各地區Endpoint對照表中查看,詳情請參見地區和Endpoint。樣本值為http://oss-cn-hangzhou-internal.aliyuncs.com

Data Lake Formation (DLF)

CREATE EXTERNAL CATALOG `deltalake_dlf` PROPERTIES (
    "hive.metastore.type" = "dlf", 
    "dlf.catalog.id"="123456",
    "type" = "deltalake" 
);
說明

請將樣本中的dlf.catalog.id參數替換為您Hive資料來源的設定檔hive-site.xml中對應的dlf.catalog.id參數值。

JDBC Catalog

MySQL

CREATE EXTERNAL CATALOG cwy_mysql_db_catalog PROPERTIES (
    "driver_class" = "com.mysql.cj.jdbc.Driver", 
    "driver_url" = "https://bucket-hz.oss-cn-hangzhou-internal.aliyuncs.com/libs/mysql-connector-java-8.0.28.jar", 
    "type" = "jdbc", 
    "user" = "<UserName>", 
    "password"="<PassWord>",
    "jdbc_uri" = "jdbc:mysql://xxx:3306/<database>" );
說明
  • driver_url是指您所使用的JDBC驅動JAR包在OSS上的存放位置。如需上傳或下載OSS對應驅動JAR包檔案,詳情可參見簡單下載

  • 請將樣本中的UserNamePassWord參數替換成實際值。

  • jdbc_uri參數為您所建立的資料庫連結路徑。database參數為您所建立的資料庫名。

PostgreSQL

CREATE EXTERNAL CATALOG `cwy_postgressql_db_catalog` PROPERTIES (
    "driver_class" = "org.postgresql.Driver", 
    "driver_url" = "https://bucket-hz.oss-cn-hangzhou-internal.aliyuncs.com/libs/postgresql-42.3.3.jar", 
    "type" = "jdbc", 
    "user" = "<UserName>", 
    "password"="<PassWord>",
    "jdbc_uri" = "jdbc:postgresql://xxxx:5432/<database>" );
說明
  • driver_url是指您所使用的JDBC驅動JAR包在OSS上的存放位置。如需上傳或下載OSS對應驅動JAR包檔案,詳情可參見簡單下載

  • 請將樣本中的UserNamePassWord參數替換成實際值。

  • jdbc_uri參數為您所建立的資料庫連結路徑。database參數為您所建立的資料庫名。

Paimon Catalog

Hive(StarRocks3.1 版本起支援)

CREATE EXTERNAL CATALOG paimon_by_hive
COMMENT ''
PROPERTIES (
  "type" = "paimon",
  "paimon.catalog.warehouse" = "oss://bucket-hz/paimon_warehouse/",
  "paimon.catalog.type" = "hive",
  "hive.metastore.uris" = "thrift://192.xxx.xxx.xxx:9083"
);
說明

採用Hive作為中繼資料服務,配置Paimon Catalog時:

  • 參數paimon.catalog.warehouse是指Paimon資料湖架構中的一個配置屬性,用於指定資料倉儲的根路徑。

  • 參數hive.metastore.uris是指Hive資料來源設定檔hive-site.xml下的hive.metastore.uris參數資訊。

Data Lake Formation (DLF,StarRocks3.1 版本起支援)

CREATE EXTERNAL CATALOG paimon_by_dlf
PROPERTIES (
  "type" = "paimon",
  "paimon.catalog.type" = "dlf",
  "paimon.catalog.warehouse" = "oss://bucket-hz/paimon_warehouse/",
  "aliyun.oss.endpoint" = "EndPoint",
  "dlf.catalog.id"="123456"
);
說明

採用dlf作為中繼資料服務,配置Paimon Catalog時:

  • 參數paimon.catalog.warehouse是指Paimon資料湖架構中的一個配置屬性,用於指定資料倉儲的根路徑。

  • 請根據資料來源所在的地區,在OSS地區Endpoint對照表中尋找EndPoint參數,詳情請參見地區和Endpoint。樣本值為oss-cn-hangzhou-internal.aliyuncs.com

  • 請將樣本中的dlf.catalog.id參數替換為您Hive資料來源的hive-site.xml設定檔中對應的dlf.catalog.id參數值。

Unified Catalog

Hive(StarRocks3.2版本起支援)

CREATE EXTERNAL CATALOG unified_by_dlf
PROPERTIES (
  "type" = "unified",
  "unified.metastore.type" = "hive",
  "hive.metastore.uris" = "thrift://192.xxx.xxx.xxx:9083"
);
說明

採用Hive作為中繼資料服務,配置Unified Catalog時,請將樣本中的hive.metastore.uris參數替換為您Hive資料來源的設定檔hive-site.xml中對應的hive.metastore.uris參數值。