全部產品
Search
文件中心

E-MapReduce:管理匯入任務

更新時間:Sep 15, 2024

匯入任務是EMR StarRocks Manager中的一個功能模組,旨在降低使用者在匯入任務管理方面的營運成本,提供可視化的匯入任務管理能力。本文為您介紹如何使用EMR StarRocks Manager管理匯入任務。

背景資訊

該頁面的資料來自於使用StarRocks核心提供的查詢命令(例如show load)所得到的結果,這些資料的生命週期與核心中資料存放區的生命週期相同。

該功能適用於以下情境:

  • 查看某一個匯入任務的資料匯入情況,包括已匯入的資料條數和資料大小等資訊。

  • 查看某一個匯入失敗任務的錯誤情況,以及原因分析。

  • 如果表資料出現錯誤或延遲,需要從匯入任務做排查,以看到任務是否正在運行,是否存在延遲等情況。

前提條件

已串連對應的執行個體,詳情請參見SQL Editor

使用限制

該功能僅支援2.5.8-1.7-1.1.3及之後版本使用。

查看匯入工作清單

重要

如果要查看Stream Load任務的資訊,需要在匯入任務前在StarRocks執行個體中設定set global enable_load_profile = true,才能看到任務資訊。

在EMR StarRocks Manager的匯入任務頁面,支援:

  • 查看Broker Load、RoutineLoad、Stream Load和Insert匯入任務。

  • 根據任務ID、任務建立時間進行升降序排序。

  • 通過計算群組、資料庫名、資料表名、任務ID、狀態和標籤篩選任務。

    狀態說明如下表。

    Broker Load

    狀態

    說明

    終態

    FINISHED

    匯入任務成功。

    CANCELLED

    匯入任務失敗。

    非終態

    QUEUEING

    匯入任務正在等待執行中。

    PENDING

    匯入任務已建立。

    LOADING

    匯入任務正在執行中。

    PREPARED

    匯入任務已提交。

    Routine Load

    狀態

    說明

    終態

    STOPPED

    匯入任務停止。

    CANCELLED

    匯入任務失敗。

    非終態

    NEED_SCHEDULE

    等待任務調度。

    RUNNING

    匯入任務正在執行中。

    PAUSED

    匯入任務暫停。

    Stream Load

    狀態

    說明

    終態

    FINISHED

    匯入任務成功。

    CANCELLED

    匯入任務失敗。

    非終態

    BEGIN

    開始匯入任務。

    BEFORE_LOAD

    準備寫入資料。

    LOADING

    寫入資料。

    PREPARING

    預提交匯入任務。

    PREPARED

    預提交匯入任務成功。

    COMMITED

    提交匯入任務。

    Insert任務

    說明

    僅限於內表的Insert任務。

    狀態

    說明

    終態

    FINISHED

    匯入任務成功。

    CANCELLED

    匯入任務失敗。

    非終態

    QUEUEING

    匯入任務正在等待執行中。

    PENDING

    匯入任務已建立。

    LOADING

    匯入任務正在執行中。

    PREPARED

    匯入任務已提交。

查看匯入任務詳情

在EMR StarRocks Manager的匯入任務頁面,單擊目標任務ID,在任務詳情頁面,可以查看任務詳情。

如果有匯入失敗的任務,您可以查看詳細的錯誤記錄檔。各匯入任務部分欄位名介紹如下。

Broker Load

欄位名

說明

etlInfo

ETL(Extract Transform Load)資訊。

taskInfo

建立匯入任務時指定的參數,包括:

  • resource:該參數在Broker Load匯入任務中無實際意義。

  • timeout:匯入任務的逾時時間。單位:秒。

  • max-filter-ratio:匯入任務的最大容忍率,即匯入任務能夠容忍的因資料不規範等原因而過濾掉的資料行所佔的最大比例。

jobDetails

匯入任務的詳細資料,包括任務數量、檔案數量和大小、資料量、行數等。

errorMessage

匯入任務的失敗原因。當匯入任務的狀態為PENDING,LOADING或FINISHED時,該參數值為NULL。當匯入任務的狀態為CANCELLED時,該參數值包括type和msg兩部分:

  • type:

    • USER_CANCEL:匯入任務被手動取消。

    • ETL_SUBMIT_FAIL:匯入任務提交失敗。

    • ETL_QUALITY_UNSATISFIED:資料品質不合格,即匯入任務的錯誤資料率超過了max-filter-ratio。

    • LOAD_RUN_FAIL:匯入任務在LOAD階段失敗。

    • TIMEOUT:匯入任務未在允許的逾時時間內完成。

    • UNKNOWN:未知的匯入錯誤。

  • msg:顯示有關失敗原因的詳細資料。

trackingSQL

查詢錯誤記錄檔的SQL。

trackingLogs

詳細錯誤記錄檔。

Routine Load

欄位名

說明

jobProperties

任務屬性,包括一些配置資訊等。

dataSourceProperties

資料來源屬性。

customProperties

自訂屬性。

statistics

統計資訊(包括行數、資料量等)。

reasonOfStateChanged

狀態改變原因。

errorLogUrls

錯誤記錄檔連結。

otherMsg

其他資訊。

trackingSQL

查詢錯誤記錄檔的SQL。

trackingLogs

詳細錯誤記錄檔。

Stream Load

欄位名

說明

errorMessage

錯誤資訊。

trackingSQL

查詢錯誤記錄檔的SQL。

trackingLogs

詳細錯誤記錄檔。

Insert任務

欄位名

說明

etlInfo

ETL(Extract Transform Load)資訊。

taskInfo

建立匯入任務時指定的參數,包括:

  • resource:該參數在Insert匯入任務中無實際意義。

  • timeout:匯入任務的逾時時間。單位:秒。

  • max-filter-ratio:匯入任務的最大容忍率,即匯入任務能夠容忍的因資料不規範等原因而過濾掉的資料行所佔的最大比例。

jobDetails

匯入任務的詳細資料,包括任務數量、檔案數量和大小、資料量、行數等。

errorMessage

匯入任務的失敗原因。當匯入任務的狀態為PENDING,LOADING或FINISHED時,該參數值為NULL。當匯入任務的狀態為CANCELLED時,該參數值包括type和msg兩部分:

  • type:

    • USER_CANCEL:匯入任務被手動取消。

    • ETL_SUBMIT_FAIL:匯入任務提交失敗。

    • ETL_QUALITY_UNSATISFIED:資料品質不合格,即匯入任務的錯誤資料率超過了max-filter-ratio。

    • LOAD_RUN_FAIL:匯入任務在LOAD階段失敗。

    • TIMEOUT:匯入任務未在允許的逾時時間內完成。

    • UNKNOWN:未知的匯入錯誤。

  • msg:顯示有關失敗原因的詳細資料。

trackingSQL

查詢錯誤記錄檔的SQL。

trackingLogs

詳細錯誤記錄檔。

查看匯入任務Profile

在EMR StarRocks Manager的匯入任務頁面,單擊目標任務ID,在任務Profile頁面,可以查看匯入任務Profile。

支援查看最近500條BrokerLoad和StreamLoad匯入任務的Profile。

說明

StarRocks執行個體最多保留最近500條匯入任務的Profile。由於Stream Load在高頻即時匯入情境下會產生大量小任務,預設限制超過10s的Stream Load任務才會採集Profile。

操作匯入任務

您可以在EMR StarRocks Manager的匯入任務頁面,對非終態的Broker Load、Routine Load匯入任務進行操作。

任務類型

操作

說明

Broker Load

取消

匯入任務會進入CANCELLED狀態。

Routine Load

暫停

匯入任務會進入PAUSED狀態,但是匯入任務未結束,可以通過恢複操作來重啟匯入任務。

恢複

匯入任務會先短暫地進入NEED_SCHEDULE狀態,表示正在重新調度匯入任務,一段時間後會恢複至RUNNING狀態,繼續消費Kafka訊息並且匯入資料。

停止

匯入任務會進入STOPPED狀態,代表此匯入任務已經結束,且無法恢複。

匯入任務樣本

  1. 建立兩個Broker Load任務,詳情請參見Broker Load

    第二個匯入任務,您可以修改資料表,手動造一些髒資料,用來類比匯入失敗的情況。

    如果建立其他方式的匯入任務,請參見InsertRoutine LoadStream Load

  2. 進入StarRocks Manager頁面。

    1. 登入E-MapReduce控制台

    2. 在左側導覽列,選擇EMR Serverless > StarRocks

    3. 在頂部功能表列處,根據實際情況選擇地區。

    4. 單擊StarRocks Manager,或者單擊已建立執行個體操作列的串連執行個體

      串連StarRocks執行個體詳情,請參見通過EMR StarRocks Manager串連StarRocks執行個體

  3. 串連StarRocks執行個體,詳情請參見SQL Editor

  4. 在左側導覽列,單擊匯入任務

    該頁面為您展示當前帳號下所有的匯入任務資訊。

    當任務狀態為CANCELLED時,將滑鼠移至上方在任務狀態處可查看簡要的錯誤資訊,如需查看詳細錯誤記錄檔,請進入到任務詳情頁面查看。

  5. 單擊待查看的匯入任務類型。

    預設展示Broker Load任務類型。

  6. 單擊待查看的任務ID

    該頁面為您展示該匯入任務的任務詳情和任務Profile。