研發平台設定 - Dataphin

研發平台協助您在研發過程中對鎖及Analyze命令的並發數量進行管控。本文將為您介紹如何設定編輯鎖、對象提交、查詢加速及儲存量更新設定。

使用限制

當計算引擎為E-MapReduce3.x、E-MapReduce5.x、CDH5.x、CDH6.x、FusionInsight 8.x、Cloudera Data Platform 7.x、亞信DP5.3、ArgoDB、TDH 6.x、StarRocks、SelectDB、Doris時，可使用儲存量更新設定功能。
SelectDB、Doris計算引擎不支援表管理設定、規範建模預設計算引擎模組。

許可權說明

僅支援具備管理研發平台設定許可權點的自訂使用者角色和超級管理員或系統管理員設定研發平台。

研發平台入口

在Dataphin首頁的頂部功能表列中，選擇管理中心 > 系統設定。
在左側導覽列中選擇平台設定 > 研發平台。

編輯鎖

在編輯鎖地區，單擊編輯表徵圖，開啟排他編輯鎖開關並配置鎖。

參數	描述
排他編輯鎖	未開啟時，使用者可互相覆蓋鎖定狀態；開啟後，使用者鎖定某個對象後其他使用者不可編輯，直到手動釋放或持鎖到期，其他使用者才可鎖定並開始編輯。
持鎖時間長度	持鎖時間長度內，使用者無任何編輯動作，持鎖排他將失效，可被其他使用者擷取鎖。預設為30分鐘，最低為5分鐘，最高不超過120分鐘。
關閉對象時自動釋放	關閉對象編輯選項（tab）時自動釋放鎖定。
提交成功時自動釋放	提交成功時自動釋放鎖定，提交失敗不釋放。

單擊確定，完成編輯鎖設定。
如需恢複系統初始配置，您可一鍵恢複預設值。

查詢加速

開啟查詢加速，支援加速所有即席查詢和分析平台的SQL單元查詢；關閉該開關，則所有即席查詢和分析平台SQL單元的查詢加速開關將被隱藏，不支援查詢加速。

重要

查詢加速僅支援MaxCompute計算引擎。

儲存量更新設定

通過整合、即時研發等任務直接寫入到HDFS的資料表，Hive預設不更新儲存量資訊，包括：表格儲存體量、分區儲存量，因此，在資產目錄中無法展示目標表的儲存量資訊。Dataphin提供了在資料表更新後自動執行Analyze命令以擷取最新儲存量資訊的功能，您可以在管理中心-系統設定-研發平台設定中進行配置。

在儲存量更新設定地區，點擊編輯表徵圖，開啟儲存量自動更新開關並配置並發串連數。
- 儲存量自動更新：預設關閉，開啟後，Dataphin會在任務運行成功後，針對Hive目標表自動執行Analyze命令以更新儲存量資訊，如果整合、即時研發等任務數量較多，並且您的Hive Server效能較好，可以通過調整並發串連數以縮短更新命令的整體已耗用時間，保證次日可在資產目錄查詢最新儲存量。請注意，並發串連過高可能會消耗較多計算資源，影響其他任務正常運行，請結合業務情境，合理配置並發串連數。
- 最大串連數：支援設定執行Analyze命令的最大並發串連數，預設為5，支援設定1~200之間的正整數。
  重要
  當儲存量自動更新開啟時，Analyze命令運行超過24小時，系統將自動終止執行中或等待中的命令，節省計算資源的消耗。
單擊確定，完成儲存量更新設定。
說明
- 當儲存量自動更新從關閉變為開啟，並確定後，所配置的並發串連數立即生效，請注意，並發串連過高可能會消耗較多計算資源，影響其他任務正常運行，請結合業務情境，合理配置並發串連數。
- 當儲存量自動更新從開啟變為關閉時，正在執行中或等待中的Analyze命令不受影響，後續運行成功的整合、即時研發等任務的目標表格儲存體量將無法自動更新，您可在Hive中執行Analyze命令手動更新資訊。

節點任務相關設定

在節點任務相關設定地區單擊編輯表徵圖，配置建立任務預設調度時間和對象提交規則。

建立

參數		描述
預設優先順序		建立整合任務、計算任務和邏輯表任務時的預設優先順序，可選擇最低、低或中，預設選擇為中。
預設調度時間	區間內隨機	時間區間預設為00:00~03:00，隨機時間間隔預設為5分鐘。時間區間的結束時間必須大於開始時間，時間的有效取值範圍為00:00~23:59，格式為hh:mm。隨機時間間隔的有效取值範圍為1 ~ 30的正整數。
	固定時間	固定時間預設為00:00。時間的有效取值範圍為00:00~23:59，格式為hh:mm。
Python預設版本		建立Python計算任務、建立Python離線計算模板和安裝Python三方包時的預設Python版本。可選擇Python 2.7、Python 3.7或Python 3.11，預設為Python 3.7。

說明

預設調度時間預設選擇為區間內隨機，您可根據需要修改為固定時間。
建立離線任務（整合任務、計算任務、邏輯表）時，調度時間會根據此處配置的預設調度時間自動取值。
- 若預設調度時間選擇區間內隨機，則按照所配置規則隨機擷取一個時間。
- 若預設調度時間選擇固定時間，則擷取所配置的時間。

運行
SQL 包含帳號密碼全域變數時隱藏 logview URL：SQL中的帳號密碼全域變數，會以明文展示在MaxCompute logview的SQL中，容易造成泄露，預設關閉。
若啟用此配置項，如果MAXCOMPUTE_SQL和邏輯表任務中包含帳號密碼全域變數，那麼在開發環境的運行和資料預覽日誌，以及生產環境的營運日誌中，引用了帳號密碼全域變數的SQL的logview URL將被隱藏。logview URL替換為 當前SQL使用了帳號密碼全域變數 {dp_glb_xxx}，已隱藏logview url The logview url is invisible because of current SQL is using global variable “{dp_glb_xxx}”, which is of type account and password.。
說明
僅當計算引擎為MaxCompute時支援此項配置。

提交

參數	描述
離線研發對象提交自動解析依賴	開啟後，離線研發對象（例如，SQL計算任務和邏輯表任務）每一次提交時自動觸發依賴解析，更新上遊依賴列表，避免上遊依賴遺忘缺失。
邏輯表提交欄位類型校正	開啟後，邏輯表提交時，系統將校正欄位計算邏輯的傳回型別與欄位類型是否相容匹配，不匹配時系統將阻塞提交，防止類型隱式轉換，造成資料錯誤。

下線刪除
開發環境可刪除發行對象：開啟後，發行到生產環境的對象（計算任務、整合任務、邏輯表、原子指標、業務限定、派生指標等）可在開發環境直接刪除。
重要
對象刪除後不可恢複，在開發環境中，如果刪除了開發對象而未將相應的刪除任務發布至生產環境，則在生產環境中，相應生產對象將無法進行任務變更，因為不存在對應的開發對象。

預設依賴周期與依賴策略

支援對預設依賴周期和預設依賴策略進行修改。

預設依賴周期：可選擇為本周期（當日）、上周期（前1日）、最近24小時或前N日，其中前N日中的N預設為2，且不可為空白。
預設依賴策略：可選擇為第一個執行個體、最近一個執行個體、全部執行個體或最後一個執行個體。

初始預設依賴周期和依賴策略如下表。

本節點調度周期	上遊節點調度周期	上遊節點是否自依賴	預設依賴周期	預設依賴策略
日/周/月	日	是/否	本周期（當日）	最後一個執行個體
日/周/月	小時/分鐘	否	本周期（當日）	全部執行個體
日/周/月	小時/分鐘	是	本周期（當日）	最後一個執行個體
月/周/日/小時/分鐘	月/周	是	本周期（當日）	最後一個執行個體
月/周/日/小時/分鐘	月/周	否	本周期（當日）	最後一個執行個體
小時/分鐘	日	是/否	本周期（當日）	最後一個執行個體
小時/分鐘	小時/分鐘	是/否	本周期（當日）	最後一個執行個體

標籤值
任務標籤屬性的值管理，您可單擊添加標籤，新增一個標籤，最多可添加50個標籤。標籤名稱支援任一字元，長度不超過64個字元。
您可單擊刪除表徵圖，刪除已有標籤。標籤刪除後，擁有該標籤的任務均不再展示該標籤，重新添加相同標籤後可恢複。

完成配置後，單擊確定。
如需恢複系統初始配置，您可一鍵恢複預設值。

表管理設定

說明

StarRocks、GaussDB（DWS）、Doris、SelectDB計算引擎不支援表管理設定。

在表管理設定地區單擊編輯表徵圖，配置使用SQL刪除表後自動產生表刪除待發布項和表管理中刪除表產生待發布項。
- 使用SQL刪除表後自動產生表刪除待發布項：預設開啟。開啟後，在開發環境即席查詢或SQL計算任務中執行drop table語句後，系統將自動產生刪除表的待發布項。關閉此開關後，在開發環境執行drop table table_name語句，則不產生刪除表的待發布項。
- 表管理中刪除表產生待發布項：預設開啟。開啟後，在表管理中進行刪除表操作，系統將產生相應的待發布項。關閉此開關後，在表管理中進行刪除表操作，則不產生相應待發布項。

配置預設儲存格式/外部表格預設儲存格式，不同計算引擎支援不同儲存格式，詳見下表。

說明

當計算引擎為AnalyticDB for PostgreSQL時，不支援配置預設儲存格式。
僅當計算引擎為MaxCompute時，支援配置外部表格預設儲存格式。
下表中-表示不支援。

引擎預設（建表語句中可另外指定）

hudi

delta(Delta Lake)

paimon

iceberg

kudu

parquet

avro

rcfile

orc

textfile

sequencefile

binaryfile

csv

text

json

MaxCompute

支援

Lindorm（計算引擎）

支援

Databricks

支援

Amazon EMR

支援

星環TDH6.x
星環TDH9.3.x

支援

CDH5.x
CDH6.x
E-MapReduce3.x
E-MapReduce5.x
Cloudera Data Platform 7.x
華為 FusionInsight 8.x
亞信DP5.3

支援

配置預設生命週期，即MaxCompute計算引擎下物理表和邏輯表的預設生命週期。預設為空白值，即不設定生命週期，可輸入1~36500範圍內的整數，同時支援快速選擇7、14、30或360天。
說明
僅當計算引擎為MaxCompute時，支援配置預設生命週期。
完成配置後，單擊確定。
如需恢複系統初始配置，您可一鍵恢複預設值。

規範建模預設計算引擎

設定Dataphin執行個體為Hadoop計算引擎的租戶支援設定規範建模的預設計算引擎，包括Hive、Impala、Spark。計算引擎存在以下限制，詳情如下：

重要

如果專案對應的計算源未開啟對應的任務時，將自動切換到Hive計算引擎。更多資訊，請參見建立Hadoop計算源。

Hive：不可讀取儲存為Kudu格式的來源表。
Impala：可讀取儲存為Kudu格式的來源表，暫不支援將邏輯表格儲存體為Kudu。如果沒有Kudu格式的來源表，不建議使用。
說明
當計算引擎為Amazon EMR時，不支援選擇Impala。
Spark：Spark不可讀取儲存為Kudu格式的來源表。

查詢加速

是否開啟MCQA查詢加速，開啟後所有即席查詢的MAX_COMPUTE_SQL查詢以及分析平台所有的SQL單元查詢，可以使用MCQA查詢加速；關閉則當前租戶不可使用MCQA查詢加速。

重要

查詢加速僅支援MaxCompute計算引擎。