Lindorm支援Bulkload(批量快速匯入資料)功能,可以更快更穩定的匯入資料。本文介紹批量快速匯入資料操作。
功能特性
批量快速匯入資料功能支援資料檔案旁路載入,不需要經過資料API寫入鏈路並且不需要佔用執行個體計算資源,,批量快速匯入資料與通過API匯入資料相比有以下優勢:
匯入資料更快,速度可以提升10倍以上。
線上服務更穩定,不佔用線上服務資源。
資源使用更靈活,在離線資源中分開使用更加靈活。
支援多種資料來源匯入,包括CSV、ORC、Parquet、MaxCompute等。
使用簡單。您無需開發任何代碼就可以實現資料的批量快速旁路載入。
成本低。LTS Bulkload基於Serverless Spark提供的雲原生彈效能力,根據您的需求提供彈性計算資源按量收費,您無需經常配置計算資源,可以降低使用成本。
前提條件
已開通並登入LTS資料同步服務,具體操作請參見開通並登入LTS。
已開通Lindorm計算引擎,具體操作請參見服務開通。
已添加Spark資料來源,具體操作請參見添加Spark資料來源。
支援的資料來源
來源資料源 | 目標資料來源 |
MaxCompute Table | Lindorm寬表引擎 |
HDFS CSV或者OSS CSV | |
HDFS Parquet或者OSS Parquet | |
HDFS ORC或者OSS ORC |
資料類型映射
Parquet檔案類型映射
基礎類型 | 邏輯類型 | Lindorm SQL資料類型 | HBase相容類型 |
| BOOLEAN | BOOLEAN | |
| INT_8 | TINYINT | BYTE |
| INT_16 | SMALLINT | SHORT |
| INTEGER | INT | |
| BIGINT/TIMESTAMP | LONG | |
| DATE | DATE | |
| FLOAT | FLOAT | |
| DOUBLE | DOUBLE | |
| BINARY(N)/VARBINARY | VARBINARY | |
| UTF-8 | VARCHAR/CHAR(N)/JSON | STRING |
| DECIMAL | DECIMAL
| DECIMAL |
| TIMESTAMP | ||
| ENUM | VARCHAR / CHAR(N) | STRING |
| JSON | JSON/VARCHAR/CHAR(N) | STRING |
ORC檔案資料類型映射
ORC資料類型 | Lindorm資料類型 | HBase相容類型 |
BOOLEAN | BOOLEAN | BOOLEAN |
BYTE | TINYINT | BYTE |
SHORT | SMALLINT | SHORT |
INT | INTEGER | INT |
LONG | BIGINT/TIMESTAMP | LONG |
FLOAT | FLOAT | FLOAT |
DOUBLE | DOUBLE | DOUBLE |
DECIMAL | DECIMAL | DECIMAL |
CHAR/VARCHAR/STRING | VARCHAR/CHAR(N)/JSON | STRING |
BINARY | BINARY(N)/VARBINARY | VARBINARY |
DATE | DATE | |
TIMESTAMP | TIMESTAMP |
CSV檔案資料類型映射
CSV檔案為文字格式設定,配置任務時需指定類型。
CSV資料類型 | Lindorm資料類型 | HBase相容類型 |
數字(無小數點) | TINYINT/SMALLINT/INTEGER/BIGINT | BYTE/SHORT/INT/LONG |
數字(有小數點) | FLOAT/DOUBLE/DECIMAL | FLOAT/DOUBLE/DECIMAL |
true/false 大小寫不敏感 | BOOLEAN | BOOLEAN |
字串 | VARCHAR / CHAR(N) | STRING |
Base64編碼字串 需要使用unbase64(base64StrCol)函數解碼為位元據 | BINARY(N)/VARBINARY | VARBINARY |
Hex16進位字串 需要使用unhex(hexStrCol)函數解碼為位元據 | BINARY(N)/VARBINARY | VARBINARY |
日期格式字串 需配置"dateFormat"選項,例如:yyyy-MM-dd | DATE | |
時間戳記格式字串 需配置"timestampFormat"選項,例如:yyyy-MM-dd HH:mm:ss | TIMESTAMP |
MaxCompute資料類型映射
MaxCompute資料類型 | Lindorm資料類型 | HBase相容類型 |
TINYINT | TINYINT | BYTE |
SMALLINT | SMALLINT | SHORT |
INT | INTEGER | INT |
BIGINT | BIGINT | LONG |
FLOAT | FLOAT | FLOAT |
DOUBLE | DOUBLE | DOUBLE |
DECIMAL | DECIMAL | DECIMAL |
BOOLEAN | BOOLEAN | BOOLEAN |
BINARY | BINARY(N)/VARBINARY | VARBINARY |
CHAR(N) | VARCHAR/CHAR(N) | STRING |
VARCHAR(N) | VARCHAR/CHAR(N) | STRING |
STRING | VARCHAR/CHAR(N) | STRING |
DATE | DATE | |
DATETIME 轉換之後只保留DATE部分,Time部分會丟失 | DATE | |
TIMESTAMP | TIMESTAMP |
提交方式
快速匯入資料任務支援以下方式提交。