全部产品
Search
文档中心

DataWorks:Sumber data Hive

更新时间:Nov 10, 2025

Sumber data Hive menyediakan saluran dua arah untuk membaca dan menulis data ke Hive. Topik ini menjelaskan kemampuan sinkronisasi data yang didukung DataWorks untuk Hive.

Fitur

Apache Hive adalah alat gudang data yang dibangun di atas Hadoop untuk analisis statistik log terstruktur dalam jumlah besar. Hive memetakan file data terstruktur ke tabel dan menyediakan kemampuan kueri SQL. Sebagai mesin pengurai SQL, Hive menggunakan MapReduce untuk analisis data, menyimpan data yang telah diproses di Hadoop Distributed File System (HDFS), mengonversi HiveQL menjadi program MapReduce, lalu menjalankannya di Yet Another Resource Negotiator (YARN).

Plugin Hive Reader mengakses layanan Hive Metastore untuk mendapatkan metadata dari tabel data yang Anda konfigurasikan. Anda dapat membaca data dengan dua cara: melalui file HDFS atau menggunakan Hive Java Database Connectivity (JDBC).

  • Baca data menggunakan file HDFS

    Plugin Hive Reader mengakses layanan Hive Metastore untuk mengurai informasi tentang tabel data yang Anda konfigurasikan, seperti jalur penyimpanan file HDFS, format file, dan pemisah. Plugin tersebut kemudian membaca data tabel dari Hive dengan membaca file HDFS.

  • Baca data menggunakan Hive JDBC

    Plugin Hive Reader terhubung ke layanan HiveServer2 melalui klien Hive JDBC untuk membaca data. Plugin ini mendukung penyaringan data menggunakan klausa where dan memungkinkan Anda membaca data secara langsung menggunakan Pernyataan SQL.

Plugin Hive Writer mengakses layanan Hive Metastore untuk mengurai informasi tentang tabel data yang Anda konfigurasikan, seperti jalur penyimpanan file HDFS, format file, dan pemisah. Plugin tersebut menulis data ke file HDFS, lalu menjalankan pernyataan LOAD DATA SQL melalui klien Hive JDBC untuk memuat data dari file HDFS ke dalam tabel Hive.

Logika dasar plugin Hive Writer sama dengan plugin HDFS Writer. Anda dapat mengonfigurasi parameter terkait HDFS Writer di plugin Hive Writer, yang kemudian akan diteruskan ke plugin HDFS Writer.

Versi yang didukung

Plugin Hive mendukung versi berikut:

0.8.0
0.8.1
0.9.0
0.10.0
0.11.0
0.12.0
0.13.0
0.13.1
0.14.0
1.0.0
1.0.1
1.1.0
1.1.1
1.2.0
1.2.1
1.2.2
2.0.0
2.0.1
2.1.0
2.1.1
2.2.0
2.3.0
2.3.1
2.3.2
2.3.3
2.3.4
2.3.5
2.3.6
2.3.7
3.0.0
3.1.0
3.1.1
3.1.2
3.1.3
0.8.1-cdh4.0.0
0.8.1-cdh4.0.1
0.9.0-cdh4.1.0
0.9.0-cdh4.1.1
0.9.0-cdh4.1.2
0.9.0-cdh4.1.3
0.9.0-cdh4.1.4
0.9.0-cdh4.1.5
0.10.0-cdh4.2.0
0.10.0-cdh4.2.1
0.10.0-cdh4.2.2
0.10.0-cdh4.3.0
0.10.0-cdh4.3.1
0.10.0-cdh4.3.2
0.10.0-cdh4.4.0
0.10.0-cdh4.5.0
0.10.0-cdh4.5.0.1
0.10.0-cdh4.5.0.2
0.10.0-cdh4.6.0
0.10.0-cdh4.7.0
0.10.0-cdh4.7.1
0.12.0-cdh5.0.0
0.12.0-cdh5.0.1
0.12.0-cdh5.0.2
0.12.0-cdh5.0.3
0.12.0-cdh5.0.4
0.12.0-cdh5.0.5
0.12.0-cdh5.0.6
0.12.0-cdh5.1.0
0.12.0-cdh5.1.2
0.12.0-cdh5.1.3
0.12.0-cdh5.1.4
0.12.0-cdh5.1.5
0.13.1-cdh5.2.0
0.13.1-cdh5.2.1
0.13.1-cdh5.2.2
0.13.1-cdh5.2.3
0.13.1-cdh5.2.4
0.13.1-cdh5.2.5
0.13.1-cdh5.2.6
0.13.1-cdh5.3.0
0.13.1-cdh5.3.1
0.13.1-cdh5.3.2
0.13.1-cdh5.3.3
0.13.1-cdh5.3.4
0.13.1-cdh5.3.5
0.13.1-cdh5.3.6
0.13.1-cdh5.3.8
0.13.1-cdh5.3.9
0.13.1-cdh5.3.10
1.1.0-cdh5.3.6
1.1.0-cdh5.4.0
1.1.0-cdh5.4.1
1.1.0-cdh5.4.2
1.1.0-cdh5.4.3
1.1.0-cdh5.4.4
1.1.0-cdh5.4.5
1.1.0-cdh5.4.7
1.1.0-cdh5.4.8
1.1.0-cdh5.4.9
1.1.0-cdh5.4.10
1.1.0-cdh5.4.11
1.1.0-cdh5.5.0
1.1.0-cdh5.5.1
1.1.0-cdh5.5.2
1.1.0-cdh5.5.4
1.1.0-cdh5.5.5
1.1.0-cdh5.5.6
1.1.0-cdh5.6.0
1.1.0-cdh5.6.1
1.1.0-cdh5.7.0
1.1.0-cdh5.7.1
1.1.0-cdh5.7.2
1.1.0-cdh5.7.3
1.1.0-cdh5.7.4
1.1.0-cdh5.7.5
1.1.0-cdh5.7.6
1.1.0-cdh5.8.0
1.1.0-cdh5.8.2
1.1.0-cdh5.8.3
1.1.0-cdh5.8.4
1.1.0-cdh5.8.5
1.1.0-cdh5.9.0
1.1.0-cdh5.9.1
1.1.0-cdh5.9.2
1.1.0-cdh5.9.3
1.1.0-cdh5.10.0
1.1.0-cdh5.10.1
1.1.0-cdh5.10.2
1.1.0-cdh5.11.0
1.1.0-cdh5.11.1
1.1.0-cdh5.11.2
1.1.0-cdh5.12.0
1.1.0-cdh5.12.1
1.1.0-cdh5.12.2
1.1.0-cdh5.13.0
1.1.0-cdh5.13.1
1.1.0-cdh5.13.2
1.1.0-cdh5.13.3
1.1.0-cdh5.14.0
1.1.0-cdh5.14.2
1.1.0-cdh5.14.4
1.1.0-cdh5.15.0
1.1.0-cdh5.16.0
1.1.0-cdh5.16.2
1.1.0-cdh5.16.99
2.1.1-cdh6.1.1
2.1.1-cdh6.2.0
2.1.1-cdh6.2.1
2.1.1-cdh6.3.0
2.1.1-cdh6.3.1
2.1.1-cdh6.3.2
2.1.1-cdh6.3.3
3.1.1-cdh7.1.1

Batasan

  • Sumber data Hive mendukung kelompok sumber daya arsitektur tanpa server (disarankan) dan kelompok sumber daya eksklusif untuk Data Integration.

  • Anda hanya dapat membaca file dalam format TextFile, ORCFile, atau ParquetFile.

  • Saat menggunakan Data Integration untuk melakukan sinkronisasi offline ke kluster Hive, file sementara akan dihasilkan di server. File-file tersebut akan dihapus secara otomatis setelah tugas sinkronisasi selesai. Untuk mencegah sistem file menjadi tidak tersedia, pantau batas jumlah file di direktori HDFS server. DataWorks tidak menjamin bahwa jumlah file tetap berada dalam batas direktori HDFS.

    Catatan

    Di server, Anda dapat memodifikasi parameter dfs.namenode.fs-limits.max-directory-items untuk menentukan jumlah maksimum direktori atau file yang dapat dimuat dalam satu direktori. Nilai default-nya adalah 1.048.576, dan nilainya dapat berkisar antara 1 hingga 6.400.000. Untuk mencegah masalah ini, Anda dapat meningkatkan nilai parameter HDFS dfs.namenode.fs-limits.max-directory-items atau menghapus file yang tidak diperlukan.

  • Anda dapat menggunakan otentikasi identitas Kerberos atau otentikasi SSL untuk mengakses sumber data Hive. Jika otentikasi identitas tidak diperlukan, pilih No Authentication untuk opsi Authentication Options saat menambahkan sumber data.

  • Saat menggunakan otentikasi Kerberos untuk mengakses sumber data Hive di DataWorks, jika HiveServer2 dan metastore keduanya telah mengaktifkan otentikasi Kerberos tetapi menggunakan principal yang berbeda, Anda harus menambahkan konfigurasi berikut ke parameter ekstensi:

     {
    "hive.metastore.kerberos.principal": "<your metastore principal>"
    }

Tipe bidang yang didukung

Tabel berikut mencantumkan tipe bidang yang didukung oleh sumber data Hive untuk pembacaan offline.

Kategori

Tipe data Hive

String

CHAR, VARCHAR, STRING

Integer

TINYINT, SMALLINT, INT, INTEGER, BIGINT

Floating-point

FLOAT, DOUBLE, DECIMAL

Tanggal dan waktu

TIMESTAMP, DATE

Boolean

BOOLEAN

Persiapan

Persiapan yang diperlukan bervariasi berdasarkan mode konfigurasi sumber data.

Mode instans Alibaba Cloud

Jika Anda ingin menyinkronkan tabel OSS dalam instans ini, pilih Access Identity yang sesuai. Identitas akses yang didukung adalah Alibaba Cloud Account, RAM User, dan RAM Role. Pastikan identitas akses yang dipilih memiliki izin OSS yang diperlukan. Jika tidak, sinkronisasi data akan gagal karena izin baca dan tulis yang tidak mencukupi.

Penting

Pengujian konektivitas tidak memverifikasi izin baca dan tulis data.

Mode string koneksi

Konfigurasi DLF

Jika sumber data Hive Anda berasal dari EMR dan menggunakan DLF untuk manajemen metadata, Anda harus menambahkan konten berikut ke kolom Extension Parameters:

{"dlf.catalog.id" : "my_catalog_xxxx"}

Dalam kode tersebut, my_catalog_xxxx adalah nama yang sesuai dengan parameter dlf.catalog.id dalam konfigurasi EMR Hive Anda.

Konfigurasi ketersediaan tinggi (HA)

Jika kluster EMR Hive yang ingin Anda sinkronkan telah mengaktifkan High Availability, Anda harus mengaktifkan High-availability Mode dan mengonfigurasi informasi HA terkait di bagian Extended Parameters dengan format berikut. Anda dapat membuka Konsol EMR, temukan kluster target, lalu klik Cluster Services di kolom Actions untuk mendapatkan nilai konfigurasi terkait.

{
// Kode berikut memberikan contoh konfigurasi HA.
"dfs.nameservices":"testDfs",
"dfs.ha.namenodes.testDfs":"namenode1,namenode2",
"dfs.namenode.rpc-address.testDfs.namenode1": "",
"dfs.namenode.rpc-address.testDfs.namenode2": "",
"dfs.client.failover.proxy.provider.testDfs":"org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider"
// (Opsional) Jika penyimpanan dasarnya adalah OSS, Anda harus mengonfigurasi parameter berikut di parameter ekstensi untuk terhubung ke layanan OSS.
"fs.oss.accessKeyId":"<yourAccessKeyId>",
"fs.oss.accessKeySecret":"<yourAccessKeySecret>",
"fs.oss.endpoint":"oss-cn-<yourRegion>-internal.aliyuncs.com"
}

Konfigurasi tabel eksternal OSS

Jika penyimpanan dasarnya adalah OSS, perhatikan hal berikut:

  • Konfigurasi defaultFS harus diawali dengan oss://, misalnya, oss://bucketName.

  • Jika tabel yang ingin Anda sinkronkan adalah tabel eksternal OSS, Anda harus memasukkan informasi terkait OSS di kolom Extension Parameters saat mengonfigurasi sumber data Hive.

    {
        "fs.oss.accessKeyId":"<yourAccessKeyId>",
        "fs.oss.accessKeySecret":"<yourAccessKeySecret>",
        "fs.oss.endpoint":"oss-cn-<yourRegion>-internal.aliyuncs.com"
    }
  • Jika tabel yang akan disinkronkan adalah tabel eksternal OSS-HDFS, Anda harus mengonfigurasi informasi OSS-HDFS terkait di kolom Extension Parameters saat mengonfigurasi sumber data Hive.

    {
        "fs.oss.accessKeyId":"<yourAccessKeyId>",
        "fs.oss.accessKeySecret":"<yourAccessKeySecret>",
        "fs.oss.endpoint":"cn-<yourRegion>.oss-dls.aliyuncs.com"
    }

Mode CDH

Untuk menggunakan mode CDH dalam mengonfigurasi sumber data Hive, Anda harus mendaftarkan kluster CDH ke DataWorks.

Buat sumber data

Saat mengembangkan tugas sinkronisasi data, Anda harus membuat sumber data yang sesuai di DataWorks. Untuk informasi lebih lanjut tentang prosedurnya, lihat Manajemen sumber data. Untuk penjelasan detail mengenai parameter konfigurasi, lihat petunjuk teks untuk setiap parameter di halaman konfigurasi.

Berikut ini menjelaskan parameter untuk opsi Authentication Options yang berbeda:

Otentikasi Kerberos

Parameter

Deskripsi

file keytab

File .keytab yang dihasilkan saat principal layanan didaftarkan di lingkungan Kerberos.

file conf

File conf adalah file konfigurasi Kerberos. File ini digunakan untuk menentukan berbagai pengaturan untuk klien dan server Kerberos. File konfigurasi utama adalah:

  • krb5.conf: File konfigurasi yang digunakan oleh klien dan pustaka. File ini menentukan pengaturan default global, konfigurasi realm, pemetaan nama domain, pengaturan default aplikasi, dan opsi pencatatan log.

  • kdc.conf: File konfigurasi untuk server Key Distribution Center (KDC). File ini menentukan lokasi basis data, lokasi file log, dan pengaturan spesifik KDC lainnya.

principal

Entitas identitas, yang bisa berupa pengguna atau layanan. Entitas ini memiliki nama unik dan kunci enkripsi terkait.

  • Format principal pengguna: username@REALM.

  • Format principal layanan: service/hostname@REALM.

Otentikasi SSL

Parameter

Deskripsi

File sertifikat Truststore

File sertifikat Truststore yang dihasilkan saat otentikasi SSL diaktifkan, seperti file truststore.jks.

Kata sandi Truststore

Kata sandi yang ditetapkan untuk file sertifikat Truststore saat otentikasi SSL diaktifkan.

File sertifikat Keystore

File sertifikat Keystore yang dihasilkan saat otentikasi SSL diaktifkan, seperti file keystore.jks.

Kata sandi Keystore

Kata sandi yang ditetapkan untuk file sertifikat Keystore saat otentikasi SSL diaktifkan.

Kembangkan tugas sinkronisasi data

Untuk informasi mengenai titik masuk dan prosedur konfigurasi tugas sinkronisasi, lihat panduan konfigurasi berikut.

Konfigurasi tugas sinkronisasi offline untuk satu tabel

Konfigurasi tugas sinkronisasi baca offline untuk seluruh basis data

Untuk informasi lebih lanjut mengenai prosedurnya, lihat Tugas sinkronisasi offline untuk seluruh basis data.

Lampiran: Demo skrip dan parameter

Konfigurasi tugas sinkronisasi batch menggunakan editor kode

Jika Anda ingin mengonfigurasi tugas sinkronisasi batch menggunakan editor kode, Anda harus mengonfigurasi parameter terkait dalam skrip berdasarkan persyaratan format skrip terpadu. Untuk informasi lebih lanjut, lihat Konfigurasi tugas di editor kode. Informasi berikut menjelaskan parameter yang harus Anda konfigurasi untuk sumber data saat mengonfigurasi tugas sinkronisasi batch menggunakan editor kode.

Demo skrip Reader

Anda dapat membaca data menggunakan file HDFS atau Hive JDBC:

  • Baca data menggunakan file HDFS

    {
        "type": "job",
        "steps": [
            {
                "stepType": "hive",
                "parameter": {
                    "partition": "pt1=a,pt2=b,pt3=c", // Informasi partisi
                    "datasource": "hive_not_ha_****", // Nama sumber data
                    "column": [ // Kolom yang akan dibaca
                        "id",
                        "pt2",
                        "pt1"
                    ],
                    "readMode": "hdfs", // Mode baca
                    "table": "part_table_1",
                    "fileSystemUsername" : "hdfs",
                    "hivePartitionColumn": [
                        {
                          "type": "string",
                          "value": "nama partisi 1"
                        },
                        {
                          "type": "string",
                          "value": "nama partisi 2"
                         }
                     ],
                     "successOnNoFile":true
                },
                "name": "Reader",
                "category": "reader"
            },
            {
                "stepType": "hive",
                "parameter": {
                },
                "name": "Writer",
                "category": "writer"
            }
        ],
        "version": "2.0",
        "order": {
            "hops": [
                {
                    "from": "Reader",
                    "to": "Writer"
                }
            ]
        },
        "setting": {
            "errorLimit": {
                "record": "" // Jumlah catatan kesalahan
            },
            "speed": {
                "concurrent": 2, // Konkurensi pekerjaan
                "throttle": true,// Jika throttle diatur ke false, parameter mbps tidak berlaku, artinya lalu lintas tidak dikendalikan. Jika throttle diatur ke true, lalu lintas dikendalikan.
                "mbps":"12"// Pengendalian aliran
            }
        }
    }
  • Baca data menggunakan Hive JDBC

    {
        "type": "job",
        "steps": [
            {
                "stepType": "hive",
                "parameter": {
                    "querySql": "select id,name,age from part_table_1 where pt2='B'",
                    "datasource": "hive_not_ha_****",  // Nama sumber data
                     "session": [
                        "mapred.task.timeout=600000"
                    ],
                    "column": [ // Kolom yang akan dibaca
                        "id",
                        "name",
                        "age"
                    ],
                    "where": "",
                    "table": "part_table_1",
                    "readMode": "jdbc" // Mode baca
                },
                "name": "Reader",
                "category": "reader"
            },
            {
                "stepType": "hive",
                "parameter": {
                },
                "name": "Writer",
                "category": "writer"
            }
        ],
        "version": "2.0",
        "order": {
            "hops": [
                {
                    "from": "Reader",
                    "to": "Writer"
                }
            ]
        },
        "setting": {
            "errorLimit": {
                "record": ""
            },
            "speed": {
                "concurrent": 2,  // Konkurensi pekerjaan
                "throttle": true,// Jika throttle diatur ke false, parameter mbps tidak berlaku, artinya lalu lintas tidak dikendalikan. Jika throttle diatur ke true, lalu lintas dikendalikan.
                "mbps":"12"// Pengendalian aliran            
                
            }
        }
    }

Parameter skrip Reader

Parameter

Deskripsi

Wajib

Nilai default

datasource

Nama sumber data. Nama harus sama dengan yang telah Anda tambahkan.

Ya

Tidak ada

table

Nama tabel yang akan disinkronkan.

Catatan

Ini bersifat case-sensitive.

Ya

Tidak ada

readMode

Mode baca:

  • Untuk membaca data menggunakan file HDFS, atur parameter ini ke "readMode":"hdfs".

  • Untuk membaca data menggunakan Hive JDBC, atur parameter ini ke "readMode":"jdbc".

Catatan
  • Saat Anda membaca data menggunakan Hive JDBC, Anda dapat menggunakan klausa Where untuk penyaringan data. Namun, dalam skenario ini, mesin Hive mungkin menghasilkan tugas MapReduce di lapisan dasar, yang tidak efisien.

  • Saat Anda membaca data menggunakan file HDFS, Anda tidak dapat menggunakan klausa Where untuk penyaringan data. Dalam skenario ini, file data tabel Hive diakses secara langsung untuk dibaca, yang lebih efisien.

  • Membaca data dari view tidak didukung saat Anda menggunakan file HDFS.

Tidak

Tidak ada

partition

Informasi partisi tabel Hive:

  • Jika Anda membaca data menggunakan Hive JDBC, Anda tidak perlu mengonfigurasi parameter ini.

  • Jika Anda membaca data dari tabel Hive berpartisi, Anda perlu mengonfigurasi informasi partition. Tugas sinkronisasi akan membaca data dari partisi yang ditentukan dalam parameter partition.

    Plugin Hive Reader mendukung penggunaan tanda bintang (*) sebagai karakter wildcard untuk partisi tingkat tunggal, tetapi tidak untuk partisi multi-level.

  • Jika tabel Hive Anda adalah tabel non-partisi, Anda tidak perlu mengonfigurasi parameter partition.

Tidak

Tidak ada

session

Konfigurasi tingkat sesi untuk pembacaan Hive JDBC. Anda dapat mengatur parameter klien. Misalnya, SET hive.exec.parallel=true

Tidak

Tidak ada

column

Kolom yang akan dibaca. Misalnya, "column": ["id", "name"].

  • Pemangkasan kolom didukung. Anda dapat mengekspor subset kolom.

  • Pengubahan urutan kolom didukung. Anda dapat mengekspor kolom dalam urutan yang berbeda dari skema tabel.

  • Anda dapat menentukan kolom kunci partisi.

  • Anda dapat menentukan konstanta.

  • Parameter column harus secara eksplisit menentukan kumpulan kolom yang akan disinkronkan. Parameter ini tidak boleh kosong.

Ya

Tidak ada

querySql

Saat Anda membaca data menggunakan Hive JDBC, Anda dapat langsung mengonfigurasi parameter querySql untuk membaca data.

Tidak

Tidak ada

where

Saat Anda membaca data menggunakan Hive JDBC, Anda dapat mengatur parameter where untuk menyaring data.

Tidak

Tidak ada

fileSystemUsername

Saat Anda membaca data menggunakan HDFS, pengguna yang dikonfigurasi di halaman sumber data Hive digunakan secara default. Jika login anonim dikonfigurasi di halaman sumber data, akun admin digunakan secara default. Jika terjadi masalah izin selama tugas sinkronisasi, Anda harus beralih ke editor kode dan mengonfigurasi parameter fileSystemUsername.

Tidak

Tidak ada

hivePartitionColumn

Jika Anda ingin menyinkronkan nilai bidang partisi ke tujuan hilir, Anda dapat beralih ke editor kode dan mengonfigurasi parameter hivePartitionColumn.

Tidak

Tidak ada

successOnNoFile

Saat Anda membaca data dalam mode HDFS, parameter ini menentukan apakah tugas sinkronisasi berjalan normal jika direktori kosong.

Tidak

Tidak ada

Demo skrip Writer

{
    "type": "job",
    "steps": [
        {
            "stepType": "hive",
            "parameter": {
            },
            "name": "Reader",
            "category": "reader"
        },
        {
            "stepType": "hive",
            "parameter": {
                "partition": "year=a,month=b,day=c", // Konfigurasi partisi
                "datasource": "hive_ha_shanghai", // Sumber data
                "table": "partitiontable2", // Tabel tujuan
                "column": [ // Konfigurasi kolom
                    "id",
                    "name",
                    "age"
                ],
                "writeMode": "append" ,// Mode tulis
                "fileSystemUsername" : "hdfs"
            },
            "name": "Writer",
            "category": "writer"
        }
    ],
    "version": "2.0",
    "order": {
        "hops": [
            {
                "from": "Reader",
                "to": "Writer"
            }
        ]
    },
    "setting": {
        "errorLimit": {
            "record": ""
        },
        "speed": {
            "throttle":true,// Jika throttle diatur ke false, parameter mbps tidak berlaku, artinya lalu lintas tidak dikendalikan. Jika throttle diatur ke true, lalu lintas dikendalikan.
            "concurrent":2, // Konkurensi pekerjaan.
            "mbps":"12"// Pengendalian aliran
        }
    }
}

Parameter skrip Writer

Parameter

Deskripsi

Wajib

Nilai default

datasource

Nama sumber data. Nama harus sama dengan yang telah Anda tambahkan.

Ya

Tidak ada

column

Kolom yang akan ditulis. Misalnya, "column": ["id", "name"].

  • Pemangkasan kolom didukung. Anda dapat mengekspor subset kolom.

  • Parameter column harus secara eksplisit menentukan kumpulan kolom yang akan disinkronkan. Parameter ini tidak boleh kosong.

  • Pengubahan urutan kolom tidak didukung.

Ya

Tidak ada

table

Nama tabel Hive yang akan ditulis.

Catatan

Ini bersifat case-sensitive.

Ya

Tidak ada

partition

Informasi partisi tabel Hive:

  • Jika tabel Hive yang Anda tulis adalah tabel partisi, Anda perlu mengonfigurasi informasi partition. Tugas sinkronisasi akan menulis data partisi yang sesuai dengan pengaturan partition.

  • Jika tabel Hive Anda adalah tabel non-partisi, Anda tidak perlu mengonfigurasi parameter partition.

Tidak

Tidak ada

writeMode

Mode untuk menulis data ke tabel Hive. Setelah data ditulis ke file HDFS, plugin Hive Writer menjalankan LOAD DATA INPATH (overwrite) INTO TABLE untuk memuat data ke dalam tabel Hive.

Parameter writeMode menentukan perilaku pemuatan data:

  • Jika writeMode diatur ke truncate, data yang ada akan dihapus sebelum data baru dimuat.

  • Jika writeMode diatur ke append, data yang ada dipertahankan.

  • Jika writeMode diatur ke nilai lain, data ditulis ke file HDFS, dan tidak ada data yang dimuat ke tabel Hive.

Catatan

Parameter writeMode adalah parameter berisiko tinggi. Perhatikan direktori penulisan dan perilaku parameter writeMode untuk mencegah penghapusan data secara tidak sengaja.

Perilaku pemuatan data harus digunakan bersama parameter hiveConfig. Perhatikan konfigurasi Anda.

Ya

Tidak ada

hiveConfig

Anda dapat mengonfigurasi parameter ekstensi Hive lanjutan di hiveConfig, termasuk hiveCommand, jdbcUrl, username, dan password:

  • hiveCommand: Jalur lengkap alat klien Hive. Setelah hive -e dijalankan, operasi pemuatan data LOAD DATA INPATH yang terkait dengan writeMode dilakukan.

    Informasi akses Hive dijamin oleh klien yang sesuai dengan hiveCommand.

  • jdbcUrl, username, dan password menentukan informasi akses Hive JDBC. Plugin HiveWriter mengakses Hive melalui driver Hive JDBC, lalu menjalankan operasi pemuatan data LOAD DATA INPATH yang terkait dengan writeMode.

    "hiveConfig": {
        "hiveCommand": "",
        "jdbcUrl": "",
        "username": "",
        "password": ""
            }
  • Plugin Hive Writer menggunakan klien HDFS untuk menulis data ke file HDFS di lapisan dasar. Anda juga dapat mengonfigurasi parameter lanjutan untuk klien HDFS di hiveConfig.

Ya

Tidak ada

fileSystemUsername

Saat Anda menulis data ke tabel Hive, pengguna yang dikonfigurasi di halaman sumber data Hive digunakan secara default. Jika login anonim dikonfigurasi di halaman sumber data, akun admin digunakan secara default. Jika terjadi masalah izin selama tugas sinkronisasi, Anda harus beralih ke editor kode dan mengonfigurasi parameter fileSystemUsername.

Tidak

Tidak ada

enableColumnExchange

Jika parameter ini diatur ke True, pengubahan urutan kolom diaktifkan.

Catatan

Hanya format Text yang didukung.

Tidak

Tidak ada

nullFormat

Data Integration menyediakan parameter nullFormat untuk menentukan string mana yang dapat diinterpretasikan sebagai null.

Misalnya, jika Anda mengonfigurasi nullFormat:"null", Data Integration memperlakukan data sumber `null` sebagai bidang null.

Catatan

String "null" (empat karakter n, u, l, l) berbeda dari nilai null yang sebenarnya.

Tidak

Tidak ada