Topik ini menjawab beberapa pertanyaan umum tentang Hudi.
Apa yang harus saya lakukan jika data duplikat dikembalikan saat saya menggunakan Spark untuk mengquery data dalam tabel Hudi?
Penyebab: Anda tidak diizinkan membaca data Hudi menggunakan Data Source API dari Spark.
Solusi: Tambahkan
spark.sql.hive.convertMetastoreParquet=falseke perintah yang digunakan untuk mengquery data dalam tabel Hudi.
Apa yang harus saya lakukan jika data duplikat dikembalikan saat saya menggunakan Hive untuk mengquery data dalam tabel Hudi?
Penyebab: Secara default, Hive menggunakan HiveCombineInputFormat. Namun, kelas format input ini tidak dapat memanggil
format inputyang disesuaikan untuk sebuah tabel.Solusi: Tambahkan
set hive.input.format = org.apache.hudi.hadoop.hive.HoodieCombineHiveInputFormatke perintah yang digunakan untuk mengquery data dalam tabel Hudi.
Apa yang harus saya lakukan jika pemangkasan partisi tidak berlaku saat saya menggunakan Spark untuk mengquery data dalam tabel Hudi?
Penyebab: Jika nama bidang partisi mengandung garis miring (/), jumlah bidang partisi yang terdeteksi selama query tidak konsisten dengan jumlah sebenarnya dari tingkat partisi, sehingga pemangkasan partisi tidak berlaku.
Solusi: Tambahkan
hoodie.datasource.write.partitionpath.urlencode=trueke perintah yang digunakan untuk menulis data ke tabel Hudi menggunakan DataFrame API dari Spark.
Apa yang harus saya lakukan jika pesan kesalahan "xxx hanya didukung dengan tabel v2" muncul saat saya mengeksekusi pernyataan ALTER TABLE di Spark?
Penyebab: Item konfigurasi hoodie.schema.on.read.enable untuk Hudi tidak diatur ke true saat menggunakan fitur evolusi skema Hudi-Spark.
Solusi: Tambahkan
set hoodie.schema.on.read.enable=trueke pernyataanALTER TABLEyang dieksekusi untuk tabel Hudi. Untuk informasi lebih lanjut, lihat SparkSQL Schema Evolution and Syntax Description dari Apache Hudi.