全部产品
Search
文档中心

E-MapReduce:FAQ

更新时间:Jun 24, 2025

Topik ini menjawab beberapa pertanyaan umum tentang Hudi.

Apa yang harus saya lakukan jika data duplikat dikembalikan saat saya menggunakan Spark untuk mengquery data dalam tabel Hudi?

  • Penyebab: Anda tidak diizinkan membaca data Hudi menggunakan Data Source API dari Spark.

  • Solusi: Tambahkan spark.sql.hive.convertMetastoreParquet=false ke perintah yang digunakan untuk mengquery data dalam tabel Hudi.

Apa yang harus saya lakukan jika data duplikat dikembalikan saat saya menggunakan Hive untuk mengquery data dalam tabel Hudi?

  • Penyebab: Secara default, Hive menggunakan HiveCombineInputFormat. Namun, kelas format input ini tidak dapat memanggil format input yang disesuaikan untuk sebuah tabel.

  • Solusi: Tambahkan set hive.input.format = org.apache.hudi.hadoop.hive.HoodieCombineHiveInputFormat ke perintah yang digunakan untuk mengquery data dalam tabel Hudi.

Apa yang harus saya lakukan jika pemangkasan partisi tidak berlaku saat saya menggunakan Spark untuk mengquery data dalam tabel Hudi?

  • Penyebab: Jika nama bidang partisi mengandung garis miring (/), jumlah bidang partisi yang terdeteksi selama query tidak konsisten dengan jumlah sebenarnya dari tingkat partisi, sehingga pemangkasan partisi tidak berlaku.

  • Solusi: Tambahkan hoodie.datasource.write.partitionpath.urlencode=true ke perintah yang digunakan untuk menulis data ke tabel Hudi menggunakan DataFrame API dari Spark.

Apa yang harus saya lakukan jika pesan kesalahan "xxx hanya didukung dengan tabel v2" muncul saat saya mengeksekusi pernyataan ALTER TABLE di Spark?

  • Penyebab: Item konfigurasi hoodie.schema.on.read.enable untuk Hudi tidak diatur ke true saat menggunakan fitur evolusi skema Hudi-Spark.

  • Solusi: Tambahkan set hoodie.schema.on.read.enable=true ke pernyataan ALTER TABLE yang dieksekusi untuk tabel Hudi. Untuk informasi lebih lanjut, lihat SparkSQL Schema Evolution and Syntax Description dari Apache Hudi.