全部产品
Search
文档中心

E-MapReduce:Parameter umum untuk optimasi performa

更新时间:Jun 24, 2025

Topik ini menjelaskan beberapa parameter umum untuk komponen Taildir Source, File Channel, dan HDFS Sink. Parameter tersebut dapat disesuaikan untuk mengoptimalkan performa Flume.

Taildir Source

ParameterDeskripsi
filegroupsMembagi direktori menjadi beberapa direktori untuk meningkatkan paralelisme baca Taildir Source.
batchSizeNilai default: 100. Jumlah baris data yang dibaca secara bersamaan. Untuk meningkatkan throughput, Anda dapat menaikkan nilai parameter ini.

File Channel

ParameterDeskripsi
checkpointIntervalNilai default: 30. Satuan: detik. Untuk memperpendek interval checkpoint, Anda dapat menurunkan nilai parameter ini.
useDualCheckpointsNilai default: false. Untuk mengaktifkan File Channel agar mencadangkan checkpoint, Anda dapat mengatur parameter ini ke true. Dengan cara ini, ketika saluran di-restart, saluran tidak perlu membaca peristiwa dari awal lagi.
maxFileSizeNilai default: 1,6. Satuan: GB. Ukuran maksimum file data.

Untuk mempercepat rolling file, Anda dapat menurunkan nilai parameter ini. Dengan cara ini, lebih banyak ruang disk dibebaskan.

capacityNilai default: 1.000.000. Jumlah maksimum peristiwa yang dapat ditampung oleh File Channel.

Untuk meningkatkan throughput, Anda dapat menaikkan nilai parameter ini. Anda juga dapat mengalikan nilai parameter ini dengan ukuran satu peristiwa untuk memperkirakan penggunaan disk.

transactionCapacityNilai default: 10.000. Jumlah maksimum peristiwa dalam satu transaksi untuk File Channel.

HDFS Sink

ParameterDeskripsi
hdfs.batchSizeNilai default: 100. Jumlah peristiwa yang ditulis ke file sebelum file digulung ke HDFS.
Untuk meningkatkan throughput, Anda dapat menaikkan nilai parameter ini.
null Kami merekomendasikan Anda untuk mengatur parameter ini ke nilai yang sama dengan parameter batchSize untuk Taildir Source. Pastikan nilai kedua parameter tersebut tidak melebihi nilai parameter transactionCapacity untuk File Channel.
hdfs.threadsPoolSizeNilai default: 10. Jumlah thread I/O HDFS. Anda dapat menyesuaikan parameter ini berdasarkan konfigurasi node.
hdfs.useLocalTimeStampNilai default: false. Menentukan apakah timestamp lokal digunakan.

Untuk menambahkan timestamp ke header suatu peristiwa, atur parameter ini ke true.

hdfs.rollIntervalNilai default: 30. Satuan: detik. Interval di mana file sementara digulung menjadi file final.

Jika Anda mengatur parameter ini ke 0, HDFS Sink tidak akan menggulung file berdasarkan interval.

hdfs.rollSizeNilai default: 1.024. Satuan: byte. Ketika ukuran file mencapai nilai parameter ini, HDFS Sink menggulung file menjadi file final.

Jika Anda mengatur parameter ini ke 0, HDFS Sink tidak akan menggulung file berdasarkan ukuran file.

hdfs.rollCountNilai default: 10. Ketika jumlah peristiwa yang ditulis ke file mencapai nilai parameter ini, HDFS Sink menggulung file menjadi file final.

Jika Anda mengatur parameter ini ke 0, HDFS Sink tidak akan menggulung file berdasarkan jumlah peristiwa.

hdfs.minBlockReplicasJumlah minimum replika per blok file HDFS. Nilai default adalah faktor replikasi HDFS.

Dalam kebanyakan kasus, HDFS Sink hanya dapat menggulung file dengan benar jika parameter ini diatur ke 1.