Topik ini menjelaskan beberapa parameter umum untuk komponen Taildir Source, File Channel, dan HDFS Sink. Parameter tersebut dapat disesuaikan untuk mengoptimalkan performa Flume.
Taildir Source
| Parameter | Deskripsi |
| filegroups | Membagi direktori menjadi beberapa direktori untuk meningkatkan paralelisme baca Taildir Source. |
| batchSize | Nilai default: 100. Jumlah baris data yang dibaca secara bersamaan. Untuk meningkatkan throughput, Anda dapat menaikkan nilai parameter ini. |
File Channel
| Parameter | Deskripsi |
| checkpointInterval | Nilai default: 30. Satuan: detik. Untuk memperpendek interval checkpoint, Anda dapat menurunkan nilai parameter ini. |
| useDualCheckpoints | Nilai default: false. Untuk mengaktifkan File Channel agar mencadangkan checkpoint, Anda dapat mengatur parameter ini ke true. Dengan cara ini, ketika saluran di-restart, saluran tidak perlu membaca peristiwa dari awal lagi. |
| maxFileSize | Nilai default: 1,6. Satuan: GB. Ukuran maksimum file data. Untuk mempercepat rolling file, Anda dapat menurunkan nilai parameter ini. Dengan cara ini, lebih banyak ruang disk dibebaskan. |
| capacity | Nilai default: 1.000.000. Jumlah maksimum peristiwa yang dapat ditampung oleh File Channel. Untuk meningkatkan throughput, Anda dapat menaikkan nilai parameter ini. Anda juga dapat mengalikan nilai parameter ini dengan ukuran satu peristiwa untuk memperkirakan penggunaan disk. |
| transactionCapacity | Nilai default: 10.000. Jumlah maksimum peristiwa dalam satu transaksi untuk File Channel. |
HDFS Sink
| Parameter | Deskripsi |
| hdfs.batchSize | Nilai default: 100. Jumlah peristiwa yang ditulis ke file sebelum file digulung ke HDFS. Untuk meningkatkan throughput, Anda dapat menaikkan nilai parameter ini. null Kami merekomendasikan Anda untuk mengatur parameter ini ke nilai yang sama dengan parameter batchSize untuk Taildir Source. Pastikan nilai kedua parameter tersebut tidak melebihi nilai parameter transactionCapacity untuk File Channel. |
| hdfs.threadsPoolSize | Nilai default: 10. Jumlah thread I/O HDFS. Anda dapat menyesuaikan parameter ini berdasarkan konfigurasi node. |
| hdfs.useLocalTimeStamp | Nilai default: false. Menentukan apakah timestamp lokal digunakan. Untuk menambahkan timestamp ke header suatu peristiwa, atur parameter ini ke true. |
| hdfs.rollInterval | Nilai default: 30. Satuan: detik. Interval di mana file sementara digulung menjadi file final. Jika Anda mengatur parameter ini ke 0, HDFS Sink tidak akan menggulung file berdasarkan interval. |
| hdfs.rollSize | Nilai default: 1.024. Satuan: byte. Ketika ukuran file mencapai nilai parameter ini, HDFS Sink menggulung file menjadi file final. Jika Anda mengatur parameter ini ke 0, HDFS Sink tidak akan menggulung file berdasarkan ukuran file. |
| hdfs.rollCount | Nilai default: 10. Ketika jumlah peristiwa yang ditulis ke file mencapai nilai parameter ini, HDFS Sink menggulung file menjadi file final. Jika Anda mengatur parameter ini ke 0, HDFS Sink tidak akan menggulung file berdasarkan jumlah peristiwa. |
| hdfs.minBlockReplicas | Jumlah minimum replika per blok file HDFS. Nilai default adalah faktor replikasi HDFS. Dalam kebanyakan kasus, HDFS Sink hanya dapat menggulung file dengan benar jika parameter ini diatur ke 1. |