Topik ini menjelaskan faktor-faktor yang memengaruhi performa transformasi data.
Kecepatan tugas transformasi data bergantung pada jumlah shard sumber serta logika dan kompleksitas aturan transformasi. Untuk informasi lebih lanjut, lihat Dasar-dasar transformasi data. Dalam kebanyakan kasus, satu shard diperlukan untuk kecepatan transformasi 1 MB data tidak terkompresi per detik (85 GB/hari). Sebagai contoh, jika data ditulis ke penyimpanan log sumber dengan kecepatan 1 TB per hari, jumlah shard dalam penyimpanan log sumber harus 12 (1.024 GB/85 = 12). Untuk informasi lebih lanjut, lihat Pisahkan sebuah shard.
Performa transformasi data
- Entri Log Keluaran
- Ukuran Log. Semakin besar ukuran log keluaran, semakin lambat kecepatan transformasi karena output paket data yang lebih besar membutuhkan lebih banyak sumber daya komputasi dan jaringan. Sebaliknya, semakin kecil ukuran log keluaran, semakin cepat kecepatan transformasi. Ukuran log keluaran diukur berdasarkan jumlah entri log keluaran (entri log dipisah jika ukurannya besar), jumlah bidang yang terkandung dalam entri log keluaran, atau isi dari entri log keluaran.
- Kelompok Log. Entri log keluaran diberi tag dan dikemas menjadi kelompok. Semakin banyak kelompok log memerlukan lebih banyak sumber daya jaringan dan mengakibatkan kecepatan transformasi yang lebih lambat. Semakin sedikit kelompok log keluaran, semakin cepat kecepatan transformasi.
- Logika Transformasi
Semakin kompleks logika transformasi, semakin lambat kecepatan transformasi karena logika yang lebih kompleks menghasilkan lebih banyak pencarian, komputasi, dan sinkronisasi sumber daya eksternal. Proses-proses ini mengonsumsi lebih banyak sumber daya komputasi dan jaringan. Semakin sederhana logika transformasi, semakin cepat kecepatan transformasi.
- Sumber Data Pihak Ketiga
Jika Anda menggunakan sumber pihak ketiga untuk memperkaya data Anda, ukuran data yang ditarik yang lebih besar akan mengurangi kecepatan transformasi. Selain itu, jika data yang ditarik seperti objek OSS berada di wilayah lain, kecepatan transformasi juga akan menurun.
Tingkatkan performa transformasi data dari penyimpanan log sumber
- Tingkatkan Performa Transformasi Data Real-Time.
Anda dapat meningkatkan jumlah shard untuk meningkatkan performa transformasi data real-time. Untuk informasi lebih lanjut tentang metode penagihan shard, lihat Bayar berdasarkan fitur.
- Tingkatkan Performa Transformasi Data Historis.
Pemisahan shard hanya berlaku untuk data baru. Jika ukuran data historis besar dan jumlah shard tidak mencukupi, Anda dapat membuat beberapa tugas transformasi data untuk penyimpanan log sumber dan mengonfigurasi periode transformasi yang tidak tumpang tindih untuk tugas-tugas tersebut. Sebagai contoh, jika Anda perlu mentransformasi data log historis yang dihasilkan dari 1 September hingga 10 September, Anda dapat membuat sembilan tugas untuk mentransformasi data yang dihasilkan dalam periode berikut:
[1 September, 2 September), [2 September, 3 September) ... [9 September, 10 September].Catatan Periode transformasi dihitung berdasarkan waktu penerimaan log. Untuk informasi lebih lanjut, lihat Buat pekerjaan transformasi data.
Tingkatkan performa transformasi data dari penyimpanan log tujuan
- Kecepatan Tulis selama Transformasi Data. Kecepatan tulis maksimum sebuah shard adalah 5 MB/s. Anda dapat memperkirakan kecepatan tulis spesifik berdasarkan jumlah shard dalam penyimpanan log sumber dan jumlah tugas transformasi data bersamaan.
Sebagai contoh, jika penyimpanan log sumber memiliki 20 shard, penyimpanan log tujuan harus memiliki setidaknya 4 shard.
- Apakah Anda Perlu Membuat Indeks untuk Menanyakan Data dalam Penyimpanan Log Tujuan. Jika Anda perlu membuat indeks untuk menanyakan data dalam penyimpanan log tujuan, kami sarankan Anda merencanakan 50 juta entri log untuk sebuah shard dan menentukan jumlah shard berdasarkan rencana tersebut.
Sebagai contoh, jika setiap entri log adalah 1 KB dan ukuran entri log yang perlu Anda transformasi dan tulis setiap hari adalah 10 GB, jumlah entri log adalah 10 juta. Jika Anda perlu menanyakan data yang mencakup 30 hari (sekitar 300 juta entri log), kami sarankan Anda membuat 6 shard dalam penyimpanan log tujuan.