Informasi Dasar - - 阿里云

Topik ini menjelaskan informasi dasar tentang Realtime Compute for Apache Flink.

Apa itu Realtime Compute for Apache Flink?

Nilai bisnis data mencapai puncaknya saat data tersebut dihasilkan. Oleh karena itu, kemampuan untuk memproses data segera setelah dihasilkan sangat penting bagi perusahaan. Realtime Compute for Apache Flink dirancang untuk memenuhi persyaratan ketat terkait kecepatan dan ketepatan waktu dalam skenario seperti ini. Seiring meningkatnya tuntutan terhadap ketepatan waktu data dan operabilitas, sistem perangkat lunak harus mampu memproses lebih banyak data dalam periode waktu yang lebih singkat. Dalam aplikasi pemrosesan big data tradisional, pemrosesan transaksi online (OLTP) dan analisis data offline dilakukan pada waktu berbeda sesuai jadwal. Ditambah dengan volume besar data yang perlu diproses, metode ini sering menghasilkan siklus komputasi yang berlangsung selama berjam-jam atau bahkan berhari-hari. Jelas bahwa metode ini tidak lagi cocok untuk bisnis modern, di mana data streaming perlu diproses secara real time. Penundaan dalam pemrosesan data dapat memengaruhi akurasi dan kinerja beban kerja yang sensitif terhadap waktu, seperti analitik data besar real-time, kontrol risiko dan peringatan, prediksi real-time, serta transaksi keuangan.

Realtime Compute for Apache Flink memanfaatkan teknologi komputasi real-time untuk mengurangi waktu pemrosesan data dan secara signifikan menurunkan biaya. Ini merupakan solusi ideal untuk kebutuhan komputasi real-time saat ini. Hal ini dicapai melalui fitur-fitur berikut:

Data stream real-time dan tak terbatas
Data saat ini dihasilkan secara terus-menerus dan perlu dikonsumsi dalam urutan kronologis untuk mendapatkan wawasan yang dapat ditindaklanjuti. Sebagai contoh, ketika pengunjung mengunjungi situs web, log dihasilkan. Log ini terus dialirkan ke Realtime Compute for Apache Flink, dan hanya berhenti ketika pengunjung menutup situs web. Realtime Compute for Apache Flink menyerap dan memproses data log secara real time untuk memberikan wawasan.
Komputasi berkelanjutan dan efisien
Realtime Compute for Apache Flink adalah sistem berbasis event di mana aliran event atau data yang tak terbatas terus memicu komputasi real-time. Setiap kali data baru masuk, itu memicu tugas baru. Ditambah dengan aliran data yang berkelanjutan, ini membentuk pipa komputasi yang berkelanjutan.
Integrasi real-time dari data streaming
Data yang telah diproses ditulis ke penyimpanan data pilihan Anda secara real time. Sebagai contoh, Realtime Compute for Apache Flink dapat langsung menulis hasil ke instance ApsaraDB RDS dan digunakan untuk menghasilkan serta memvisualisasikan laporan. Kemampuan ini juga menjadikan Realtime Compute for Apache Flink sebagai sumber data yang layak untuk proses hilir dan penyimpanan data.

Apa itu data streaming?

Pembuatan big data dapat dianggap sebagai serangkaian peristiwa diskrit. Peristiwa diskrit ini membentuk aliran event atau aliran data sepanjang garis waktu. Data streaming memiliki skala yang lebih kecil dibandingkan data offline. Data streaming dihasilkan dari aliran event yang berkelanjutan. Jenis data berikut adalah contoh data streaming:

File log yang dihasilkan oleh aplikasi mobile dan web
Data belanja online
Aktivitas pemain dalam game
Data dari situs jejaring sosial
Data telemetri dari perangkat yang terhubung di lantai perdagangan atau pusat data geospasial
Informasi layanan geospasial
Data telemetri dari perangkat dan instrumen

Apa perbedaan antara komputasi real-time dan pemrosesan batch?

Berikut ini adalah perbedaan antara komputasi real-time dan pemrosesan batch dari sudut pandang pengguna dan produk.

Pemrosesan batch
Penyebaran pemrosesan batch diinisiasi oleh pengguna atau sistem sesuai permintaan atau pada interval yang dijadwalkan. Ini menghasilkan penundaan signifikan antara pengumpulan data dan saat hasil dihasilkan. Sebagian besar layanan komputasi dan analisis data tradisional dikembangkan berdasarkan model pemrosesan batch. Sistem Extract, transform, and load (ETL) atau sistem OLTP digunakan untuk memuat data ke dalam penyimpanan data, dan data tersebut kemudian di-query oleh layanan hilir. Gambar berikut menunjukkan model pemrosesan batch tradisional.
Prosedur pemrosesan batch tradisional terdiri dari langkah-langkah berikut:
1. Memuat data.
  Untuk melakukan pemrosesan batch, sistem komputasi harus memuat data terlebih dahulu. Anda dapat menggunakan sistem ETL atau OLTP sebagai sistem komputasi Anda. Sistem melakukan serangkaian optimasi query, analisis, dan komputasi pada data yang dimuat berdasarkan metode penyimpanan dan komputasi.
2. Mengirimkan permintaan.
  Sistem memulai penyebaran komputasi, seperti penyebaran MaxCompute SQL atau penyebaran Hive SQL, dan mengirimkan permintaan ke sistem komputasi. Kemudian, sistem komputasi menjadwalkan node komputasi untuk menangani permintaan ini. Seluruh proses ini dapat memakan waktu beberapa menit atau bahkan berjam-jam. Ini menghasilkan penundaan yang lama sebelum pengguna dapat memperoleh wawasan, dan tidak cocok untuk aplikasi yang sensitif terhadap waktu.
  null Untuk pemrosesan batch, Anda dapat menyesuaikan pernyataan SQL kapan saja berdasarkan kebutuhan bisnis Anda. Anda juga dapat melakukan query ad hoc untuk memodifikasi dan menanyakan data secara instan.
3. Mengembalikan data hasil.
  Setelah penyebaran komputasi selesai, hasilnya dikembalikan sebagai set hasil, yang umumnya cukup besar. Data ini kemudian perlu ditulis ke penyimpanan atau layanan hilir. Proses ini dapat memakan waktu beberapa menit atau bahkan berjam-jam untuk diselesaikan.
Komputasi real-time
Penyebaran komputasi real-time terus dipicu oleh event. Hasil biasanya diperoleh dengan penundaan minimal. Model komputasi real-time sederhana. Oleh karena itu, komputasi real-time dianggap sebagai layanan bernilai tambah dari pemrosesan batch dalam sebagian besar skenario pemrosesan big data. Komputasi real-time menyediakan komputasi pada aliran data dengan penundaan yang pendek. Gambar berikut menunjukkan model komputasi real-time.
1. Mengirimkan aliran data real-time.
  Alat integrasi data digunakan untuk mengirimkan data streaming ke penyimpanan data streaming, seperti Message Queue dan DataHub, secara real time. Data streaming dikirim dalam mikro-batch secara real time untuk meminimalkan penundaan dalam integrasi data.
  Data streaming terus ditulis ke penyimpanan data tanpa perlu memuat data terlebih dahulu. Realtime Compute for Apache Flink tidak menyimpan data yang telah diproses. Data streaming segera dibuang setelah data diproses.
2. Menerbitkan draft streaming.
  Dalam pemrosesan batch, Anda hanya dapat memulai penyebaran komputasi setelah integrasi data selesai. Penyebaran komputasi real-time adalah layanan komputasi yang berjalan terus-menerus. Ketika Anda memulai penyebaran Realtime Compute for Apache Flink, Realtime Compute for Apache Flink segera menghitung data streaming dan menghasilkan hasil setelah sejumlah kecil data masuk ke penyimpanan data streaming. Ini juga memecah batch data besar menjadi batch yang lebih kecil dan memprosesnya secara bertahap. Ini secara efektif mempersingkat penundaan pemrosesan. Untuk penyebaran streaming, Anda harus mendefinisikan logika komputasi untuk penyebaran tersebut dan menerbitkan draft untuk penyebaran ke Realtime Compute for Apache Flink.
  null Saat penyebaran streaming berjalan selama komputasi real-time, Anda dapat memodifikasi logika penyebaran tetapi modifikasi tersebut tidak dapat berlaku secara real time. Untuk membuat modifikasi berlaku, Anda harus memulai ulang penyebaran. Data yang telah dihitung tidak dapat dihitung ulang.
3. Menghasilkan aliran data hasil secara real time.
  Dalam pemrosesan batch, data hasil dapat ditulis ke sistem online pada saat yang sama hanya setelah semua data yang terakumulasi diproses. Penyebaran streaming mengirimkan data hasil ke sistem online atau sistem batch segera setelah setiap mikro-batch catatan data diproses.
Komputasi real-time dilakukan dalam urutan berikut:
1. Pengguna menerbitkan draft komputasi real-time.
2. Data streaming memicu penyebaran komputasi real-time.
3. Data hasil dari penyebaran komputasi real-time terus ditulis ke sistem tujuan.

Tabel berikut menjelaskan perbedaan antara pemrosesan batch dan komputasi real-time.

Item	Pemrosesan Batch	Komputasi Real-time
Integrasi Data	Sistem pemrosesan data harus memuat data terlebih dahulu.	Realtime Compute for Apache Flink memuat data secara real time.
Logika Komputasi	Logika komputasi dapat diubah, dan data dapat diproses ulang.	Jika logika komputasi diubah, data tidak dapat diproses ulang karena data streaming diproses secara real time.
Cakupan Data	Anda dapat menanyakan dan memproses semua atau sebagian besar data dalam dataset.	Anda dapat menanyakan dan memproses catatan data terbaru atau data dalam jendela bergulir.
Jumlah Data	Sejumlah besar data diproses.	Catatan individu atau mikro-batch data yang terdiri dari beberapa catatan diproses.
Kinerja	Pemrosesan data memakan waktu beberapa menit atau jam.	Pemrosesan data memakan waktu beberapa milidetik atau detik.
Analisis	Analisisnya kompleks.	Analisis didasarkan pada fungsi respons sederhana, agregat, dan metrik bergulir.