Topik ini menjelaskan cara menggunakan DataWorks untuk membangun gudang data cloud tingkat perusahaan yang mengintegrasikan pemrosesan data offline dan waktu nyata. Solusi ini membantu perusahaan mengurangi latensi data dan mempercepat pengambilan keputusan bisnis.
Membangun gudang data cloud dengan kemampuan offline dan waktu nyata terintegrasi
Tantangan Bisnis
Bisnis modern membutuhkan akses ke data lebih cepat daripada sebelumnya. Arsitektur data tradisional kesulitan memenuhi permintaan ini:
Fragmentasi arsitektur dan kompleksitas tinggi: Bisnis sering mengoperasikan dua tumpukan teknologi terpisah. Satu tumpukan memproses data historis secara batch di gudang data offline menggunakan mesin seperti Hive atau Spark. Tumpukan lain memproses aliran data waktu nyata menggunakan mesin seperti Flink atau Kafka. Pendekatan dual-stack ini meningkatkan biaya pengembangan dan pemeliharaan sambil membuat konsistensi data lebih sulit dipastikan.
Latensi analitik dan keputusan tertunda: Data gudang offline tidak tersedia segera untuk kueri ad hoc atau analisis interaktif. Pengguna bisnis sering menunggu berjam-jam—atau bahkan satu hari penuh—sebelum mereka dapat mengeksplorasi data baru. Selain itu, mengkorelasikan data waktu nyata dengan dataset historis besar sangat sulit, membatasi kedalaman wawasan.
Elastisitas sumber daya buruk dan biaya tinggi: Beban kerja pemrosesan batch puncak dan lonjakan lalu lintas komputasi waktu nyata memerlukan sumber daya cadangan yang signifikan. Hal ini menghasilkan pemanfaatan sumber daya rendah dan total biaya kepemilikan (TCO) tinggi.
Hambatan teknis tinggi: Mengelola dua sistem kompleks terpisah memerlukan tim big data besar dengan keterampilan tinggi—tantangan besar bagi sebagian besar perusahaan.
Solusi
DataWorks, digabungkan dengan mesin big data cloud-native seperti MaxCompute dan Hologres, menyediakan platform data all-in-one. Dibangun di atas arsitektur Data Lakehouse dengan pemrosesan stream dan batch terintegrasi, platform ini membantu perusahaan mengurangi latensi data.
Ingesti Data Terpadu dan Pelapisan
Gunakan Data Integration untuk mengimpor data dari berbagai sumber ke dalam data lake atau gudang data cloud terpadu. Sumber termasuk data terstruktur dari database bisnis, file log, dan antrian pesan waktu nyata seperti Kafka. Data mengikuti model pelapisan standar (ODS → DWD → DWS → ADS). Model ini memungkinkan salinan data tunggal melayani komputasi offline dan waktu nyata, memastikan konsistensi dari sumber.
Pemrosesan Data Batch
Di Data Studio, gunakan node SQL MaxCompute untuk memproses, membersihkan, dan memodelkan data historis terabyte atau petabyte secara efisien dan hemat biaya. Sistem penjadwalan secara otomatis menjalankan tugas ETL ini setiap hari setelah tengah malam. Ini membangun fondasi data komprehensif untuk analisis keputusan, profil pengguna, dan pembelajaran mesin.
Komputasi Waktu Nyata dan Mendekati Waktu Nyata
Komputasi Waktu Nyata: Gunakan node Flink SQL di DataWorks untuk memproses dan menganalisis aliran data dengan latensi milidetik. Ini ideal untuk skenario yang memerlukan latensi sub-detik, seperti kontrol risiko waktu nyata, dasbor waktu nyata, dan rekomendasi waktu nyata.
Analisis Mendekati Waktu Nyata (Kueri Ad Hoc): Hologres memungkinkan Anda menjalankan kueri interaktif dengan latensi detik pada data offline besar di data lake atau gudang data Anda. Analis bisnis dan staf operasi dapat melakukan eksplorasi multi-dimensi langsung pada data terbaru menggunakan alat BI, tanpa menunggu laporan terjadwal.
Analitik Terintegrasi dan Layanan Terpadu
DataWorks memungkinkan Hologres secara langsung mempercepat kueri pada data MaxCompute. Ini memungkinkan analisis federasi mulus dari data waktu nyata dan historis offline, menghilangkan silodata. Gunakan DataWorks DataService Studio untuk mengemas hasil analisis menjadi API standar. Ini memberikan titik akhir layanan data berkinerja tinggi yang terpadu untuk aplikasi bisnis hulu, laporan BI, dan dasbor.
Nilai Inti
Penyederhanaan Arsitektur dan Pengurangan TCO: Arsitektur Data Lakehouse menyatukan tumpukan teknologi dengan lapisan penyimpanan tunggal, platform pengembangan tunggal, dan banyak mesin komputasi. Ini mengurangi kompleksitas pengembangan, manajemen, dan operasi, menurunkan TCO lebih dari 50%.
Mempercepat Waktu Menuju Wawasan: Mengurangi siklus analisis data dari hari menjadi menit atau detik. Perubahan ini dari tinjauan berkala ke wawasan waktu nyata memungkinkan keputusan lebih cepat dan lebih gesit.
Analitik Mandiri: Kueri interaktif berkinerja tinggi memungkinkan pengguna bisnis melakukan eksplorasi data mandiri. Ini membebaskan analis data dari memenuhi permintaan data ad hoc secara manual.
Mempercepat Inovasi: Fondasi data terpadu, waktu nyata, dan berkinerja tinggi menyediakan platform kuat untuk inovasi berbasis data, seperti analisis perilaku pengguna, pemasaran presisi, kontrol risiko keuangan, dan rantai pasokan cerdas.
Studi kasus pelanggan
Jasa Keuangan: Implementasi Danau Data Terpadu di Perusahaan Keuangan Internet