Skenario penggunaan EMR pada ECS - E-MapReduce

Dengan kluster komputasi yang dapat diskalakan, kemampuan untuk mengintegrasikan dan mengelola data heterogen multi-sumber, serta kemampuan pemrosesan terpadu batch dan stream data, Alibaba Cloud E-MapReduce (EMR) telah banyak diterapkan di berbagai bidang seperti pengendalian risiko keuangan, pemasaran presisi e-commerce, dan pemrosesan data time-series IoT. Topik ini menjelaskan aplikasi tipikal EMR dalam skenario danau data, analitik data, streaming data waktu nyata, dan penyajian data.

Skenario danau data

Kluster DataLake E-MapReduce (EMR) Alibaba Cloud memiliki kemampuan inti yang dijelaskan dalam tabel berikut.

Kemampuan inti	Komponen	Deskripsi
Lapisan penyimpanan terpadu	OSS-HDFS	Berfungsi sebagai basis penyimpanan objek yang kompatibel dengan protokol Hadoop Distributed File System (HDFS). OSS-HDFS menggantikan HDFS tradisional di lokasi, memisahkan sumber daya komputasi dari sumber daya penyimpanan, dan secara terpisah menambah node komputasi.
Tata kelola metadata danau	Data Lake Formation (DLF)	Menyediakan layanan katalog metadata terpadu lintas Object Storage Service (OSS), database, dan sistem file. Mendukung penemuan metadata otomatis, manajemen izin granular halus, dan pelacakan garis keturunan data untuk menyederhanakan proses tata kelola data dalam danau data.
Mesin analisis full-stack	Spark, Hive, dan Presto/Trino	Kemampuan extract, transform, load (ETL) offline, yang disediakan oleh Spark atau Hive, dan kueri interaktif, yang disediakan oleh Presto atau Trino, diintegrasikan ke dalam EMR. Dengan cara ini, seluruh skenario dari injeksi data ke danau data, pemrosesan data, dan analisis data hingga keluar data dari danau data dapat diimplementasikan. Kolaborasi mulus dengan sistem seperti DataWorks dan Quick BI juga didukung untuk mempercepat penciptaan nilai data.

Dalam skenario danau data, Alibaba Cloud EMR mengimplementasikan aplikasi data ujung ke ujung melalui proses berikut.

Berikut adalah penjelasan rinci dari proses tersebut:

Injeksi Data Multi-Sumber ke Danau Data
- Sistem Database
  - Database Relasional (seperti MySQL dan Oracle): Anda dapat mengekstrak data lengkap atau inkremental dari database relasional menggunakan Sqoop atau DataX secara berkala, lalu menyinkronkan data ke OSS-HDFS berdasarkan skema tabel bisnis.
  - Database Non-Relasional (seperti MongoDB dan Redis): Anda dapat menggunakan skrip kustom atau konektor Spark untuk mengekspor data JSON atau biner dan menulisnya ke OSS-HDFS.
- File Data
  - Data Log: Anda dapat menggunakan alat pengumpulan seperti Logstash atau Flume untuk memantau log inkremental, seperti log perilaku pengguna dan log sistem, secara real-time, serta menulis log tersebut ke OSS-HDFS dengan latensi tingkat menit.
  - Data File: Anda dapat menggunakan JindoSDK untuk mengunggah beberapa file, seperti file CSV dan Parquet, ke OSS-HDFS sekaligus dengan memanggil API HDFS. Selain itu, Anda juga dapat mengunggah beberapa file melalui konsol OSS sesuai kebutuhan.
Pemrosesan dan Analitik Data
- Pemrosesan Batch: Anda dapat menggunakan Spark dan Hive dalam kluster EMR untuk membersihkan, mengaitkan, dan menggabungkan log mentah dan data bisnis guna menghasilkan metrik bisnis utama, seperti jumlah pengguna aktif harian, laju retensi pengguna selama 30 hari terakhir, dan jumlah pesanan baru untuk Stock Keeping Unit (SKU) tertentu.
- Kueri Interaktif: Anda dapat menggunakan Trino atau Presto untuk mengkueri data besar berdasarkan sintaks SQL standar. Waktu respons dapat mencapai tingkat sub-detik, sehingga efektif memenuhi kebutuhan tim operasional untuk analisis data multidimensi.
Aplikasi Data:
- Ilmu Data: Layanan API menyediakan data yang telah diproses ke aplikasi hilir, seperti mesin pengendalian risiko dan sistem rekomendasi.
- Inteligensi Bisnis: Anda dapat memanggil API Java Database Connectivity (JDBC) untuk mengintegrasikan data terkait ke dalam alat inteligensi bisnis, seperti Quick BI, guna membuat laporan interaktif dengan cepat.
- Analisis Prediktif: Hasil pemrosesan dan data fitur didorong ke platform pembelajaran mesin untuk melatih model, seperti model prediksi penjualan SKU. Hasil yang dihasilkan disimpan di danau data.
- Visualisasi Data: Anda dapat memanggil API JDBC untuk terhubung ke alat visualisasi, seperti DataV, guna menampilkan data kompleks pada dasbor secara intuitif dan jelas.

Skenario analitik data

Kluster Online Analytical Processing (OLAP) EMR Alibaba Cloud terintegrasi dengan mesin OLAP berperforma tinggi seperti StarRocks, Doris, dan ClickHouse. Semua mesin ini menyediakan fitur seperti kompresi data efisien, penyimpanan berorientasi kolom, dan kueri paralel. Fitur-fitur ini memastikan performa tinggi kluster OLAP dalam skenario analitik data besar. Kluster OLAP cocok untuk berbagai skenario analitik bisnis, seperti profil pengguna, seleksi penerima, dan inteligensi bisnis.

Dalam proses berikut, mesin analitik StarRocks digunakan untuk menunjukkan bagaimana Alibaba Cloud EMR mengimplementasikan aplikasi data ujung ke ujung dalam skenario analitik data.

Berikut adalah penjelasan rinci dari proses tersebut:

Pengumpulan data
- Pengumpulan data waktu nyata: Flume digunakan untuk menangkap data log dan Message Queue for Apache Kafka digunakan untuk menyangga aliran data dengan throughput tinggi dan latensi rendah untuk memastikan pemrosesan data waktu nyata yang stabil.
- Pengumpulan data offline: Secara berkala mengekstrak data dari database relasional seperti MySQL dan Oracle menggunakan Sqoop atau DataX dan menyinkronkan data ke StarRocks.
Arsitektur berlapis StarRocks: Memproses dan melapiskan data di StarRocks untuk mengelola siklus hidup keseluruhan data.
- Lapisan DIM (lapisan dimensi): Menyimpan data dimensi, seperti atribut pengguna dan kategori komoditas, mendukung analisis multi-granularitas.
- Lapisan ODS (lapisan penyimpanan data operasional): Menyimpan data mentah, mempertahankan status awal data, dan mendukung analisis backtracking.
- Lapisan DWD (lapisan detail gudang data): Melakukan pembersihan data, standardisasi format, dan asosiasi dasar untuk menghasilkan dataset detail yang dapat digunakan.
- Lapisan DWS (lapisan ringkasan gudang data): Mengagregasi metrik berdasarkan subjek bisnis, seperti perilaku pengguna dan konversi pesanan, untuk meningkatkan efisiensi kueri.
Aplikasi data
- Profil pengguna: Membuat profil pengguna berdasarkan tag di lapisan DIM dan data perilaku di lapisan DWS untuk mengimplementasikan pemasaran presisi.
- Seleksi penerima: Memilih kelompok pengguna yang diinginkan berdasarkan kombinasi beberapa kondisi, seperti pengguna yang sangat aktif tetapi belum melakukan pembayaran dalam 30 hari terakhir.
- Inteligensi bisnis: Memanggil API JDBC untuk mengintegrasikan data terkait ke dalam alat inteligensi bisnis, seperti Quick BI, untuk menghasilkan hasil analisis visual seperti laporan harian, laporan mingguan, dan dasbor waktu nyata.

Skenario streaming data waktu nyata

Kluster Dataflow EMR Alibaba Cloud terintegrasi dengan komponen inti seperti OSS-HDFS, Flink, dan Paimon untuk menunjukkan kemampuan ujung ke ujung dari injeksi data waktu nyata hingga analisis bisnis yang gesit. Jenis kluster ini mendukung penyimpanan data yang efisien, pemrosesan dan analisis data waktu nyata, dan banyak digunakan dalam skenario seperti pengendalian risiko waktu nyata dan dasbor waktu nyata.

OSS-HDFS: Menyediakan lapisan penyimpanan yang dapat diskalakan yang kompatibel dengan protokol HDFS. Mendukung penyimpanan persisten data waktu nyata dalam petabyte, penulisan tingkat milidetik, dan tiering data dingin dan panas dengan biaya rendah.
Flink: Mengimplementasikan operasi ETL pada aliran data (seperti penguraian log dan asosiasi dimensi), agregasi jendela (seperti pengukuran Gross Merchandise Volume (GMV) tingkat menit), dan pemrosesan peristiwa kompleks (seperti formulasi aturan pengendalian risiko).
Paimon: Memungkinkan Anda menggunakan danau data streaming untuk mengelola data tambahan waktu nyata dan snapshot historis secara terpusat. Sinkronisasi Change Data Capture (CDC), transaksi ACID (atomicity, consistency, isolation, durability), dan kueri time-travel didukung.

Dalam proses berikut, Flink, Paimon, dan OSS-HDFS digunakan untuk membangun danau data streaming untuk mendukung dasbor waktu nyata.

Berikut adalah penjelasan rinci dari proses tersebut:

Akses Data Waktu Nyata dari Berbagai Sumber: Gunakan berbagai konektor Flink untuk mengumpulkan perubahan database, log, dan data pelacakan peristiwa secara real-time.
Danau Data Streaming
- Flink: Sebagai mesin komputasi data batch dan stream terpadu, Flink mengonsumsi aliran data secara real-time, dan melakukan operasi seperti pembersihan, transformasi (seperti penguraian log dan standardisasi titik pelacakan peristiwa), dan asosiasi dimensi.
- Paimon: Menyimpan hasil pemrosesan dalam bentuk danau data streaming dan mendukung fitur berikut:
  - Changelog: Anda dapat menggunakan mekanisme ini untuk mencatat perubahan data, termasuk penyisipan, pembaruan, dan penghapusan data, untuk memastikan integritas transaksi ACID dan sinkronisasi tambahan waktu nyata.
  - Pemodelan berlapis: Anda dapat menggunakan kombinasi Paimon dan lapisan data, seperti lapisan ODS, DWD, atau DWS, untuk membangun arsitektur data berlapis dan mengakumulasi serta menggunakan kembali data lapis demi lapis.
- OSS-HDFS: Mendukung penyimpanan persisten log mentah, snapshot tambahan Paimon, dan data arsip historis.
Aplikasi data: Memungkinkan Anda menggunakan StarRocks untuk menghasilkan laporan bisnis waktu nyata, seperti pemantauan GMV dan analisis retensi pengguna. Data terkait dapat diintegrasikan ke dalam alat inteligensi bisnis (BI) seperti Quick BI untuk membangun dasbor, sehingga memfasilitasi pengambilan keputusan T+0.

Skenario penyajian data

Kluster DataServing EMR Alibaba Cloud terintegrasi dengan komponen inti seperti OSS-HDFS, HBase, dan Phoenix untuk membangun kemampuan ujung ke ujung dari penyimpanan data masif hingga kueri berperforma tinggi. Jenis kluster ini mendukung manajemen penyimpanan data yang efisien, kueri multidimensi fleksibel, dan respons tingkat milidetik, dan banyak digunakan dalam skenario seperti analisis perilaku pengguna dan pemasaran presisi.

HBase:
- Berdasarkan penyimpanan berorientasi kolom dan arsitektur terdistribusi, HBase menyediakan kemampuan baca dan tulis real-time dengan throughput tinggi serta mendukung penulisan dan kueri titik latensi rendah dalam milidetik untuk volume data besar, seperti kueri status pesanan dan catatan perilaku pengguna.
- Menggunakan desain pemisahan penyimpanan dan komputasi, HBase mempertahankan HFile di OSS-HDFS dan mendukung rekreasi kluster yang cepat.
Phoenix:
- Sebagai mesin kueri SQL untuk HBase, Phoenix memetakan data NoSQL ke tabel relasional standar dan mendukung analisis SQL kompleks, termasuk asosiasi multi-tabel dan komputasi agregat. Waktu respons kueri dioptimalkan hingga sub-detik meskipun menangani ratusan miliar catatan data.
- Anda dapat menggunakan mekanisme seperti pembuatan indeks sekunder dan dorongan kueri untuk mempercepat operasi seperti pemilihan tag dan pengelompokan pengguna, sekaligus mengurangi ambang batas untuk pengembangan bisnis.

Dalam skenario penyajian data, Alibaba Cloud EMR menggunakan arsitektur penyimpanan HBase+OSS-HDFS dan mesin kueri Phoenix untuk mendukung tim bisnis dalam analisis perilaku pengguna.

Berikut adalah penjelasan rinci dari proses tersebut:

Pemrosesan Data
- Pemrosesan stream: Anda dapat menggunakan Flink untuk mengonsumsi aliran data log secara real-time, melakukan pembersihan data (seperti penghilangan derau dan standardisasi format), agregasi jendela (seperti pengukuran Unique Visitor (UV) waktu nyata), dan peringatan peristiwa (seperti deteksi lalu lintas abnormal), dan menulis hasil pemrosesan ke kluster HBase secara real-time dengan memanggil API HBase.
- Pemrosesan batch: Spark secara berkala memproses data dari database relasional dalam batch, melakukan operasi ETL kompleks, seperti perhitungan tag pengguna dan deduplikasi data, dan menulis data ke kluster HBase.
Penyimpanan Data Masif
- OSS-HDFS: Menyimpan log mentah dan HFile HBase secara persisten, dan memungkinkan Anda menggunakan fitur akses dipercepat JindoCache untuk mengurangi latensi baca dan tulis OSS-HDFS.
- Kluster HBase: Mendukung penulisan data waktu nyata, seperti menulis catatan perilaku pengguna, dan permintaan kueri titik frekuensi tinggi, seperti kueri status pesanan.
Perilaku pengguna: Berdasarkan data tag yang disimpan di HBase, seperti preferensi minat dan perilaku konsumen, Anda dapat mengeksekusi pernyataan SQL Phoenix untuk menjalankan kueri kompleks. Contohnya, Anda dapat menanyakan pengguna yang telah membeli kategori produk tertentu dan mengklik iklan terkait kategori produk dalam tujuh hari terakhir, guna mendukung pemasaran presisi.