Runtime serverless Spark yang sepenuhnya dikelola untuk pemrosesan data dan workload AI - EMR Serverless Spark - E-MapReduce

EMR Serverless Spark adalah produk danau data berperforma tinggi untuk data dan AI. Platform ini menyediakan solusi satu atap bagi perusahaan dengan fitur seperti pengembangan tugas, debugging, penjadwalan, serta operasi dan pemeliharaan (O&M). EMR Serverless Spark menyederhanakan seluruh proses pemrosesan data dan pelatihan model. Produk ini 100% kompatibel dengan ekosistem Spark sumber terbuka dan dapat diintegrasikan secara mulus ke dalam platform data yang ada. Dengan menggunakan EMR Serverless Spark, perusahaan dapat fokus pada optimasi pemrosesan data, analitik, dan pelatihan model untuk meningkatkan efisiensi kerja.

Arsitektur layanan

Arsitektur EMR Serverless Spark terdiri dari empat lapisan utama:

Lapisan Skenario Aplikasi
EMR Serverless Spark mendukung berbagai kebutuhan data. Untuk skenario gudang data dan analitik BI, platform ini menyediakan editor SQL untuk kueri data sederhana dan pengembangan laporan, serta kompatibel dengan pola penggunaan gudang data tradisional. Untuk artificial intelligence dan ilmu data, ia mengintegrasikan fitur Notebook yang mendukung manajemen lingkungan Python dan pengembangan pembelajaran mesin interaktif. Platform ini dirancang sebagai solusi terpadu yang menggabungkan beberapa skenario, memungkinkan pengguna menyelesaikan seluruh alur kerja secara efisien, dari analitik data hingga pelatihan model, tanpa beralih antar alat.
Lapisan Kemampuan Platform
Lapisan ini mendukung skenario di lapisan aplikasi. Ia menggunakan orkestrasi alur kerja untuk memungkinkan penjadwalan campuran untuk pemrosesan batch, komputasi aliran, dan pekerjaan AI. Anda dapat mengatur tugas ETL, analitik real-time, dan pelatihan pembelajaran mesin dalam alur kerja yang sama, menghindari masalah yang disebabkan oleh sistem yang terfragmentasi. Semua operasi dapat dikelola melalui otentikasi dan otorisasi RAM, memberikan kontrol halus atas akses ke sumber daya, data, dan fitur untuk memastikan keamanan tingkat perusahaan. Selain itu, editor SQL dan fitur Notebook mengoptimalkan pengalaman pengembangan untuk gudang data dan AI. Layanan Notebook, Kyuubi, dan Livy memberikan pengembang antarmuka pemrograman fleksibel dan layanan pengiriman tugas.
Lapisan Mesin Inti
- Mesin Fusion: Dirancang untuk skenario intensif CPU, ia menyediakan mesin SQL vektorisasi berbasis C++. Dibandingkan dengan Java Virtual Machine (JVM), Mesin Fusion memanfaatkan instruksi SIMD lebih baik, meningkatkan penggunaan CPU dan mengurangi overhead memori.
- Celeborn: Remote Shuffle Service tingkat perusahaan yang mendukung isolasi data multi-penyewa dan elastisitas sumber daya untuk skenario intensif I/O.
Lapisan Penyimpanan Danau Data
Lapisan ini didasarkan pada format danau data terbuka seperti Paimon dan Iceberg. Ia mempertahankan fleksibilitas danau data sambil menyediakan kemampuan utama gudang data tradisional, termasuk transaksi ACID, upsert data yang efisien, dan catatan alur data lengkap.

Manfaat

Mesin komputasi berkecepatan tinggi berbasis cloud-native

Fusion Engine bawaan (Spark Native Engine): Memberikan peningkatan performa hingga 300% dibandingkan versi sumber terbuka, secara signifikan mempercepat tugas komputasi data besar. Mesin ini mengoptimalkan efisiensi komputasi dengan teknologi mesin vektorisasi dan pemrosesan data batch, serta mengurangi penggunaan memori untuk meningkatkan performa keseluruhan.
Celeborn bawaan (Remote Shuffle Service): Mendukung pemrosesan data shuffle berskala petabyte, meningkatkan stabilitas dan performa tugas shuffle besar. Node komputasi tidak memerlukan disk besar. Layanan ini sepenuhnya memanfaatkan kemampuan penskalaan sumber daya dinamis Spark untuk mengurangi biaya penyimpanan, dengan total biaya sumber daya komputasi dapat dikurangi hingga 30%.

Skalabilitas elastis dan pemanfaatan sumber daya yang efisien

Penskalaan elastis sesuai permintaan: Mendukung arsitektur komputasi-penyimpanan terpisah. Sumber daya komputasi dapat diskalakan secara elastis dalam hitungan detik, dengan granularitas minimum satu core. Penyimpanan menggunakan model bayar sesuai penggunaan untuk mencegah pemborosan sumber daya dan mengurangi biaya operasional secara signifikan.
Migrasi lancar dan kompatibilitas: Mengintegrasikan OSS-HDFS dan sepenuhnya kompatibel dengan penyimpanan cloud HDFS, mendukung migrasi bisnis ke cloud. Ia menggunakan DLF untuk sepenuhnya mengintegrasikan metadata danau data terpadu, memastikan konsistensi akses data dan manajemen izin lengkap, membantu Anda membangun arsitektur danau data terpadu modern.

Kompatibilitas ekosistem yang mulus

Kompatibilitas penuh dengan Spark sumber terbuka: Anda dapat menjalankan pekerjaan langsung tanpa modifikasi kode. Ia menyediakan alat spark-submit dan spark-sql yang kompatibel untuk menurunkan hambatan migrasi.
Integrasi mendalam dengan format danau data terpadu utama: Sepenuhnya mendukung format danau data terpadu utama seperti Apache Paimon, Iceberg, Delta, dan Hudi untuk memenuhi kebutuhan penyimpanan data yang beragam.
Sistem penjadwalan dan kemampuan keamanan: Mendukung integrasi dengan sistem penjadwalan utama seperti Apache Airflow dan Apache DolphinScheduler. Ia dapat terhubung ke Kerberos atau LDAP eksternal untuk otentikasi identitas dan menggunakan Apache Ranger untuk otorisasi data, memastikan keamanan data.
Adaptasi pembelajaran mesin: Menyediakan lingkungan SparkML bawaan dan Notebook, mendukung manajemen siklus hidup penuh pustaka Python pihak ketiga.

Pengalaman pengembangan satu atap

Dukungan pengembangan ujung ke ujung: Menyediakan pengalaman pengembangan satu atap dari pengembangan tugas, debugging, dan publikasi hingga penjadwalan. Fitur manajemen versi bawaan mencatat sejarah lengkap setiap rilis dan mendukung perbandingan perbedaan kode sumber dan konfigurasi untuk memastikan bahwa perubahan dapat dilacak.
Kolaborasi efisien dan stabilitas: Lingkungan pengembangan dan produksi diisolasi secara ketat untuk memastikan stabilitas bisnis. Ini membantu tim berkolaborasi secara efisien dan memberikan hasil yang stabil.

Platform sumber daya serverless

Siap pakai: Anda dapat mulai mengembangkan tugas dengan cepat tanpa manajemen manual atau setup infrastruktur yang kompleks.
Elastisitas tingkat detik: Secara dinamis menarik sumber daya dan memulai pod berdasarkan persyaratan sumber daya tugas Spark. Sumber daya dilepaskan segera setelah komputasi selesai. Penagihan hanya didasarkan pada jumlah sumber daya yang benar-benar digunakan, lebih lanjut mengurangi total biaya komputasi.
Estimasi biaya: Menyediakan pengukuran sumber daya tingkat tugas dan estimasi biaya untuk membantu Anda mencapai operasi halus.

Penagihan

Metode penagihan berikut didukung:

Langganan: Beli sumber daya untuk periode tertentu. Anda membayar sebelum menggunakan sumber daya.
Bayar Sesuai Penggunaan: Aktifkan dan lepaskan sumber daya sesuai kebutuhan. Anda membayar setelah menggunakan sumber daya.

Cara menggunakan

Konsol EMR Serverless Spark: Halaman layanan berbasis web untuk operasi interaktif.
API: Mendukung operasi API bergaya RPC yang menggunakan permintaan GET dan POST. Untuk informasi lebih lanjut tentang operasi API, lihat Referensi API. Berikut adalah alat pengembang umum untuk memanggil operasi API:
- Portal Pengembang OpenAPI: Menyediakan layanan seperti pencarian API cepat, panggilan API online, dan pembuatan contoh kode SDK secara dinamis.
- Alibaba Cloud SDK: Menyediakan kit pengembangan perangkat lunak (SDK) untuk berbagai bahasa pemrograman, seperti Java, Python, dan PHP.