EMR pada ECS memungkinkan Anda menerapkan kluster E-MapReduce (EMR) pada instance Elastic Compute Service (ECS). Solusi ini menggabungkan kemampuan pemrosesan data besar dari EMR dengan skalabilitas dan fleksibilitas instance ECS. Dengan EMR pada ECS, Anda dapat mengonfigurasi dan mengelola kluster EMR secara fleksibel. EMR pada ECS juga menyediakan berbagai komponen open source dan yang dikembangkan sendiri untuk membantu Anda memproses serta menganalisis data masif dalam skenario kompleks.
Arsitektur
EMR mengintegrasikan layanan Alibaba Cloud, komponen open source, serta komponen yang dikembangkan sendiri dan fitur manajemen kluster. Untuk informasi lebih lanjut tentang jenis dan skenario penggunaan komponen, lihat Komponen dan Skenario Penggunaan.
Layanan Alibaba Cloud
Kluster diterapkan berdasarkan instance ECS.
Data dapat disimpan di Object Storage Service (OSS) Alibaba Cloud.
EMR terintegrasi dengan DataWorks. Anda dapat menggunakan EMR sebagai mesin komputasi pekerjaan dan penyimpanan data di DataWorks.
EMR Workflow adalah layanan terkelola sepenuhnya yang dapat digunakan untuk menjadwalkan alur kerja dan tugas.
Komponen Open Source
Komponen big data open source terkait integrasi data, penyimpanan data, manajemen sumber daya, mesin komputasi, pengembangan data, dan layanan data diintegrasikan ke dalam EMR untuk membantu Anda memproses dan mengelola data secara efisien.
Komponen yang Dikembangkan Sendiri
EMR menyediakan komponen berikut yang dikembangkan sendiri untuk memastikan bahwa komponen open source dan layanan dapat berjalan lebih baik pada infrastruktur Alibaba Cloud:
OSS-HDFS: solusi penyimpanan objek yang kompatibel dengan API Hadoop Distributed File System (HDFS). OSS-HDFS memungkinkan tugas komputasi big data untuk langsung mengakses data yang disimpan di OSS berdasarkan protokol HDFS standar.
JindoCache: solusi cache terdistribusi. JindoCache menyimpan blok data di memori untuk meningkatkan kinerja pembacaan data dan mengurangi tekanan pada sistem penyimpanan bawah.
DLF-Auth: komponen yang disediakan oleh Data Lake Formation (DLF). Anda dapat menggunakan DLF-Auth untuk mengaktifkan fitur manajemen izin data DLF.
Manajemen Kluster
Anda dapat membuat atau menambah kluster dengan cepat dan mengonfigurasi aturan penskalaan otomatis untuk kluster.
Anda dapat mengelola konfigurasi kluster dan layanan yang diterapkan di kluster. Anda juga dapat melakukan operasi O&M pada node dan layanan.
EMR menyediakan kemampuan pemantauan metrik multi-dimensi, analisis laporan kluster, serta pemantauan dan peringatan.
Manfaat
EMR menyediakan komponen big data open source tingkat perusahaan yang fleksibel dan mudah dikelola. Untuk informasi tentang perbandingan antara kluster EMR dan kluster Hadoop yang dikelola sendiri, lihat Perbandingan antara kluster EMR dan kluster Hadoop yang dikelola sendiri.
Komponen open source yang stabil dan andal
Komponen open source digunakan. Setiap versi EMR menyediakan versi terbaru dari komponen open source. Untuk informasi lebih lanjut tentang layanan yang didukung oleh kluster EMR dari berbagai versi, lihat Versi rilis.
EMR sepenuhnya disesuaikan dengan komponen open source dan telah menghilangkan masalah kompatibilitas versi di antara komponen open source.
EMR menyediakan lingkungan penyebaran Alibaba Cloud yang ditingkatkan untuk komponen open source. Lingkungan penyebaran yang ditingkatkan memberikan kinerja jauh lebih tinggi daripada yang ada di komunitas open source.
Kemudahan Penggunaan
Anda dapat membuat lingkungan komputasi big data dalam hitungan menit dan menyesuaikan skala sumber daya komputasi hanya dengan beberapa klik. Anda tidak perlu secara manual menerapkan atau memulai layanan.
EMR menyediakan sistem pemantauan dan peringatan yang komprehensif yang mendukung diagnosis dan analisis cerdas. Hal ini sangat mengurangi kesulitan dalam pemecahan masalah dan meningkatkan efisiensi O&M.
Efisiensi Biaya
Sumber daya komputasi digunakan sesuai permintaan untuk membantu mengurangi biaya.
Data panas dan dingin disimpan di lapisan yang berbeda untuk membantu mengurangi biaya penyimpanan per unit.
EMR menyediakan berbagai alat O&M, fitur diagnosis dan analisis cerdas, serta platform big data untuk membantu Anda mengurangi biaya O&M.
Skalabilitas
Sumber daya kluster dapat disesuaikan secara dinamis berdasarkan beban kluster atau dalam periode waktu tertentu.
Penskalaan otomatis untuk kluster dapat diselesaikan dalam hitungan menit, dan berbagai jenis sumber daya elastis didukung.
Integrasi Mendalam
Anda dapat menerapkan kluster EMR berdasarkan ECS dan Container Service for Kubernetes (ACK). Berbagai jenis instance ECS didukung. Untuk informasi lebih lanjut, lihat Instance ECS.
EMR terintegrasi dengan DataWorks. Anda dapat menggunakan EMR sebagai mesin komputasi pekerjaan dan penyimpanan data di DataWorks.
DLF terintegrasi dengan EMR. Dalam skenario danau data, EMR memungkinkan Anda mengelola metadata untuk beberapa mesin secara terpusat.
Penagihan
Biaya kluster EMR pada ECS terdiri dari biaya untuk layanan EMR dan instance ECS. Untuk informasi tentang biaya layanan Alibaba Cloud lainnya yang terlibat dalam kluster EMR pada ECS, seperti OSS, DLF, dan Workflow, lihat dokumentasi tentang aturan penagihan layanan Alibaba Cloud terkait.
EMR pada ECS mendukung metode penagihan berikut:
Langganan: Anda membayar sumber daya berdasarkan durasi langganan tertentu sebelum dapat menggunakan sumber daya tersebut. Metode penagihan langganan memungkinkan Anda memesan sumber daya terlebih dahulu dan mengurangi biaya dengan tarif diskon.
Bayar sesuai pemakaian: Anda dapat menggunakan sumber daya sebelum membayar sumber daya tersebut. Anda dapat membeli dan melepaskan sumber daya berdasarkan kebutuhan bisnis Anda. Anda tidak perlu membeli sejumlah besar sumber daya terlebih dahulu.
Secara default, Anda akan dikenakan biaya untuk lalu lintas internet yang dihasilkan oleh penggunaan node dalam kluster berdasarkan metode penagihan bayar sesuai pemakaian, bukan metode penagihan kluster.
Untuk informasi lebih lanjut, lihat Penagihan.
Memulai Cepat
Untuk informasi tentang cara membuat kluster di konsol EMR dan menjalankan pekerjaan di kluster, lihat Buat dan gunakan kluster DataLake.
Untuk informasi tentang cara menggunakan kluster EMR di DataWorks dan mengembangkan serta mengatur data lake secara terpusat, lihat Memulai dengan DataWorks pada EMR.
Referensi
Untuk informasi tentang skenario penggunaan EMR, lihat Skenario Penggunaan.
Untuk informasi tentang layanan dan versi layanan yang didukung oleh kluster EMR dari berbagai versi, lihat Layanan yang didukung oleh kluster EMR dari berbagai versi.
Untuk informasi tentang kemampuan O&M dan pemantauan kluster EMR, lihat topik dalam direktori O&M Kluster dan Pemantauan Kluster.