全部产品
Search
文档中心

E-MapReduce:Pilih wilayah dan rencanakan konfigurasi penyimpanan

更新时间:Jul 02, 2025

Di Alibaba Cloud E-MapReduce (EMR), wilayah dan konfigurasi penyimpanan kluster EMR secara langsung memengaruhi kinerja serta biaya. Pemilihan wilayah yang tepat membantu mengurangi latensi jaringan, memenuhi persyaratan lokalisasi data, dan menekan biaya sumber daya. Konfigurasi penyimpanan yang optimal, seperti penggunaan HDFS, Object Storage Service (OSS), atau OSS-HDFS, meningkatkan efisiensi pembacaan dan penulisan data, mengurangi biaya penyimpanan, serta memastikan keandalan data. Topik ini memberikan strategi dan faktor utama untuk membantu Anda memilih wilayah dan merencanakan konfigurasi penyimpanan dengan cepat.

Strategi pemilihan wilayah

Pilih wilayah berdasarkan faktor inti dalam tabel berikut untuk memastikan kesesuaian optimal antara bisnis Anda dan sumber daya yang diperlukan.

Faktor

Deskripsi

Lokalisasi data (prioritas lebih tinggi)

  • Kami merekomendasikan agar wilayah kluster Anda sama dengan wilayah sumber data tempat Anda ingin menyimpan data. Sebagai contoh, sumber data tersebut bisa berupa OSS atau ApsaraDB RDS.

  • Alasan rekomendasi:

    • Mengurangi biaya jaringan: Transmisi data lintas wilayah menimbulkan biaya tambahan.

    • Mengurangi latensi: Penyebaran lokal kluster dapat meningkatkan efisiensi pembacaan dan penulisan data.

Ketersediaan layanan EMR

  • Periksa apakah EMR tersedia di wilayah yang diinginkan di konsol EMR.

  • Periksa apakah layanan cloud yang diperlukan tersedia di wilayah yang diinginkan. Sebagai contoh, OSS-HDFS atau Data Lake Formation (DLF) tidak tersedia di wilayah tertentu.

  • Periksa apakah tipe instans yang diperlukan tersedia di wilayah yang diinginkan. Sebagai contoh, tipe instans dengan SSD lokal hanya tersedia di wilayah tertentu.

Perbedaan harga instans ECS

Harga Elastic Computing Service (ECS) bervariasi berdasarkan wilayah yang dipilih. Untuk informasi lebih lanjut, lihat Kalkulator Harga ECS.

Optimalisasi topologi layanan

  • Skenario hybrid cloud: Kami merekomendasikan agar Anda memilih wilayah yang paling dekat dengan titik akses pusat data Anda untuk mengurangi latensi jaringan.

  • Kolaborasi multi-layanan: Pastikan bahwa EMR diterapkan di wilayah yang sama dengan layanan tertentu, seperti Virtual Private Cloud (VPC), Server Load Balancer (SLB), layanan basis data, atau layanan lainnya, untuk mengurangi biaya yang disebabkan oleh operasi lintas wilayah.

Wilayah yang Mendukung EMR:

  • Asia Pasifik - Tiongkok

    Tiongkok (Hangzhou), Tiongkok (Shanghai), Tiongkok (Qingdao), Tiongkok (Beijing), Tiongkok (Zhangjiakou), Tiongkok (Hohhot), Tiongkok (Ulanqab), Tiongkok (Shenzhen), Tiongkok (Chengdu), dan Tiongkok (Hong Kong)

  • Asia Pasifik - Lainnya

    Jepang (Tokyo), Singapura, Malaysia (Kuala Lumpur), dan Indonesia (Jakarta)

  • Eropa dan Amerika

    Jerman (Frankfurt), Inggris (London), AS (Silicon Valley), dan AS (Virginia)

  • Timur Tengah

    UEA (Dubai)

Perencanaan penyimpanan

Pemilihan arsitektur penyimpanan

EMR mendukung arsitektur pemisahan komputasi-penyimpanan dan integrasi komputasi-penyimpanan. OSS-HDFS dan OSS menggunakan arsitektur pemisahan komputasi-penyimpanan, sedangkan HDFS menggunakan arsitektur integrasi komputasi-penyimpanan. Pilih arsitektur penyimpanan berdasarkan kebutuhan data dan anggaran biaya Anda. Tabel berikut menjelaskan perbedaan antara kedua arsitektur tersebut.

Item Perbandingan

Pemisahan Komputasi-Penyimpanan (OSS-HDFS atau OSS)

Integrasi Komputasi-Penyimpanan (HDFS)

Karakteristik

  • Sumber daya komputasi dan penyimpanan dapat diskalakan secara independen, dan data disimpan secara persisten di OSS-HDFS atau OSS.

  • OSS-HDFS dan OSS sepenuhnya kompatibel dengan API HDFS, memungkinkan migrasi dan penggunaan data secara mulus.

Sumber daya komputasi dan penyimpanan terintegrasi, dan data disimpan di HDFS yang diterapkan di kluster EMR.

Skenario

  • Arsitektur data lake digunakan.

  • Diperlukan analisis data dingin.

Diperlukan pembacaan dan penulisan dengan latensi rendah.

Keandalan Data

  • OSS mendukung penyimpanan redundan lokal (LRS) dan penyimpanan redundan zona (ZRS), serta menyediakan keandalan tinggi lintas zona.

  • Penyimpanan cloud dapat sangat mengurangi risiko kehilangan data.

  • Arsitektur ini bergantung pada mekanisme replika. Secara default, tiga replika dikonfigurasikan untuk disk lokal, dan dua replika dikonfigurasikan untuk disk cloud. Replika hanya dapat dikonfigurasikan di dalam kluster, dan kemampuan pemulihan bencana lintas wilayah tidak disediakan.

  • Kehilangan data mungkin terjadi karena kegagalan perangkat keras.

Ketahanan Data

  • 99,9999999999% (dua belas sembilan) ketahanan data disediakan.

  • Data tetap disimpan untuk periode waktu yang lama setelah kluster EMR dilepaskan.

Data dihapus setelah kluster EMR dilepaskan.

Keluwesan Penskalaan

Sumber daya komputasi dan penyimpanan dipisahkan, memungkinkan penambahan node komputasi (CN) secara independen.

Sumber daya komputasi dan penyimpanan terintegrasi, sehingga penyesuaian harus dilakukan secara bersamaan.

  • Node perlu dihapus satu per satu, yang memerlukan waktu lama.

  • Rebalancing diperlukan saat menskalakan kluster EMR, yang mengonsumsi sumber daya dan waktu.

Biaya Penyimpanan (Contoh)

USD 0,0170 per GB-bulan (Penyimpanan Standar OSS)

Catatan

USD 0,051 per GiB-bulan

Catatan

Kompleksitas O&M

  • CN bersifat tanpa status dan dapat diganti dengan cepat jika terjadi kegagalan.

  • Kapasitas penyimpanan dapat diperluas tanpa batas tanpa perlu menyesuaikan ukuran kluster secara manual seiring dengan meningkatnya skala data.

  • Saat DataNode gagal, rebalance data harus dilakukan secara manual.

  • Penyesuaian ukuran kluster secara manual diperlukan selama penskalaan.

Metode Akses

Anda dapat mengakses OSS atau OSS-HDFS menggunakan oss://bucket-name.endpoint/path/to/data.

Untuk informasi lebih lanjut, lihat Memulai.

  • Anda dapat mengakses HDFS di kluster high-availability (HA) menggunakan hdfs://namespace/path.

  • Anda dapat mengakses HDFS di kluster non-HA menggunakan hdfs://namenode-host:port/path.

Pemilihan disk

EMR menyediakan disk sistem dan disk data untuk node di kluster EMR.

Tipe disk

Deskripsi

Tipe disk yang didukung

Disk sistem

Disk sistem digunakan untuk menginstal sistem operasi dan tidak menyimpan data bisnis.

Disk cloud

Disk data

Disk data digunakan untuk menyimpan data, log lokal, dan data shuffled. Anda dapat mengevaluasi kapasitas berdasarkan arsitektur penyimpanan yang Anda pilih. Untuk informasi lebih lanjut, lihat Evaluasi kapasitas penyimpanan.

Catatan

Dengan kapasitas penyimpanan yang sama, Anda dapat mengonfigurasikan beberapa disk data untuk meningkatkan ketersediaan layanan. Jika Anda mengonfigurasikan beberapa disk data, layanan tertentu dapat memberikan kemampuan toleransi kesalahan, dan fungsionalitas keseluruhan disk data tidak terpengaruh jika terjadi kegagalan disk.

Tipe Disk

EMR menyediakan tipe disk berikut untuk menyimpan data.

Disk cloud

Disk cloud adalah perangkat penyimpanan data tingkat blok yang disediakan oleh Alibaba Cloud untuk ECS. Disk cloud menggunakan mekanisme triplicate terdistribusi untuk mencapai 99,9999999% (sembilan sembilan) keandalan data untuk instans ECS.

Disk cloud diklasifikasikan menjadi SSD standar, ultra disk, dan enhanced SSD (ESSD) berdasarkan performa disk.

Tipe disk

Karakteristik

Skenario

ESSD

  • IOPS dan throughput tinggi

  • Latensi level milidetik (0,2 ms)

  • Keandalan tinggi

  • Dukungan untuk beberapa level performa dari PL0 hingga PL3

    Catatan

    Untuk informasi lebih lanjut tentang level performa ESSD, lihat ESSD.

Aplikasi sensitif latensi atau skenario bisnis intensif I/O:

  • Basis data pemrosesan transaksi online (OLTP) berskala besar

  • Basis data NoSQL

  • Log terdistribusi Elasticsearch

SSD standar

  • IOPS dan throughput relatif tinggi

  • Latensi level milidetik berkisar antara 0,5 hingga 2 ms

  • Keandalan tinggi

  • Aplikasi intensif I/O

  • Basis data relasional kecil dan menengah serta basis data NoSQL

Ultra disk

  • Medium IOPS dan throughput

  • Latensi pada level milidetik dari 1 hingga 3 ms

  • Keandalan tinggi

  • Pengembangan dan pengujian

  • Digunakan sebagai disk sistem

Catatan

Untuk informasi tentang kinerja disk cloud dan disk lokal, lihat Kinerja Penyimpanan Blok.

Disk lokal

Disk lokal menyediakan penyimpanan lokal untuk instans ECS dan berada di mesin fisik yang menjadi host instans tersebut. Disk lokal cocok untuk skenario yang memerlukan performa I/O penyimpanan tinggi dan efektivitas biaya tinggi untuk penyimpanan data besar.

Skenario

Saat mengonfigurasikan grup node di konsol EMR, jika Anda menyetel parameter Type ke Big Data atau Local SSD, disk data adalah disk lokal yang terhubung secara fisik dan langsung terpasang ke server dan menyediakan latensi sangat rendah dan throughput tinggi.

Catatan
  • Disk lokal hanya cocok untuk node inti dan tugas.

  • Jika Anda menggunakan disk lokal sebagai disk data, kehilangan data mungkin terjadi. Kami merekomendasikan agar Anda mengonfigurasikan kebijakan cadangan saat menggunakan disk lokal untuk menyimpan data besar.

Evaluasi Kapasitas Penyimpanan

Setelah memilih arsitektur penyimpanan, evaluasi kapasitas penyimpanan yang diperlukan berdasarkan skala dan tren pertumbuhan data bisnis Anda. Ini membantu memastikan bahwa konfigurasi disk memenuhi kebutuhan bisnis Anda.

Tipe data

Deskripsi

Aturan perhitungan

Data mentah

Data awal yang dihasilkan langsung oleh bisnis Anda, seperti log

Ruang penyimpanan yang diperlukan = Volume data mentah

Data antara

Data sementara yang dihasilkan selama pemrosesan, seperti hasil operasi extract, transform, load (ETL)

Ruang penyimpanan yang diperlukan = Volume data mentah × 1,5 (sesuaikan berdasarkan kompleksitas bisnis Anda)

Data hasil

Data keluaran akhir yang perlu disimpan

Ruang penyimpanan yang diperlukan = Volume data mentah × Nilai yang berkisar dari 10% hingga 50% (sesuaikan berdasarkan kebutuhan bisnis Anda)

Saat mengevaluasi kapasitas penyimpanan yang diperlukan, pertimbangkan pertumbuhan data setidaknya dalam 6 bulan ke depan.

  • Integrasi Komputasi-Penyimpanan (HDFS)

    Evaluasi kapasitas disk data berdasarkan data mentah, data antara, data hasil, dan redundansi replika (3 replika secara default).

  • Pemisahan Komputasi-Penyimpanan (OSS-HDFS atau OSS)

    Data bisnis disimpan secara persisten di OSS. Disk data hanya digunakan untuk menyimpan hasil komputasi sementara, log lokal, dan data shuffled dari tugas.