Di Alibaba Cloud E-MapReduce (EMR), wilayah dan konfigurasi penyimpanan kluster EMR secara langsung memengaruhi kinerja serta biaya. Pemilihan wilayah yang tepat membantu mengurangi latensi jaringan, memenuhi persyaratan lokalisasi data, dan menekan biaya sumber daya. Konfigurasi penyimpanan yang optimal, seperti penggunaan HDFS, Object Storage Service (OSS), atau OSS-HDFS, meningkatkan efisiensi pembacaan dan penulisan data, mengurangi biaya penyimpanan, serta memastikan keandalan data. Topik ini memberikan strategi dan faktor utama untuk membantu Anda memilih wilayah dan merencanakan konfigurasi penyimpanan dengan cepat.
Strategi pemilihan wilayah
Pilih wilayah berdasarkan faktor inti dalam tabel berikut untuk memastikan kesesuaian optimal antara bisnis Anda dan sumber daya yang diperlukan.
Faktor | Deskripsi |
Lokalisasi data (prioritas lebih tinggi) |
|
Ketersediaan layanan EMR |
|
Perbedaan harga instans ECS | Harga Elastic Computing Service (ECS) bervariasi berdasarkan wilayah yang dipilih. Untuk informasi lebih lanjut, lihat Kalkulator Harga ECS. |
Optimalisasi topologi layanan |
|
Wilayah yang Mendukung EMR:
Asia Pasifik - Tiongkok
Tiongkok (Hangzhou), Tiongkok (Shanghai), Tiongkok (Qingdao), Tiongkok (Beijing), Tiongkok (Zhangjiakou), Tiongkok (Hohhot), Tiongkok (Ulanqab), Tiongkok (Shenzhen), Tiongkok (Chengdu), dan Tiongkok (Hong Kong)
Asia Pasifik - Lainnya
Jepang (Tokyo), Singapura, Malaysia (Kuala Lumpur), dan Indonesia (Jakarta)
Eropa dan Amerika
Jerman (Frankfurt), Inggris (London), AS (Silicon Valley), dan AS (Virginia)
Timur Tengah
UEA (Dubai)
Perencanaan penyimpanan
Pemilihan arsitektur penyimpanan
EMR mendukung arsitektur pemisahan komputasi-penyimpanan dan integrasi komputasi-penyimpanan. OSS-HDFS dan OSS menggunakan arsitektur pemisahan komputasi-penyimpanan, sedangkan HDFS menggunakan arsitektur integrasi komputasi-penyimpanan. Pilih arsitektur penyimpanan berdasarkan kebutuhan data dan anggaran biaya Anda. Tabel berikut menjelaskan perbedaan antara kedua arsitektur tersebut.
Item Perbandingan | Pemisahan Komputasi-Penyimpanan (OSS-HDFS atau OSS) | Integrasi Komputasi-Penyimpanan (HDFS) |
Karakteristik |
| Sumber daya komputasi dan penyimpanan terintegrasi, dan data disimpan di HDFS yang diterapkan di kluster EMR. |
Skenario |
| Diperlukan pembacaan dan penulisan dengan latensi rendah. |
Keandalan Data |
|
|
Ketahanan Data |
| Data dihapus setelah kluster EMR dilepaskan. |
Keluwesan Penskalaan | Sumber daya komputasi dan penyimpanan dipisahkan, memungkinkan penambahan node komputasi (CN) secara independen. | Sumber daya komputasi dan penyimpanan terintegrasi, sehingga penyesuaian harus dilakukan secara bersamaan.
|
Biaya Penyimpanan (Contoh) | USD 0,0170 per GB-bulan (Penyimpanan Standar OSS) Catatan
| USD 0,051 per GiB-bulan Catatan
|
Kompleksitas O&M |
|
|
Metode Akses | Anda dapat mengakses OSS atau OSS-HDFS menggunakan Untuk informasi lebih lanjut, lihat Memulai. |
|
Pemilihan disk
EMR menyediakan disk sistem dan disk data untuk node di kluster EMR.
Tipe disk | Deskripsi | |
Disk sistem | Disk sistem digunakan untuk menginstal sistem operasi dan tidak menyimpan data bisnis. | |
Disk data | Disk data digunakan untuk menyimpan data, log lokal, dan data shuffled. Anda dapat mengevaluasi kapasitas berdasarkan arsitektur penyimpanan yang Anda pilih. Untuk informasi lebih lanjut, lihat Evaluasi kapasitas penyimpanan. Catatan Dengan kapasitas penyimpanan yang sama, Anda dapat mengonfigurasikan beberapa disk data untuk meningkatkan ketersediaan layanan. Jika Anda mengonfigurasikan beberapa disk data, layanan tertentu dapat memberikan kemampuan toleransi kesalahan, dan fungsionalitas keseluruhan disk data tidak terpengaruh jika terjadi kegagalan disk. |
Tipe Disk
EMR menyediakan tipe disk berikut untuk menyimpan data.
Disk cloud
Disk cloud adalah perangkat penyimpanan data tingkat blok yang disediakan oleh Alibaba Cloud untuk ECS. Disk cloud menggunakan mekanisme triplicate terdistribusi untuk mencapai 99,9999999% (sembilan sembilan) keandalan data untuk instans ECS.
Disk cloud diklasifikasikan menjadi SSD standar, ultra disk, dan enhanced SSD (ESSD) berdasarkan performa disk.
Tipe disk | Karakteristik | Skenario |
| Aplikasi sensitif latensi atau skenario bisnis intensif I/O:
| |
SSD standar |
|
|
Ultra disk |
|
|
Untuk informasi tentang kinerja disk cloud dan disk lokal, lihat Kinerja Penyimpanan Blok.
Disk lokal
Disk lokal menyediakan penyimpanan lokal untuk instans ECS dan berada di mesin fisik yang menjadi host instans tersebut. Disk lokal cocok untuk skenario yang memerlukan performa I/O penyimpanan tinggi dan efektivitas biaya tinggi untuk penyimpanan data besar.
Skenario
Saat mengonfigurasikan grup node di konsol EMR, jika Anda menyetel parameter Type ke Big Data atau Local SSD, disk data adalah disk lokal yang terhubung secara fisik dan langsung terpasang ke server dan menyediakan latensi sangat rendah dan throughput tinggi.
Disk lokal hanya cocok untuk node inti dan tugas.
Jika Anda menggunakan disk lokal sebagai disk data, kehilangan data mungkin terjadi. Kami merekomendasikan agar Anda mengonfigurasikan kebijakan cadangan saat menggunakan disk lokal untuk menyimpan data besar.
Evaluasi Kapasitas Penyimpanan
Setelah memilih arsitektur penyimpanan, evaluasi kapasitas penyimpanan yang diperlukan berdasarkan skala dan tren pertumbuhan data bisnis Anda. Ini membantu memastikan bahwa konfigurasi disk memenuhi kebutuhan bisnis Anda.
Tipe data | Deskripsi | Aturan perhitungan |
Data mentah | Data awal yang dihasilkan langsung oleh bisnis Anda, seperti log | Ruang penyimpanan yang diperlukan = Volume data mentah |
Data antara | Data sementara yang dihasilkan selama pemrosesan, seperti hasil operasi extract, transform, load (ETL) | Ruang penyimpanan yang diperlukan = Volume data mentah × 1,5 (sesuaikan berdasarkan kompleksitas bisnis Anda) |
Data hasil | Data keluaran akhir yang perlu disimpan | Ruang penyimpanan yang diperlukan = Volume data mentah × Nilai yang berkisar dari 10% hingga 50% (sesuaikan berdasarkan kebutuhan bisnis Anda) |
Saat mengevaluasi kapasitas penyimpanan yang diperlukan, pertimbangkan pertumbuhan data setidaknya dalam 6 bulan ke depan.
Integrasi Komputasi-Penyimpanan (HDFS)
Evaluasi kapasitas disk data berdasarkan data mentah, data antara, data hasil, dan redundansi replika (3 replika secara default).
Pemisahan Komputasi-Penyimpanan (OSS-HDFS atau OSS)
Data bisnis disimpan secara persisten di OSS. Disk data hanya digunakan untuk menyimpan hasil komputasi sementara, log lokal, dan data shuffled dari tugas.