Anda dapat menggunakan database RDS for MySQL yang di-host sendiri atau database ApsaraDB RDS for MySQL sebagai layanan penyimpanan metadata untuk kluster DataLake, kluster kustom, atau kluster Hadoop di E-MapReduce (EMR).
Prasyarat
Pastikan Anda telah membuat instance RDS for MySQL.
Topik ini menggunakan pembelian instance ApsaraDB RDS for MySQL sebagai contoh. Untuk informasi lebih lanjut, lihat Buat instance ApsaraDB RDS for MySQL.
Peringatan
Periksa konektivitas jaringan antara kluster EMR yang dibuat dan instance RDS for MySQL yang ada untuk memastikan bahwa keduanya berfungsi dengan baik.
Jika Anda menggunakan instance ApsaraDB RDS for MySQL:
VPC yang sama:
Kluster EMR dan instance RDS for MySQL dapat berkomunikasi melalui jaringan pribadi secara default. Namun, Anda perlu mengonfigurasi daftar putih di instance RDS for MySQL. Tambahkan blok CIDR IPv4 dari VPC tempat kluster EMR akan dibuat ke rentang akses yang diizinkan.
Setelah mengonfigurasi daftar putih, Anda dapat membuat koneksi.
VPC yang berbeda:
Jika kluster EMR dan instance RDS for MySQL berada di VPC yang berbeda, Anda dapat membangun konektivitas jaringan melalui metode seperti Koneksi peering VPC. Untuk informasi lebih lanjut, lihat Gunakan koneksi peering VPC untuk komunikasi jaringan pribadi antar VPC.
Setelah koneksi terbentuk, konfigurasikan daftar putih di instance RDS for MySQL. Tambahkan blok CIDR IPv4 dari VPC tempat kluster EMR akan dibuat ke rentang akses yang diizinkan.
Prosedur
Langkah 1: Siapkan metadatabase
Buat database. Untuk informasi lebih lanjut, lihat Buat database.
Buat akun standar dan berikan izin baca-tulis kepada akun tersebut. Untuk informasi lebih lanjut, lihat Buat akun.
CatatanCatat nama pengguna dan kata sandi akun tersebut. Informasi ini akan digunakan di Langkah 2: Buat kluster.
Dapatkan titik akhir internal dari database.
Tambahkan blok CIDR IPv4 dari VPC tempat kluster EMR akan dibuat ke daftar putih instance RDS for MySQL. Untuk informasi lebih lanjut, lihat Konfigurasikan daftar putih alamat IP.
Di panel navigasi sisi kiri halaman detail instance, klik Database Connection.
Di halaman Database Connection, klik alamat titik akhir internal untuk menyalinnya.
CatatanCatat titik akhir internal. Informasi ini akan digunakan di Langkah 2: Buat kluster.

Langkah 2: Buat kluster
Di langkah Software Configuration, konfigurasikan parameter yang dijelaskan dalam tabel berikut. Untuk informasi lebih lanjut tentang parameter lainnya, lihat Buat kluster.
Parameter kluster DataLake dan Custom | Parameter kluster Hadoop | Deskripsi | |
Metadata | Pilih Self-managed RDS. Catatan Parameter Metadata hanya tersedia jika Anda memilih layanan HDFS (OSS-HDFS), YARN, dan Hive untuk kluster DataLake dan kluster kustom. | ||
javax.jdo.option.ConnectionURL | RDS Endpoint | Tentukan titik akhir dalam format
| |
javax.jdo.option.ConnectionUserName | RDS Username | Masukkan nama pengguna yang dicatat di Langkah 1: Siapkan metadatabase. | |
javax.jdo.option.ConnectionPassword | RDS Password | Masukkan kata sandi yang dicatat di Langkah 1: Siapkan metadatabase. | |
(Opsional) Langkah 3: Inisialisasi Layanan Metastore
Jika Anda membuat kluster Hadoop EMR V3.38.X atau lebih lama, EMR V4.9.X atau lebih lama, atau EMR V5.4.X atau lebih lama di langkah sebelumnya, atau Anda mengubah penyimpanan metadata kluster yang ada menjadi database RDS for MySQL, Anda perlu menginisialisasi layanan Metastore.
Komponen HiveMetaStore dan HiveServer2 dari Hive serta komponen ThriftServer dari Spark mungkin dalam status abnormal sebelum layanan Metastore diinisialisasi. Komponen-komponen ini akan pulih setelah inisialisasi.
Lewati langkah ini jika Anda menggunakan kluster DataLake atau Custom. Mereka akan secara otomatis menginisialisasi database Meta Hive selama pembuatan mereka.
Masuk ke node master kluster dalam mode SSH. Untuk informasi lebih lanjut, lihat Masuk ke kluster.
Jalankan perintah berikut untuk beralih ke pengguna hadoop:
su - hadoopJalankan perintah berikut untuk menginisialisasi layanan Metastore:
schematool -initSchema -dbType mysqlSetelah layanan diinisialisasi, Anda dapat menggunakan database RDS for MySQL sebagai metadatabase Hive.