Karena fitur ingesti data di DLF tidak lagi diperbarui, topik ini menjelaskan cara menggunakan integrasi data DataWorks untuk mengingesti data dari instans ApsaraDB RDS for MySQL. Anda juga akan mempelajari cara membuat proyek eksternal di MaxCompute guna mengkueri data tabel yang dikelola oleh DLF.
Batasan
Solusi danau data terpadu hanya didukung di wilayah berikut: Tiongkok (Hangzhou), Tiongkok (Shanghai), Tiongkok (Beijing), Tiongkok (Zhangjiakou), Tiongkok (Shenzhen), Tiongkok (Hong Kong), Singapura, dan Jerman (Frankfurt).
MaxCompute, OSS, ApsaraDB RDS, dan DLF harus berada di wilayah yang sama.
Ingest data MySQL ke data lake
Untuk detail tentang ingesti data di DLF, lihat Quick start.
Langkah 1: Buat metadatabase data lake
Login ke Konsol DLF. Di bilah navigasi atas, pilih wilayah. Di panel navigasi kiri, pilih , lalu buat metadatabase. Untuk informasi lebih lanjut, lihat Databases, tables, and functions.
Langkah 2: Impor data ke OSS dengan DataWorks
Siapkan data sumber.
Login ke Konsol ApsaraDB RDS, pilih wilayah, lalu klik Instances di panel navigasi kiri.
Pilih instans ApsaraDB RDS target dan login ke database.
Buat tabel di database ApsaraDB RDS dan masukkan beberapa data uji. Untuk informasi lebih lanjut, lihat Use DMS to log on to an ApsaraDB RDS for MySQL instance. Misalnya, Anda dapat membuat tabel bernama rds_mc dengan pernyataan SQL berikut:
CREATE TABLE `rds_mc` ( `id` varchar(32) , `name` varchar(32) , PRIMARY KEY (`id`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8; INSERT INTO `rds_mc`(`id` ,`name` ) VALUES(1,"Alice"); INSERT INTO `rds_mc`(`id` ,`name` ) VALUES(2,"zhangsan"); INSERT INTO `rds_mc`(`id` ,`name` ) VALUES(3,"zhaosi"); INSERT INTO `rds_mc`(`id` ,`name` ) VALUES(4,"wangwu"); INSERT INTO `rds_mc`(`id` ,`name` ) VALUES(5,"55555"); INSERT INTO `rds_mc`(`id` ,`name` ) VALUES(8,"6666"); SELECT * FROM `rds_mc`;
-
Siapkan sumber data RDS MySQL.
Konfigurasikan sumber data MySQL di DataWorks. Untuk langkah-langkahnya, lihat Add a MySQL data source.
-
Siapkan sumber data OSS.
Konfigurasikan sumber data OSS di DataWorks. Untuk langkah-langkahnya, lihat Add an OSS data source.
-
Buat dan jalankan tugas sinkronisasi data.
Buat tugas sinkronisasi offline di modul pengembangan data DataWorks. Untuk detailnya, lihat Codeless UI configuration. Konfigurasi utamanya sebagai berikut:
-
Konfigurasi jaringan dan sumber daya.

Parameter
Penjelasan
Sumber
Data Sumber
MySQL.
Nama Sumber Data
Sumber data MySQL yang telah dibuat.
Resource Group
My Resource Group
Resource group eksklusif integrasi data yang telah dibuat.
Tujuan
Tujuan Data
OSS.
Nama Sumber Data
Sumber data OSS yang telah dibuat.
-
Konfigurasi tugas.
Di tab Configure tasks, isi nama tabel dan file.
Parameter
Penjelasan
Tabel
Nama tabel yang telah dibuat di database RDS.
Nama File (termasuk path)
Format: <nama direktori file yang telah dibuat di OSS>/<file data yang akan diekspor ke OSS>.
Misalnya
doc-test-01/datalake/anti.csv. -
Klik ikon
di pojok kiri atas halaman konfigurasi tugas sinkronisasi offline untuk menyimpan konfigurasi, lalu klik ikon
untuk menjalankan tugas. -
Setelah tugas berhasil dijalankan di DataWorks, Anda dapat memeriksa apakah data berhasil diimpor di path konfigurasi sumber data OSS.
-
Langkah 3: Temukan metadata dengan DLF
Di Konsol DLF, gunakan penemuan metadata untuk mengingesti data tersebut. Untuk informasi lebih lanjut, lihat Metadata discovery.
Langkah 4: Lihat metadata data lake
Di Konsol DLF, klik MetaData > Metadata Management, buka database target, lalu lihat informasi tabel di tab Table List.
Jika metode serialisasi untuk tabel setelah penemuan metadata adalah org.apache.hadoop.hive.serde2.OpenCSVSerde, MaxCompute mungkin salah mengartikan tipe bidang sebagai tipe string khusus opencsv alih-alih tipe string standar. Hal ini dapat menyebabkan kegagalan kueri. Untuk mengatasi masalah ini, Anda harus mengubah secara manual tipe data semua bidang yang terpengaruh menjadi string di DLF.
Otorisasi
Membangun danau data terpadu dengan MaxCompute, DLF, dan OSS memerlukan otorisasi karena akun yang digunakan untuk membuat proyek MaxCompute tidak memiliki akses default ke DLF dan OSS. Berikan izin menggunakan salah satu metode berikut:
Otorisasi satu klik: Direkomendasikan jika Anda menggunakan akun yang sama untuk proyek MaxCompute, DLF, dan OSS. Klik Authorize DLF and OSS untuk memberikan izin yang diperlukan.
Otorisasi kustom: Metode ini dapat digunakan baik dengan akun yang sama maupun berbeda untuk proyek MaxCompute, DLF, atau OSS. Untuk informasi lebih lanjut, lihat Custom authorization.
Buat proyek eksternal di MaxCompute
Buat proyek eksternal di konsol DataWorks.
-
Login ke Konsol DataWorks, pilih wilayah China East 2 (Shanghai).
-
Di panel navigasi kiri halaman Konsol DataWorks, pilih .
-
Di halaman Lake and Warehouse Integration (Data Lakehouse), klik Start.
-
Di halaman Create Data Lakehouse, ikuti petunjuk pada antarmuka. Contoh parameter ditunjukkan di bawah ini.
Tabel 1. Buat gudang data
Parameter
Penjelasan
External Project Name
ext_dlf_delta
MaxCompute Project
ms_proj1
Tabel 2. Buat koneksi data lake eksternal
Parameter
Penjelasan
Heterogeneous Data Platform Type
Pilih Alibaba Cloud DLF+OSS data lake connection
Tidak ada
Koneksi data lake Alibaba Cloud DLF+OSS
External Project Description
Tidak ada
Wilayah DLF
cn-shanghai
DLF Endpoint
dlf-share.cn-shanghai.aliyuncs.com
Nama Database DLF
datalake
DLF RoleARN
Tidak ada
-
Setelah mengklik Create, klik Preview.
Jika informasi tabel di database DLF dapat dipratinjau, berarti operasi berhasil.
Kueri data proyek eksternal dengan MaxCompute
Di halaman kueri ad hoc DataWorks, kueri data tabel di proyek eksternal.
Untuk informasi lebih lanjut tentang kueri ad hoc di DataWorks, lihat Use ad hoc queries to run SQL statements.
Contoh perintah:
select * from ext_dlf_delta.rds_mc;Hasil: Perintah mengembalikan catatan data dari kolom
iddannametabelrds_mc. Hal ini mengonfirmasi bahwa metadata data lake telah berhasil disinkronkan.