All Products
Search
Document Center

:Bangun danau data terpadu MaxCompute menggunakan DataWorks dan DLF

Last Updated:Jun 22, 2026

Karena fitur ingesti data di DLF tidak lagi diperbarui, topik ini menjelaskan cara menggunakan integrasi data DataWorks untuk mengingesti data dari instans ApsaraDB RDS for MySQL. Anda juga akan mempelajari cara membuat proyek eksternal di MaxCompute guna mengkueri data tabel yang dikelola oleh DLF.

Batasan

  • Solusi danau data terpadu hanya didukung di wilayah berikut: Tiongkok (Hangzhou), Tiongkok (Shanghai), Tiongkok (Beijing), Tiongkok (Zhangjiakou), Tiongkok (Shenzhen), Tiongkok (Hong Kong), Singapura, dan Jerman (Frankfurt).

  • MaxCompute, OSS, ApsaraDB RDS, dan DLF harus berada di wilayah yang sama.

Ingest data MySQL ke data lake

Untuk detail tentang ingesti data di DLF, lihat Quick start.

Langkah 1: Buat metadatabase data lake

Login ke Konsol DLF. Di bilah navigasi atas, pilih wilayah. Di panel navigasi kiri, pilih MetaData > Metadata Management, lalu buat metadatabase. Untuk informasi lebih lanjut, lihat Databases, tables, and functions.

Langkah 2: Impor data ke OSS dengan DataWorks

  1. Siapkan data sumber.

    1. Login ke Konsol ApsaraDB RDS, pilih wilayah, lalu klik Instances di panel navigasi kiri.

    2. Pilih instans ApsaraDB RDS target dan login ke database.

    3. Buat tabel di database ApsaraDB RDS dan masukkan beberapa data uji. Untuk informasi lebih lanjut, lihat Use DMS to log on to an ApsaraDB RDS for MySQL instance. Misalnya, Anda dapat membuat tabel bernama rds_mc dengan pernyataan SQL berikut:

      CREATE TABLE `rds_mc` (
        `id` varchar(32) ,
        `name` varchar(32) ,
          PRIMARY KEY (`id`)
      ) ENGINE=InnoDB DEFAULT CHARSET=utf8;
      INSERT INTO `rds_mc`(`id` ,`name` ) VALUES(1,"Alice");
      INSERT INTO `rds_mc`(`id` ,`name` ) VALUES(2,"zhangsan");
      INSERT INTO `rds_mc`(`id` ,`name` ) VALUES(3,"zhaosi");
      INSERT INTO `rds_mc`(`id` ,`name` ) VALUES(4,"wangwu");
      INSERT INTO `rds_mc`(`id` ,`name` ) VALUES(5,"55555");
      INSERT INTO `rds_mc`(`id` ,`name` ) VALUES(8,"6666");
      SELECT * FROM `rds_mc`;
  2. Siapkan sumber data RDS MySQL.

    Konfigurasikan sumber data MySQL di DataWorks. Untuk langkah-langkahnya, lihat Add a MySQL data source.

  3. Siapkan sumber data OSS.

    Konfigurasikan sumber data OSS di DataWorks. Untuk langkah-langkahnya, lihat Add an OSS data source.

  4. Buat dan jalankan tugas sinkronisasi data.

    Buat tugas sinkronisasi offline di modul pengembangan data DataWorks. Untuk detailnya, lihat Codeless UI configuration. Konfigurasi utamanya sebagai berikut:

    1. Konfigurasi jaringan dan sumber daya.image..png

      Parameter

      Penjelasan

      Sumber

      Data Sumber

      MySQL.

      Nama Sumber Data

      Sumber data MySQL yang telah dibuat.

      Resource Group

      My Resource Group

      Resource group eksklusif integrasi data yang telah dibuat.

      Tujuan

      Tujuan Data

      OSS.

      Nama Sumber Data

      Sumber data OSS yang telah dibuat.

    2. Konfigurasi tugas.

      Di tab Configure tasks, isi nama tabel dan file.

      Parameter

      Penjelasan

      Tabel

      Nama tabel yang telah dibuat di database RDS.

      Nama File (termasuk path)

      Format: <nama direktori file yang telah dibuat di OSS>/<file data yang akan diekspor ke OSS>.

      Misalnya doc-test-01/datalake/anti.csv.

    3. Klik ikon image..png di pojok kiri atas halaman konfigurasi tugas sinkronisasi offline untuk menyimpan konfigurasi, lalu klik ikon image..png untuk menjalankan tugas.

    4. Setelah tugas berhasil dijalankan di DataWorks, Anda dapat memeriksa apakah data berhasil diimpor di path konfigurasi sumber data OSS.

Langkah 3: Temukan metadata dengan DLF

Di Konsol DLF, gunakan penemuan metadata untuk mengingesti data tersebut. Untuk informasi lebih lanjut, lihat Metadata discovery.

Langkah 4: Lihat metadata data lake

Di Konsol DLF, klik MetaData > Metadata Management, buka database target, lalu lihat informasi tabel di tab Table List.

Penting

Jika metode serialisasi untuk tabel setelah penemuan metadata adalah org.apache.hadoop.hive.serde2.OpenCSVSerde, MaxCompute mungkin salah mengartikan tipe bidang sebagai tipe string khusus opencsv alih-alih tipe string standar. Hal ini dapat menyebabkan kegagalan kueri. Untuk mengatasi masalah ini, Anda harus mengubah secara manual tipe data semua bidang yang terpengaruh menjadi string di DLF.

Otorisasi

Membangun danau data terpadu dengan MaxCompute, DLF, dan OSS memerlukan otorisasi karena akun yang digunakan untuk membuat proyek MaxCompute tidak memiliki akses default ke DLF dan OSS. Berikan izin menggunakan salah satu metode berikut:

  • Otorisasi satu klik: Direkomendasikan jika Anda menggunakan akun yang sama untuk proyek MaxCompute, DLF, dan OSS. Klik Authorize DLF and OSS untuk memberikan izin yang diperlukan.

  • Otorisasi kustom: Metode ini dapat digunakan baik dengan akun yang sama maupun berbeda untuk proyek MaxCompute, DLF, atau OSS. Untuk informasi lebih lanjut, lihat Custom authorization.

Buat proyek eksternal di MaxCompute

Buat proyek eksternal di konsol DataWorks.

  1. Login ke Konsol DataWorks, pilih wilayah China East 2 (Shanghai).

  2. Di panel navigasi kiri halaman Konsol DataWorks, pilih More > 数据湖集成(湖仓一体).

  3. Di halaman Lake and Warehouse Integration (Data Lakehouse), klik Start.

  4. Di halaman Create Data Lakehouse, ikuti petunjuk pada antarmuka. Contoh parameter ditunjukkan di bawah ini.

    Tabel 1. Buat gudang data

    Parameter

    Penjelasan

    External Project Name

    ext_dlf_delta

    MaxCompute Project

    ms_proj1

    Tabel 2. Buat koneksi data lake eksternal

    Parameter

    Penjelasan

    Heterogeneous Data Platform Type

    Pilih Alibaba Cloud DLF+OSS data lake connection

    Tidak ada

    Koneksi data lake Alibaba Cloud DLF+OSS

    External Project Description

    Tidak ada

    Wilayah DLF

    cn-shanghai

    DLF Endpoint

    dlf-share.cn-shanghai.aliyuncs.com

    Nama Database DLF

    datalake

    DLF RoleARN

    Tidak ada

  5. Setelah mengklik Create, klik Preview.

    Jika informasi tabel di database DLF dapat dipratinjau, berarti operasi berhasil.

Kueri data proyek eksternal dengan MaxCompute

Di halaman kueri ad hoc DataWorks, kueri data tabel di proyek eksternal.

Catatan

Untuk informasi lebih lanjut tentang kueri ad hoc di DataWorks, lihat Use ad hoc queries to run SQL statements.

  • Contoh perintah:

    select * from ext_dlf_delta.rds_mc;
  • Hasil: Perintah mengembalikan catatan data dari kolom id dan name tabel rds_mc. Hal ini mengonfirmasi bahwa metadata data lake telah berhasil disinkronkan.