Setelah membuat katalog Data Lake Formation (DLF), Anda dapat mengakses tabel dari katalog DLF di konsol pengembangan Realtime Compute for Apache Flink tanpa perlu mendaftarkan tabel DLF. Hal ini meningkatkan efisiensi pengembangan draf dan memastikan keakuratan data. Topik ini menjelaskan cara membuat, melihat, menggunakan, dan menghapus katalog DLF.
Informasi latar belakang
Alibaba Cloud DLF adalah layanan manajemen metadata terpadu yang disediakan oleh Alibaba Cloud. Anda dapat menggunakan DLF untuk mengelola tabel dalam format sumber terbuka seperti Iceberg, Hudi, Delta, Parquet, ORC, dan Avro.
Kami menyarankan untuk menggunakan DLF versi terbaru daripada DLF-Legacy. Untuk detail selengkapnya, lihat Kelola katalog Paimon.
Prasyarat
DLF-Legacy telah diaktifkan.
Batasan
Realtime Compute for Apache Flink hanya mendukung pengelolaan format danau data Iceberg dan Hudi dalam katalog DLF.
Buat Katalog DLF
Anda dapat membuat katalog DLF melalui UI atau dengan mengeksekusi pernyataan SQL. Kami merekomendasikan pembuatan katalog DLF melalui UI.
Buat Katalog DLF di UI
Buka halaman Katalog.
Masuk ke Konsol Realtime Compute for Apache Flink.
Temukan ruang kerja yang ingin dikelola dan klik Console di kolom Actions.
Klik Catalogs.
Di halaman yang muncul, klik Create Catalog. Di kotak dialog Buat Katalog, pilih DLF pada tab Katalog Bawaan di langkah Pilih Jenis Katalog, lalu klik Next.
Buat katalog DLF.
Konfigurasikan informasi katalog.

Parameter
Deskripsi
Diperlukan
Catatan
catalogname
Nama katalog DLF.
Ya
Tetapkan nilai ke nama kustom.
access.key.id
ID AccessKey akun Alibaba Cloud Anda yang digunakan untuk mengakses Object Storage Service (OSS).
Ya
Untuk informasi lebih lanjut tentang cara mendapatkan pasangan AccessKey, lihat Dapatkan Pasangan AccessKey.
access.key.secret
Rahasia AccessKey akun Alibaba Cloud Anda yang digunakan untuk mengakses OSS.
Ya
Untuk informasi lebih lanjut tentang cara mendapatkan pasangan AccessKey, lihat Dapatkan Pasangan AccessKey.
warehouse
Jalur default tempat tabel dalam katalog DLF disimpan di OSS. Jalur OSS default adalah direktori OSS.
Ya
Layanan OSS dan OSS-HDFS didukung.
Jalur OSS berformat
oss://<bucket>/<object>.Jalur OSS-HDFS berformat
oss://<bucket>.<oss-hdfs-endpoint>/<object>.
Parameter dalam jalur:
bucket: menunjukkan nama bucket OSS yang Anda buat. Anda dapat masuk ke Konsol OSS untuk melihat informasi tersebut.
object: menunjukkan jalur tempat data Anda disimpan. Anda dapat masuk ke Konsol OSS untuk melihat informasi tersebut.
oss-hdfs-endpoint: menunjukkan titik akhir layanan OSS-HDFS. Anda dapat masuk ke Konsol OSS dan lakukan operasi berikut untuk melihat titik akhir OSS-HDFS: Di panel navigasi kiri Konsol OSS, klik Bucket. Di halaman Bucket, temukan bucket yang diinginkan dan klik nama bucket tersebut. Di panel tengah halaman yang muncul, klik Overview. Di halaman yang muncul, lihat endpoint dari OSS-HDFS service di bagian Port.
CatatanHanya Realtime Compute for Apache Flink yang menggunakan VVR 8.0.3 atau lebih baru yang memungkinkan Anda menyetel parameter ini ke jalur OSS-HDFS.
oss.endpoint
Titik akhir OSS, misalnya
oss-cn-hangzhou-internal.aliyuncs.com.Ya
Layanan OSS dan OSS-HDFS didukung.
Titik akhir OSS. Untuk informasi lebih lanjut, lihat Wilayah dan Titik Akhir.
Titik akhir OSS-HDFS. Anda dapat masuk ke Konsol OSS dan lakukan operasi berikut untuk melihat titik akhir OSS-HDFS: Di panel navigasi kiri Konsol OSS, klik Buckets. Di halaman Bucket, temukan bucket yang diinginkan dan klik nama bucket tersebut. Di panel tengah halaman yang muncul, klik Overview. Di halaman yang muncul, lihat endpoint dari OSS-HDFS service di bagian Port.
CatatanKami merekomendasikan Anda menyetel oss.endpoint ke titik akhir VPC OSS. Misalnya, jika Anda memilih wilayah China (Hangzhou), setel oss.endpoint ke oss-cn-hangzhou-internal.aliyuncs.com.
Jika Anda ingin mengakses OSS lintas VPC, lihat Bagaimana cara Realtime Compute for Apache Flink mengakses layanan lintas VPC?
dlf.endpoint
Titik akhir layanan DLF.
Ya
CatatanKami merekomendasikan Anda menyetel dlf.endpoint ke titik akhir VPC DLF. Misalnya, jika Anda memilih wilayah China (Hangzhou), setel parameter dlf.endpoint ke dlf-vpc.cn-hangzhou.aliyuncs.com.
Jika Anda ingin mengakses DLF lintas VPC, ikuti instruksi yang dijelaskan di Bagaimana Realtime Compute for Apache Flink mengakses layanan lintas VPC?
dlf.region-id
ID wilayah tempat layanan DLF berada.
Ya
CatatanPastikan wilayah yang Anda pilih sesuai dengan titik akhir yang Anda pilih untuk dlf.endpoint.
more configuration
Parameter lain yang ingin Anda konfigurasikan untuk katalog DLF. Misalnya, Anda dapat menentukan beberapa katalog DLF. Pisahkan beberapa katalog DLF dengan baris baru.
Tidak
Contoh:
dlf.catalog.id:my_catalog.Klik Confirm.
Lihat katalog yang dibuat di panel Catalogs di sisi kiri halaman Daftar Katalog.
Buat Katalog DLF dengan Menjalankan Pernyataan SQL
Di editor kode tab Skrip di halaman Editor SQL, masukkan pernyataan berikut untuk membuat katalog DLF:
CREATE CATALOG <yourcatalogname> WITH ( 'type' = 'dlf', 'access.key.id' = '<YourAliyunAccessKeyId>', 'access.key.secret' = '<YourAliyunAccessKeySecret>', 'warehouse' = '<YourAliyunOSSLocation>', 'oss.endpoint' = '<YourAliyunOSSEndpoint>', 'dlf.region-id' = '<YourAliyunDLFRegionId>', 'dlf.endpoint' = '<YourAliyunDLFEndpoint>' );Parameter
Deskripsi
Diperlukan
Catatan
yourcatalogname
Nama katalog DLF.
Ya
Tetapkan nilai ke nama kustom.
PentingAnda harus menghapus tanda kurung sudut (<>) saat mengganti nilai parameter dengan nama katalog Anda. Jika tidak, kesalahan akan dikembalikan selama pemeriksaan sintaksis.
type
Jenis katalog.
Ya
Tetapkan nilai ke dlf.
access.key.id
ID AccessKey akun Alibaba Cloud.
Ya
Untuk informasi lebih lanjut tentang cara mendapatkan pasangan AccessKey, lihat Dapatkan Pasangan AccessKey.
access.key.secret
Rahasia AccessKey akun Alibaba Cloud Anda.
Ya
Untuk informasi lebih lanjut tentang cara mendapatkan pasangan AccessKey, lihat Dapatkan Pasangan AccessKey.
warehouse
Jalur default tempat tabel dalam katalog DLF disimpan di OSS.
Ya
Jalur harus dalam format oss://<bucket>/<object>. Parameter dalam jalur:
bucket: menunjukkan nama bucket OSS yang Anda buat.
object: menunjukkan jalur tempat data Anda disimpan.
CatatanMasuk ke Konsol OSS untuk melihat nama bucket dan nama objek Anda.
oss.endpoint
Titik akhir OSS.
Ya
Untuk informasi lebih lanjut, lihat Wilayah dan Titik Akhir.
CatatanKami merekomendasikan Anda menyetel oss.endpoint ke titik akhir VPC OSS. Misalnya, jika Anda memilih wilayah China (Hangzhou), setel oss.endpoint ke oss-cn-hangzhou-internal.aliyuncs.com.
Jika Anda ingin mengakses OSS lintas VPC, ikuti instruksi yang dijelaskan di Bagaimana Realtime Compute for Apache Flink mengakses layanan lintas VPC?
dlf.endpoint
Titik akhir layanan DLF.
Ya
CatatanKami merekomendasikan Anda menyetel dlf.endpoint ke titik akhir VPC DLF. Misalnya, jika Anda memilih wilayah China (Hangzhou), setel parameter dlf.endpoint ke dlf-vpc.cn-hangzhou.aliyuncs.com.
Jika Anda ingin mengakses DLF lintas VPC, ikuti instruksi yang dijelaskan di Bagaimana Realtime Compute for Apache Flink mengakses layanan lintas VPC?
dlf.region-id
ID wilayah tempat layanan DLF berada.
Ya
CatatanPastikan wilayah yang Anda pilih sesuai dengan titik akhir yang Anda pilih untuk dlf.endpoint.
Pilih kode yang digunakan untuk membuat katalog dan klik Run yang muncul di sisi kiri kode tersebut.
Di panel Catalogs di sisi kiri halaman Daftar Katalog, lihat katalog yang dibuat.
Lihat Katalog DLF
Setelah membuat katalog DLF, Anda dapat melihat metadata DLF dengan langkah-langkah berikut:
Buka halaman Katalog.
Masuk ke Konsol Realtime Compute for Apache Flink.
Temukan ruang kerja yang ingin dikelola dan klik Console di kolom Actions.
Klik Catalogs.
Di halaman Catalog List, cari katalog yang diinginkan dan periksa kolom Catalog Name serta Type.
CatatanUntuk melihat database dan tabel dalam katalog, klik View di kolom Tindakan.
Gunakan Katalog DLF
Kelola Database DLF
Di editor kode tab Skrip di halaman Editor SQL, masukkan pernyataan berikut untuk membuat atau menghapus database DLF sesuai kebutuhan bisnis Anda. Pilih pernyataan tersebut dan klik Run di sisi kiri editor kode. Setelah membuat atau menghapus database DLF, Anda dapat mengklik tab Catalogs di sisi kiri halaman SQL Editor untuk memeriksa apakah database DLF telah dibuat atau dihapus.
Buat Database DLF
CREATE DATABASE dlf.dlf_testdb;Hapus Database DLF
DROP DATABASE dlf.dlf_testdb;
Kelola Tabel DLF
Buat Tabel DLF
Buat Tabel DLF menggunakan konektor
Buat Tabel DLF dengan Menjalankan Pernyataan SQL
Di editor kode tab Skrip di halaman Editor SQL, masukkan salah satu pernyataan berikut untuk membuat tabel DLF menggunakan konektor. Pilih pernyataan tersebut dan klik Run di sisi kiri editor kode. Setelah tabel DLF dibuat, Anda dapat mengklik tab Catalogs di sisi kiri halaman SQL Editor untuk melihat tabel DLF yang dibuat.
CREATE TABLE dlf.dlf_testdb.iceberg ( id BIGINT, data STRING, dt STRING ) PARTITIONED BY (dt) WITH( 'connector' = 'iceberg' ); CREATE TABLE dlf.dlf_testdb.hudi ( id BIGINT PRIMARY KEY NOT ENFORCED, data STRING, dt STRING ) PARTITIONED BY (dt) WITH( 'connector' = 'hudi' );Buat Tabel DLF di UI
Buka halaman Katalog.
Masuk ke Konsol Realtime Compute for Apache Flink.
Temukan ruang kerja yang ingin dikelola dan klik Console di kolom Actions.
Klik Catalogs.
Di halaman Daftar Katalog, temukan katalog yang diinginkan dan klik View di kolom Actions.
Di halaman yang muncul, temukan database yang diinginkan dan klik View di kolom Actions.
Di halaman yang muncul, klik Create Table.
Di tab Built-in kotak dialog Buat Tabel, klik Connection Type dan pilih tipe tabel.
Klik Next.
Masukkan pernyataan pembuatan tabel dan konfigurasikan parameter terkait. Contoh kode:
CREATE TABLE dlf.dlf_testdb.iceberg ( id BIGINT, data STRING, dt STRING ) PARTITIONED BY (dt) WITH( 'connector' = 'iceberg' ); CREATE TABLE dlf.dlf_testdb.hudi ( id BIGINT PRIMARY KEY NOT ENFORCED, data STRING, dt STRING ) PARTITIONED BY (dt) WITH( 'connector' = 'hudi' );Klik Confirm.
Buat tabel dengan skema yang sama dengan tabel yang ada (hanya untuk tabel Apache Iceberg)
Di editor kode tab Skrip di halaman Editor SQL, masukkan pernyataan berikut. Pilih pernyataan tersebut dan klik Run di sisi kiri editor kode.
CREATE TABLE iceberg_table_like LIKE iceberg_table;
Hapus Tabel DLF
DROP TABLE iceberg_table;
Ubah Skema Tabel Apache Iceberg
Di editor kode tab Skrip di halaman Editor SQL, masukkan salah satu pernyataan berikut. Pilih pernyataan tersebut dan klik Run di sisi kiri editor kode.
Operasi | Contoh Kode |
Ubah atribut tabel | |
Ganti nama tabel | |
Ubah nama kolom | Catatan Hanya Realtime Compute for Apache Flink yang menggunakan VVR 8.0.7 atau lebih baru yang mendukung operasi ini. |
Ubah tipe data kolom | Tipe data kolom dapat diubah berdasarkan aturan berikut:
Catatan Hanya Realtime Compute for Apache Flink yang menggunakan VVR 8.0.7 atau lebih baru yang mendukung operasi ini. |
Tulis Data
INSERT INTO dlf.dlf_testdb.iceberg VALUES (1, 'AAA', '2022-02-01'), (2, 'BBB', '2022-02-01');
INSERT INTO dlf.dlf_testdb.hudi VALUES (1, 'AAA', '2022-02-01'), (2, 'BBB', '2022-02-01');Baca Data
SELECT * FROM dlf.dlf_testdb.iceberg LIMIT 2;
SELECT * FROM dlf.dlf_testdb.hudi LIMIT 2;Hapus Katalog DLF
Setelah menghapus katalog DLF, penyebaran yang sedang berjalan tidak akan terpengaruh. Namun, penyebaran yang menggunakan tabel dari katalog tersebut tidak akan dapat menemukan tabel lagi jika penyebaran dipublikasikan ulang atau dimulai ulang. Berhati-hatilah saat menghapus katalog DLF.
Anda dapat menghapus katalog DLF melalui UI atau dengan mengeksekusi pernyataan SQL. Kami merekomendasikan penghapusan katalog DLF melalui UI.
Hapus Katalog DLF di UI
Buka halaman Katalog.
Masuk ke Konsol Realtime Compute for Apache Flink.
Temukan ruang kerja yang ingin dikelola dan klik Console di kolom Actions.
Klik Catalogs.
Di halaman Catalog List, temukan katalog yang diinginkan dan klik Delete di kolom Actions.
Di pesan yang muncul, klik Delete.
Lihat panel Catalogs di sisi kiri halaman Daftar Katalog untuk memeriksa apakah katalog telah dihapus.
Hapus Katalog DLF dengan Menjalankan Pernyataan SQL
Di editor kode tab Skrip di halaman Editor SQL, masukkan pernyataan berikut:
DROP CATALOG ${catalog_name}catalog_name menunjukkan nama katalog DLF yang ingin dihapus di konsol pengembangan Realtime Compute for Apache Flink.
Klik kanan pernyataan yang digunakan untuk menghapus katalog dan pilih Run dari menu pintasan.
Lihat panel Catalogs di sisi kiri halaman Daftar Katalog untuk memeriksa apakah katalog telah dihapus.
Referensi
Untuk informasi lebih lanjut tentang cara menggunakan konektor Apache Iceberg, lihat Konektor Apache Iceberg.
Untuk informasi lebih lanjut tentang cara menggunakan konektor Hudi, lihat Konektor Hudi (akan segera pensiun).
Jika katalog bawaan Realtime Compute for Apache Flink tidak dapat memenuhi kebutuhan bisnis Anda, Anda dapat menggunakan katalog kustom. Untuk informasi lebih lanjut, lihat Kelola Katalog Kustom.