Setelah mengonfigurasi katalog Data Lake Formation (DLF), Anda dapat langsung mengakses tabel di instans DLF dari Konsol pengembangan Realtime Compute for Apache Flink tanpa perlu mendaftarkan tabel DLF secara manual. Hal ini meningkatkan efisiensi pengembangan pekerjaan dan memastikan kebenaran data. Topik ini menjelaskan cara membuat, melihat, menggunakan, dan menghapus katalog DLF.
Topik ini hanya berlaku untuk DLF-Legacy. Kami menyarankan agar Anda menggunakan versi terbaru Data Lake Formation (DLF) alih-alih DLF-Legacy. Untuk informasi selengkapnya tentang cara menggunakan versi baru DLF, lihat Kelola katalog Paimon.
Informasi latar belakang
Alibaba Cloud Data Lake Formation (DLF) adalah produk manajemen metadata terpadu yang ditawarkan oleh Alibaba Cloud. Anda dapat menggunakan DLF untuk mengelola tabel dalam format open source, seperti Iceberg, Hudi, Delta, Parquet, ORC, atau Avro.
Prasyarat
Anda harus mengaktifkan layanan Alibaba Cloud Data Lake Formation (DLF)-Legacy
Batasan
Flink hanya mendukung pengelolaan format data lake Iceberg dan Hudi dalam katalog DLF.
Buat Katalog DLF
Anda dapat membuat katalog DLF menggunakan antarmuka pengguna (UI) atau dengan menjalankan perintah SQL. Kami menyarankan agar Anda menggunakan UI.
Metode UI
Buka halaman Data Management.
Masuk ke Konsol Realtime Compute for Apache Flink.
Temukan ruang kerja yang ingin dikelola dan klik Console di kolom Actions.
Klik Data Management.
Klik Create Catalog, pilih DLF, lalu klik Next.
Buat katalog DLF.
Konfigurasikan informasi katalog.

Item konfigurasi
Deskripsi
Diperlukan
Catatan
catalogname
Nama katalog DLF.
Ya
Masukkan nama kustom dalam bahasa Inggris.
access.key.id
ID AccessKey yang diperlukan untuk mengakses Object Storage Service (OSS).
Ya
Untuk informasi selengkapnya tentang cara mendapatkan pasangan AccessKey, lihat Dapatkan pasangan AccessKey.
access.key.secret
Rahasia AccessKey yang diperlukan untuk mengakses OSS.
Ya
Untuk informasi selengkapnya tentang cara mendapatkan pasangan AccessKey, lihat Dapatkan pasangan AccessKey.
warehouse
Jalur OSS default tempat tabel dalam katalog DLF disimpan. Ini adalah direktori gudang data yang ditentukan dalam layanan OSS.
Ya
Mendukung OSS dan Hadoop Distributed File System (HDFS).
Format jalur OSS:
oss://<bucket>/<object>.Format jalur OSS-HDFS:
oss://<bucket>.<oss-hdfs-endpoint>/<object>.
Di mana:
bucket: Nama bucket OSS Anda. Anda dapat melihatnya di Konsol OSS.
object: Jalur tempat data Anda disimpan. Anda dapat melihatnya di Konsol OSS.
oss-hdfs-endpoint: Titik akhir layanan OSS-HDFS. Di Konsol OSS, buka halaman Overview bucket. Di bagian Access Ports, lihat Endpoint dari HDFS Service.
CatatanHanya Ververica Runtime (VVR) 8.0.3 dan versi setelahnya yang mendukung pengaturan parameter ini ke jalur OSS-HDFS.
oss.endpoint
Titik akhir Alibaba Cloud OSS. Contoh:
oss-cn-hangzhou-internal.aliyuncs.comYa
Mendukung OSS dan OSS-HDFS.
Untuk titik akhir layanan OSS, lihat Wilayah dan titik akhir.
Untuk titik akhir layanan OSS-HDFS, buka halaman Overview bucket di Konsol OSS. Di bagian Access Ports, lihat Endpoint dari HDFS Service.
CatatanKami menyarankan agar Anda mengatur parameter oss.endpoint ke titik akhir VPC OSS. Misalnya, jika Anda memilih wilayah China (Hangzhou), atur oss.endpoint ke oss-cn-hangzhou-internal.aliyuncs.com.
Untuk mengakses OSS lintas VPC, lihat Bagaimana cara mengakses layanan lain lintas VPC?.
dlf.endpoint
Titik akhir layanan Alibaba Cloud DLF.
Ya
CatatanKami menyarankan agar Anda mengatur parameter dlf.endpoint ke titik akhir VPC DLF. Misalnya, jika Anda memilih wilayah China (Hangzhou), atur parameter dlf.endpoint ke dlf-vpc.cn-hangzhou.aliyuncs.com.
Untuk mengakses DLF lintas VPC, lihat Manajemen ruang kerja.
dlf.region-id
Nama wilayah layanan Alibaba Cloud DLF. Ini adalah wilayah tempat DLF berada.
Ya
CatatanPastikan wilayah tersebut sama dengan yang dipilih untuk dlf.endpoint.
More Configurations
Konfigurasi DLF lainnya. Untuk mengonfigurasi beberapa katalog DLF, pisahkan dengan jeda baris.
Tidak
Contoh:
dlf.catalog.id:my_catalog.Klik OK.
Setelah katalog dibuat, katalog tersebut muncul di area Metadata.
Metode SQL
Di editor teks pada halaman Data Query, masukkan pernyataan untuk membuat katalog DLF.
CREATE CATALOG <yourcatalogname> WITH ( 'type' = 'dlf', 'access.key.id' = '<YourAliyunAccessKeyId>', 'access.key.secret' = '<YourAliyunAccessKeySecret>', 'warehouse' = '<YourAliyunOSSLocation>', 'oss.endpoint' = '<YourAliyunOSSEndpoint>', 'dlf.region-id' = '<YourAliyunDLFRegionId>', 'dlf.endpoint' = '<YourAliyunDLFEndpoint>' );Parameter
Deskripsi
Diperlukan
Catatan
yourcatalogname
Nama kustom untuk katalog DLF.
Ya
Masukkan nama kustom dalam bahasa Inggris.
PentingSetelah Anda mengganti parameter dengan nama katalog Anda, hapus tanda kurung sudut (<>). Jika tidak, akan terjadi kesalahan sintaksis.
type
Tipe.
Ya
Nilainya tetap dlf.
access.key.id
ID AccessKey Akun Alibaba Cloud Anda.
Ya
Untuk informasi selengkapnya tentang cara mendapatkan pasangan AccessKey, lihat Dapatkan pasangan AccessKey.
access.key.secret
Rahasia AccessKey akun Alibaba Cloud Anda.
Ya
Untuk informasi selengkapnya tentang cara mendapatkan pasangan AccessKey, lihat Dapatkan pasangan AccessKey.
warehouse
Jalur OSS default tempat tabel dalam katalog DLF disimpan.
Ya
Format: oss://<bucket>/<object>. Parameter:
bucket: Nama bucket OSS Anda.
object: Jalur tempat data Anda disimpan.
CatatanLihat nama bucket dan object Anda di Konsol OSS.
oss.endpoint
Titik akhir Alibaba Cloud OSS.
Ya
Untuk informasi lebih lanjut, lihat Wilayah dan Titik Akhir.
CatatanKami menyarankan agar Anda mengatur parameter oss.endpoint ke titik akhir VPC OSS. Misalnya, jika Anda memilih wilayah China (Hangzhou), atur oss.endpoint ke oss-cn-hangzhou-internal.aliyuncs.com.
Untuk mengakses OSS lintas VPC, lihat Manajemen ruang kerja
dlf.endpoint
Titik akhir layanan Alibaba Cloud DLF.
Ya
CatatanKami menyarankan agar Anda mengatur parameter dlf.endpoint ke titik akhir VPC DLF. Misalnya, jika Anda memilih wilayah China (Hangzhou), atur parameter dlf.endpoint ke dlf-vpc.cn-hangzhou.aliyuncs.com.
Untuk mengakses DLF lintas VPC, lihat Manajemen ruang kerja.
dlf.region-id
Nama wilayah layanan Alibaba Cloud DLF.
Ya
CatatanPastikan wilayah tersebut sama dengan yang dipilih untuk dlf.endpoint.
Pilih pernyataan tersebut dan klik Run.
Katalog yang dibuat muncul di area Metadata di sebelah kiri.
Lihat Katalog DLF
Setelah katalog DLF dibuat, ikuti langkah-langkah berikut untuk melihat metadata DLF.
Buka halaman Data Management.
Masuk ke Konsol Realtime Compute for Apache Flink.
Temukan ruang kerja yang ingin dikelola dan klik Console di kolom Actions.
Klik Data Management.
Di halaman Catalog List, lihat Catalog Name dan Type.
CatatanUntuk melihat database dan tabel dalam katalog, klik View.
Gunakan Katalog DLF
Kelola Database DLF
Di editor teks pada halaman Data Query, masukkan dan jalankan pernyataan berikut. Untuk menjalankan pernyataan, pilih pernyataan tersebut dan klik Run. Setelah database dibuat atau dihapus, Anda dapat melihat hasilnya di bagian Metadata di sisi kiri halaman SQL Development.
Buat database
CREATE DATABASE dlf.dlf_testdb;Hapus database
DROP DATABASE dlf.dlf_testdb;
Kelola tabel DLF
Buat tabel
Buat dengan konektor
Metode SQL
Di editor teks pada halaman Data Query, masukkan dan jalankan pernyataan berikut. Untuk menjalankan pernyataan, pilih pernyataan tersebut dan klik Run. Setelah tabel dibuat, Anda dapat melihatnya di bagian Metadata di sisi kiri halaman SQL Development.
CREATE TABLE dlf.dlf_testdb.iceberg ( id BIGINT, data STRING, dt STRING ) PARTITIONED BY (dt) WITH( 'connector' = 'iceberg' ); CREATE TABLE dlf.dlf_testdb.hudi ( id BIGINT PRIMARY KEY NOT ENFORCED, data STRING, dt STRING ) PARTITIONED BY (dt) WITH( 'connector' = 'hudi' );Metode UI
Buka halaman Data Management.
Masuk ke Konsol Realtime Compute for Apache Flink.
Temukan ruang kerja yang ingin dikelola dan klik Console di kolom Actions.
Klik Data Management.
Temukan katalog yang ingin Anda kelola dan klik View pada kolom Actions.
Temukan database yang ingin Anda kelola dan klik View pada kolom Actions.
Klik Create Table.
Di tab Connect with Built-in Connector, pilih tipe tabel dari daftar Connection Method.
Klik Next.
Masukkan pernyataan pembuatan tabel dan konfigurasikan parameter terkait. Contoh kode:
CREATE TABLE dlf.dlf_testdb.iceberg ( id BIGINT, data STRING, dt STRING ) PARTITIONED BY (dt) WITH( 'connector' = 'iceberg' ); CREATE TABLE dlf.dlf_testdb.hudi ( id BIGINT PRIMARY KEY NOT ENFORCED, data STRING, dt STRING ) PARTITIONED BY (dt) WITH( 'connector' = 'hudi' );Klik OK.
Buat tabel yang memiliki skema yang sama dengan tabel yang sudah ada (Metode ini hanya berlaku untuk tabel Iceberg)
Di editor teks pada halaman Data Query, masukkan pernyataan berikut. Pilih pernyataan tersebut dan klik Run.
CREATE TABLE iceberg_table_like LIKE iceberg_table;
Hapus tabel
DROP TABLE iceberg_table;
Ubah skema tabel Iceberg
Di editor teks pada halaman Data Query, jalankan pernyataan berikut. Untuk menjalankan pernyataan, pilih pernyataan tersebut dan klik Run.
Operasi | Contoh Kode |
Ubah properti tabel | |
Ganti nama | |
Ubah nama kolom | Catatan Operasi ini hanya didukung oleh VVR 8.0.7 dan versi setelahnya. |
Ubah tipe data | Tipe data kolom dapat diubah berdasarkan aturan berikut:
Catatan Operasi ini hanya didukung oleh VVR 8.0.7 dan versi setelahnya. |
Tulis Data
INSERT INTO dlf.dlf_testdb.iceberg VALUES (1, 'AAA', '2022-02-01'), (2, 'BBB', '2022-02-01');
INSERT INTO dlf.dlf_testdb.hudi VALUES (1, 'AAA', '2022-02-01'), (2, 'BBB', '2022-02-01');Baca Data
SELECT * FROM dlf.dlf_testdb.iceberg LIMIT 2;
SELECT * FROM dlf.dlf_testdb.hudi LIMIT 2;Hapus katalog DLF
Menghapus katalog DLF tidak memengaruhi pekerjaan yang sedang berjalan. Namun, pekerjaan yang menggunakan tabel dari katalog yang dihapus akan gagal dengan kesalahan 'table not found' jika pekerjaan tersebut dipublikasikan atau dimulai ulang. Lakukan operasi ini dengan hati-hati.
Anda dapat menghapus katalog DLF menggunakan UI atau dengan menjalankan perintah SQL. Kami menyarankan agar Anda menggunakan UI.
Metode UI
Buka halaman Data Management.
Masuk ke Konsol Realtime Compute for Apache Flink.
Klik Console pada kolom Actions ruang kerja yang ingin Anda kelola.
Klik Data Management.
Di halaman Catalog List, temukan katalog yang ingin Anda hapus dan klik Delete pada kolom Actions.
Pada pesan konfirmasi yang muncul, klik Delete.
Konfirmasi bahwa katalog telah dihapus dari bagian Metadata di sebelah kiri.
Metode SQL
Di editor teks pada halaman Data Query, jalankan pernyataan berikut.
DROP CATALOG ${catalog_name}catalog_name adalah nama katalog DLF yang ingin Anda hapus. Nama ini ditampilkan di Konsol pengembangan Realtime Compute for Apache Flink.
Pilih pernyataan yang digunakan untuk menghapus katalog, klik kanan pernyataan tersebut, lalu pilih Run.
Konfirmasi bahwa katalog telah dihapus dari area Metadata di sebelah kiri.
Referensi
Untuk informasi selengkapnya tentang cara menggunakan konektor Iceberg, lihat Iceberg.
Untuk informasi selengkapnya tentang cara menggunakan konektor Hudi, lihat Hudi (deprecated).
Jika katalog bawaan tidak memenuhi kebutuhan bisnis Anda, Anda dapat menggunakan katalog kustom. Untuk informasi selengkapnya, lihat Kelola katalog kustom.