Alibaba Cloud Data Lake Formation (DLF) adalah platform terkelola penuh yang menyediakan metadata terpadu, penyimpanan data, dan manajemen data. DLF menawarkan fitur-fitur seperti Metadata Management, Storage Management, Permission Management, Storage Analysis, dan Storage Optimization. DataWorks Data Integration mendukung penulisan data ke sumber data DLF. Topik ini menjelaskan cara menggunakan sumber data DLF.
Batasan
Sumber data Data Lake Formation hanya dapat digunakan di Data Integration dan memerlukan resource group Serverless.
Buat sumber data
Buka halaman Data Sources.
Masuk ke DataWorks console. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down, lalu klik Go to Management Center.
Di panel navigasi kiri halaman SettingCenter, klik Data Sources.
Klik Add Data Source, cari dan pilih DLF, lalu konfigurasikan parameter sebagai berikut:
Parameter
Description
Data Source Name
Masukkan nama kustom untuk sumber data. Nama tersebut harus unik dalam ruang kerja dan hanya boleh terdiri dari huruf, angka, dan garis bawah (_). Nama tidak boleh dimulai dengan angka atau garis bawah.
Configuration Mode
Hanya Alibaba Cloud Instance Mode yang didukung.
Endpoint
Pilih endpoint instans engine DLF dari daftar drop-down.
Access Identity
Anda dapat memilih salah satu opsi berikut:
Alibaba Cloud Account
Alibaba Cloud RAM User
Alibaba Cloud RAM Role
CatatanJika Anda memilih RAM User atau RAM Role, Anda harus memberikan izin berikut kepada pengguna RAM atau peran RAM tersebut:
Di RAM console, sambungkan kebijakan sistem AliyunDataWorksDIAccessDLF ke RAM User atau RAM Role untuk mengizinkan akses ke metadata DLF. Untuk informasi selengkapnya, lihat Grant permissions to a RAM user.
Di Data Lake Formation console, berikan izin Data Editor pada tabel target kepada peran RAM atau pengguna RAM.
DLF Data Catalog
Pilih DLF Data Catalog yang berada di wilayah yang sama dengan ruang kerja DataWorks Anda.
Database Name
Pilih database dalam Data Catalog.
Setelah mengonfigurasi parameter, uji konektivitas antara sumber data dan resource group Serverless. Jika pengujian berhasil, klik Complete Modification. Jika pengujian gagal, lihat Network connectivity configuration untuk troubleshooting.
Buat tugas integrasi data
Anda dapat menggunakan sumber data Data Lake Formation dalam tugas DataWorks Data Integration. Untuk informasi selengkapnya, lihat Data synchronization to Data Lake Formation.
Lampiran: Contoh skrip dan parameter
Konfigurasi skrip tugas offline
Saat mengonfigurasi Offline Task dalam Script Mode, Anda harus memformat parameter skrip dengan benar. Untuk informasi selengkapnya, lihat Use the code editor. Bagian berikut menjelaskan parameter yang diperlukan.
Contoh skrip Reader
{
"type": "job",
"version": "2.0",
"steps": [
{
"stepType": "dlf",
"parameter": {
"datasource": "guxuan_dlf",
"table": "auto_ob_3088545_0523",
"column": [
"id",
"col1",
"col2",
"col3"
],
"tableType": "table",
"where": "id > 1"
},
"name": "Reader",
"category": "reader"
},
{
"stepType": "stream",
"parameter": {
"print": false
},
"name": "Writer",
"category": "writer"
}
],
"setting": {
"errorLimit": {
"record": "" // Jumlah catatan error yang diizinkan.
},
"speed": {
"throttle": true, // Mengaktifkan (true) atau menonaktifkan (false) pembatasan kecepatan. Jika false, parameter mbps diabaikan.
"concurrent": 20, // Konkurensi pekerjaan.
"mbps": "12" // Laju transfer maksimum dalam megabyte per detik (MB/s).
}
},
"order": {
"hops": [
{
"from": "Reader",
"to": "Writer"
}
]
}
}Parameter skrip Reader
Parameter | Description | Required | Default |
datasource | Nama sumber data DLF. | Yes | None |
table | Nama tabel sumber. | Yes | None |
tableType | Tipe tabel. Nilai yang valid: | No | table |
column | Kolom yang akan dibaca dari tabel sumber. | Yes | None |
where | Kondisi filter. | No | None |
Contoh skrip Writer
{
"type": "job",
"version": "2.0",
"steps": [
{
"stepType": "stream",
"parameter": {
},
"name": "Reader",
"category": "reader"
},
{
"stepType": "dlf",
"parameter": {
"datasource": "guxuan_dlf",
"column": [
"id",
"col1",
"col2",
"col3"
],
"tableType": "table",
"table": "auto_ob_3088545_0523"
},
"name": "Writer",
"category": "writer"
}
],
"setting": {
"errorLimit": {
"record": "" // Jumlah catatan error yang diizinkan.
},
"speed": {
"throttle": true, // Mengaktifkan (true) atau menonaktifkan (false) pembatasan kecepatan. Jika false, parameter mbps diabaikan.
"concurrent": 20, // Konkurensi pekerjaan.
"mbps": "12" // Laju transfer maksimum dalam megabyte per detik (MB/s).
}
},
"order": {
"hops": [
{
"from": "Reader",
"to": "Writer"
}
]
}
}Parameter skrip Writer
Parameter | Description | Required | Default |
datasource | Nama sumber data DLF. | Yes | None |
table | Nama tabel tujuan. | Yes | None |
tableType | Tipe tabel. Nilai yang valid: | No | table |
column | Kolom yang akan ditulis ke tabel tujuan. | Yes | None |