Alibaba Cloud Data Lake Formation (DLF) adalah platform terkelola penuh yang menyediakan metadata terpadu, penyimpanan data, dan manajemen data. DLF menawarkan fitur-fitur seperti manajemen metadata, manajemen penyimpanan, pengelolaan izin, analisis penyimpanan, dan optimasi penyimpanan. Anda dapat menggunakan Data Integration dari DataWorks untuk menulis data ke sumber data DLF. Topik ini menjelaskan cara menggunakan sumber data DLF.
Batasan
Anda hanya dapat menggunakan sumber data Data Lake Formation dalam Data Integration dan hanya dengan kelompok sumber daya arsitektur tanpa server.
Buat sumber data
Buka halaman Data Sources.
Masuk ke Konsol DataWorks. Pada bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi sebelah kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down, lalu klik Go to Management Center.
Pada panel navigasi sebelah kiri halaman SettingCenter, klik Data Sources.
Klik Add Data Source. Cari dan pilih Data Lake Formation. Konfigurasikan parameter sesuai dengan tabel berikut:
Parameter
Deskripsi
Data Source Name
Masukkan nama kustom untuk sumber data. Nama tersebut harus unik dalam ruang kerja dan hanya boleh terdiri dari huruf, angka, dan garis bawah (_). Nama tidak boleh dimulai dengan angka atau garis bawah.
Configuration Mode
Hanya Alibaba Cloud Instance Mode yang didukung.
Endpoint
Pilih endpoint instans mesin DLF dari daftar drop-down.
Access Identity
Anda dapat memilih salah satu opsi berikut:
Alibaba Cloud Account
Alibaba Cloud RAM User
Alibaba Cloud RAM Role
Pilih opsi sesuai kebutuhan.
CatatanJika Anda memilih RAM User atau RAM Role, berikan izin berikut kepada pengguna RAM atau peran RAM tersebut.
Anda perlu menyambungkan kebijakan sistem AliyunDataWorksDIAccessDLF ke pengguna RAM atau peran RAM di Konsol RAM untuk memberikan izin RAM agar DLF dapat mengakses metadata. Untuk detailnya, lihat Berikan izin kepada pengguna RAM.
Di Konsol Data Lake Formation, berikan izin Data Editor kepada peran atau pengguna RAM untuk tabel data yang akan disinkronkan.
DLF Data Catalog
Pilih DLF data catalog yang berada di wilayah yang sama dengan ruang kerja DataWorks Anda.
Database Name
Pilih database dalam katalog data tersebut.
Setelah mengonfigurasi parameter, uji konektivitas antara sumber data dan kelompok sumber daya arsitektur tanpa server di bagian konfigurasi koneksi. Jika pengujian konektivitas berhasil, klik Complete Creation untuk membuat sumber data. Jika pengujian konektivitas gagal, lihat Konfigurasi konektivitas jaringan untuk memecahkan masalah tersebut.
Buat tugas integrasi data
Anda dapat menggunakan sumber data Data Lake Formation dalam tugas integrasi data DataWorks. Untuk informasi selengkapnya, lihat Sinkronkan data ke Data Lake Formation.
Lampiran: Contoh skrip dan deskripsi parameter
Konfigurasikan skrip tugas offline
Jika Anda menggunakan editor kode untuk mengonfigurasi tugas offline, Anda harus menambahkan parameter ke skrip tugas dalam format standar. Untuk informasi selengkapnya, lihat Konfigurasikan tugas di editor kode. Bagian berikut menjelaskan parameter sumber data untuk editor kode.
Contoh skrip Reader
{
"type": "job",
"version": "2.0",
"steps": [
{
"stepType": "dlf",
"parameter": {
"datasource": "guxuan_dlf",
"table": "auto_ob_3088545_0523",
"column": [
"id",
"col1",
"col2",
"col3"
],
"where": "id > 1"
},
"name": "Reader",
"category": "reader"
},
{
"stepType": "stream",
"parameter": {
"print": false
},
"name": "Writer",
"category": "writer"
}
],
"setting": {
"errorLimit": {
"record": "" // Jumlah catatan error.
},
"speed": {
"throttle": true, // Jika diatur ke false, parameter mbps tidak berlaku, artinya laju tidak dibatasi. Jika diatur ke true, laju dibatasi.
"concurrent": 20, // Konkurensi pekerjaan.
"mbps": "12" // Batas laju. 1 mbps = 1 MB/s.
}
},
"order": {
"hops": [
{
"from": "Reader",
"to": "Writer"
}
]
}
}Parameter skrip Reader
Parameter | Deskripsi | Wajib |
datasource | Sumber data DLF. | Ya |
table | Nama tabel. | Ya |
column | Nama kolom. | Ya |
where | Kondisi filter. | Tidak |
Contoh skrip Writer
{
"type": "job",
"version": "2.0",
"steps": [
{
"stepType": "stream",
"parameter": {
},
"name": "Reader",
"category": "reader"
},
{
"stepType": "dlf",
"parameter": {
"datasource": "guxuan_dlf",
"column": [
"id",
"col1",
"col2",
"col3"
],
"table": "auto_ob_3088545_0523"
},
"name": "Writer",
"category": "writer"
}
],
"setting": {
"errorLimit": {
"record": "" // Jumlah catatan error.
},
"speed": {
"throttle": true, // Jika diatur ke false, parameter mbps tidak berlaku, artinya laju tidak dibatasi. Jika diatur ke true, laju dibatasi.
"concurrent": 20, // Konkurensi pekerjaan.
"mbps": "12" // Batas laju. 1 mbps = 1 MB/s.
}
},
"order": {
"hops": [
{
"from": "Reader",
"to": "Writer"
}
]
}
}Parameter skrip Writer
Parameter | Deskripsi | Wajib | Nilai Default |
datasource | Sumber data DLF. | Ya | Tidak ada |
table | Nama tabel. | Ya | Tidak ada |
column | Nama kolom. | Ya | Tidak ada |