Alibaba Cloud Data Lake Formation (DLF) adalah platform terkelola penuh yang menyediakan metadata terpadu, penyimpanan data, dan manajemen data. DLF menawarkan fitur-fitur seperti manajemen metadata, manajemen penyimpanan, pengelolaan izin, analisis penyimpanan, dan optimasi penyimpanan. Anda dapat menggunakan Data Integration di DataWorks untuk menulis data ke sumber data DLF. Topik ini menjelaskan cara menggunakan sumber data DLF.
Batasan
Anda hanya dapat menggunakan sumber data Data Lake Formation dalam Data Integration dan hanya dengan kelompok sumber daya arsitektur tanpa server.
Buat sumber data
Buka halaman Sumber Data.
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih Wilayah yang diinginkan. Di panel navigasi sebelah kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down, lalu klik Go to Management Center.
Di panel navigasi sebelah kiri halaman SettingCenter, klik Data Sources.
Klik Add Data Source. Cari dan pilih Data Lake Formation. Konfigurasikan parameter sesuai tabel berikut:
Parameter
Deskripsi
Data Source Name
Masukkan nama kustom untuk sumber data. Nama harus unik dalam ruang kerja tersebut. Nama hanya boleh mengandung huruf, angka, dan garis bawah (_). Nama tidak boleh diawali dengan angka atau garis bawah.
Configuration Mode
Hanya Alibaba Cloud Instance Mode yang didukung.
Endpoint
Pilih Endpoint dari instans Mesin DPI DLF dari daftar drop-down.
Access Identity
Anda dapat memilih salah satu opsi berikut:
Alibaba Cloud Account
RAM User
RAM Role
Pilih opsi sesuai kebutuhan.
CatatanJika Anda memilih RAM user atau RAM role, berikan izin berikut kepada Pengguna RAM atau Peran RAM tersebut.
Berikan kebijakan akses RAM kepada peran atau Pengguna RAM yang mencakup semua Tindakan yang diperlukan untuk REST API.
Di Konsol Data Lake Formation, berikan izin Data Editor kepada peran atau Pengguna RAM untuk tabel data yang akan disinkronkan.
DLF Data Catalog
Pilih Katalog data DLF yang berada di Wilayah yang sama dengan ruang kerja DataWorks Anda.
Database Name
Pilih database dalam katalog data.
Setelah mengonfigurasi parameter, uji konektivitas antara sumber data dan kelompok sumber daya arsitektur tanpa server di bagian konfigurasi koneksi. Jika pengujian konektivitas berhasil, klik Finish Editing untuk membuat sumber data. Jika pengujian konektivitas gagal, lihat Konfigurasi konektivitas jaringan untuk memecahkan masalah tersebut.
Buat tugas integrasi data
Anda dapat menggunakan sumber data Data Lake Formation dalam tugas integrasi data DataWorks. Untuk informasi selengkapnya, lihat Sinkronkan data ke Data Lake Formation.
Lampiran: Contoh skrip dan deskripsi parameter
Konfigurasi skrip tugas offline
Jika Anda menggunakan editor kode untuk mengonfigurasi tugas offline, tambahkan parameter ke skrip tugas dalam format standar. Untuk informasi selengkapnya, lihat Konfigurasi tugas di editor kode. Bagian berikut menjelaskan parameter sumber data untuk editor kode.
Contoh skrip Reader
{
"type": "job",
"version": "2.0",
"steps": [
{
"stepType": "dlf",
"parameter": {
"datasource": "guxuan_dlf",
"table": "auto_ob_3088545_0523",
"column": [
"id",
"col1",
"col2",
"col3"
],
"where": "id > 1"
},
"name": "Reader",
"category": "reader"
},
{
"stepType": "stream",
"parameter": {
"print": false
},
"name": "Writer",
"category": "writer"
}
],
"setting": {
"errorLimit": {
"record": "" // The number of error records.
},
"speed": {
"throttle": true, // If set to false, the mbps parameter does not take effect, which means the rate is not limited. If set to true, the rate is limited.
"concurrent": 20, // The job concurrency.
"mbps": "12" // The rate limit. 1 mbps = 1 MB/s.
}
},
"order": {
"hops": [
{
"from": "Reader",
"to": "Writer"
}
]
}
}Parameter skrip Reader
Parameter | Deskripsi | Wajib |
datasource | Sumber data DLF. | Ya |
table | Nama tabel. | Ya |
column | Nama kolom. | Ya |
where | Kondisi filter. | Tidak |
Contoh skrip Writer
{
"type": "job",
"version": "2.0",
"steps": [
{
"stepType": "stream",
"parameter": {
},
"name": "Reader",
"category": "reader"
},
{
"stepType": "dlf",
"parameter": {
"datasource": "guxuan_dlf",
"column": [
"id",
"col1",
"col2",
"col3"
],
"table": "auto_ob_3088545_0523"
},
"name": "Writer",
"category": "writer"
}
],
"setting": {
"errorLimit": {
"record": "" // The number of error records.
},
"speed": {
"throttle": true, // If set to false, the mbps parameter does not take effect, which means the rate is not limited. If set to true, the rate is limited.
"concurrent": 20, // The job concurrency.
"mbps": "12" // The rate limit. 1 mbps = 1 MB/s.
}
},
"order": {
"hops": [
{
"from": "Reader",
"to": "Writer"
}
]
}
}Parameter skrip Writer
Parameter | Deskripsi | Wajib | Nilai Default |
datasource | Sumber data DLF. | Ya | Tidak ada |
table | Nama tabel. | Ya | Tidak ada |
column | Nama kolom. | Ya | Tidak ada |