Sinkronisasi offline tabel tunggal dari OSS ke MaxCompute - DataWorks

Topik ini menjelaskan cara memuat data offline dari satu tabel Object Storage Service (OSS) ke MaxCompute serta menyediakan praktik terbaik untuk konfigurasi sumber data, konektivitas jaringan, dan pengaturan tugas sinkronisasi.

Ikhtisar OSS

Alibaba Cloud Object Storage Service (OSS) adalah layanan penyimpanan cloud yang aman, hemat biaya, dan sangat andal, menawarkan kapasitas penyimpanan besar, ketahanan data 99,9999999999% (dua belas angka 9), dan ketersediaan data 99,995%. OSS menyediakan berbagai kelas penyimpanan untuk membantu Anda mengoptimalkan biaya. Data Integration memungkinkan sinkronisasi data dari OSS ke destinasi lain atau sebaliknya.

Dapatkan informasi bucket OSS

Buka Konsol OSS. Di Bucket list, temukan bucket yang akan digunakan untuk sinkronisasi data. Di halaman overview bucket tersebut, peroleh Titik akhir publik dan Titik akhir internal-nya. Pilih titik akhir yang sesuai berdasarkan skenario Anda.

Titik akhir publik digunakan untuk akses melalui internet. Saat mengakses OSS melalui internet, lalu lintas masuk (penulisan) gratis, sedangkan lalu lintas keluar (pembacaan) dikenai biaya. Untuk informasi lebih lanjut tentang biaya OSS, lihat Harga OSS dan Item Penagihan.
Jaringan internal adalah jaringan komunikasi privat antar produk Alibaba Cloud dalam Wilayah yang sama. Misalnya, Anda dapat menggunakan kelompok sumber daya Data Integration untuk mengakses OSS di Wilayah yang sama. Baik lalu lintas masuk maupun keluar melalui jaringan internal tidak dikenai biaya. Jika Anda membaca dari atau menulis ke bucket OSS yang berada di Wilayah yang sama dengan kelompok sumber daya Data Integration Anda, gunakan Titik akhir internal. Jika tidak, gunakan Titik akhir publik.
Untuk daftar Wilayah dan titik akhirnya, lihat Wilayah dan Titik Akhir.

Prasyarat

Anda telah membeli kelompok sumber daya Serverless.
Anda telah membuat sumber data OSS dan sumber data MaxCompute. Untuk informasi lebih lanjut, lihat Konfigurasi sumber data.
Anda telah menetapkan konektivitas jaringan antara kelompok sumber daya dan sumber data. Untuk informasi lebih lanjut, lihat Ikhtisar solusi konektivitas jaringan.

Batasan

Sinkronisasi data sumber ke tabel eksternal MaxCompute tidak didukung.

Prosedur

Catatan

Topik ini menggunakan antarmuka pengguna Data Studio (Baru) untuk menunjukkan cara mengonfigurasi tugas sinkronisasi offline.

Langkah 1: Buat node dan tugas

Untuk langkah-langkah umum pembuatan node dan penggunaan antarmuka UI tanpa kode, lihat Konfigurasi UI tanpa kode.

Langkah 2: Konfigurasi sumber dan destinasi

Konfigurasi sumber (OSS)

Dalam skenario ini, sumber data adalah file OSS. Item konfigurasi utama dijelaskan di bawah ini.

Parameter	Deskripsi
File Type	Pilih jenis file yang akan disinkronkan. Antarmuka UI tanpa kode mendukung pembacaan file dalam format `csv`, `text`, `orc`, dan `parquet`.
File Path	Masukkan path ke file sumber. Saat Anda menentukan satu objek OSS, OSS Reader menggunakan satu thread untuk ekstraksi data. Saat Anda menentukan beberapa objek OSS, OSS Reader menggunakan beberapa thread untuk ekstraksi data. Anda dapat mengonfigurasi konkurensi sesuai kebutuhan. Saat Anda menggunakan wildcard, OSS Reader mencoba menemukan beberapa objek. Misalnya, jika Anda mengatur path menjadi `abc*[0-9]`, maka akan cocok dengan objek seperti `abc0`, `abc1`, `abc2`, dan `abc3`. Jika Anda mengatur path menjadi `abc?.txt`, maka akan cocok dengan file yang diawali dengan `abc`, diakhiri dengan `.txt`, dan memiliki satu karakter di antaranya.
Field Delimiter	Tentukan pemisah kolom yang digunakan dalam file.
Encoding	Atur pengkodean karakter yang digunakan untuk membaca file sumber.
Null String	Jika Anda memilih Do not process, nilai yang dibaca dari sumber tetap tidak berubah. Jika Anda memilih Visible characters, masukkan string yang merepresentasikan nilai null. Jika Anda meninggalkan bidang ini kosong, nilai tersebut dianggap sebagai string kosong. Saat Anda memilih “Invisible Characters”, masukkan kode Unicode, seperti `\u001b` atau `\u007c`, atau karakter escape seperti `\t`. Nilainya tidak boleh kosong.
Compression Format	Format kompresi file sumber. Format yang didukung adalah `Gzip`, `Bzip2`, `Zip`, dan tidak terkompresi.
Skip Header	Untuk file bertipe CSV, Anda dapat memilih apakah akan melewatkan baris header. Secara default, header disertakan. Catatan Melewatkan header tidak didukung untuk file terkompresi.
Table Data Structure	Setelah Anda mengonfigurasi parameter sumber data, klik Confirm Data Structure untuk memverifikasi format data.

Konfigurasi destinasi (MaxCompute)

Dalam skenario ini, destinasi untuk sinkronisasi data offline dari OSS adalah tabel MaxCompute. Item konfigurasi utama dijelaskan di bawah ini.

Catatan

Anda dapat mempertahankan nilai default untuk parameter apa pun yang tidak disebutkan dalam tabel di bawah ini.

Parameter	Deskripsi
Tunnel Resource Group	Ini menentukan sumber daya transfer data MaxCompute (Tunnel Quota). Secara default, digunakan Public transmission resources, yang sesuai dengan kuota gratis untuk MaxCompute. Jika Tunnel Quota eksklusif Anda menjadi tidak tersedia karena pembayaran tertunda atau kedaluwarsa, tugas secara otomatis kembali menggunakan Public transmission resources.
Table	Pilih tabel MaxCompute untuk sinkronisasi data. Jika Anda menggunakan ruang kerja DataWorks standar, pastikan tabel MaxCompute dengan nama dan skema yang sama ada di lingkungan pengembangan maupun lingkungan produksi. Sebagai alternatif, klik Generate Destination Table Schema untuk membuat tabel destinasi secara otomatis. Anda kemudian dapat menyesuaikan pernyataan pembuatan tersebut secara manual. Catatan Pertimbangkan hal berikut: Jika tabel MaxCompute tujuan tidak ada di lingkungan pengembangan, tabel tersebut tidak akan muncul dalam daftar tabel destinasi. Jika tabel MaxCompute tujuan tidak ada di lingkungan produksi, tugas sinkronisasi yang dipublikasikan akan gagal karena tidak dapat menemukan tabel tujuan. Jika skema tabel di lingkungan pengembangan dan produksi tidak konsisten, pemetaan kolom yang digunakan saat waktu proses mungkin berbeda dari pemetaan yang Anda konfigurasi, sehingga menyebabkan penulisan data yang salah.
Partition Information	Jika destinasi adalah tabel partisi, Anda dapat menentukan nilai untuk kolom partisi. Anda dapat menggunakan nilai tetap, seperti `ds=20220101`. Anda dapat menggunakan parameter penjadwalan, seperti `ds=${bizdate}`. Sistem secara otomatis mengganti parameter ini dengan nilai aktual saat waktu proses.
Write Method	Pilih apakah akan menghapus data yang sudah ada di tabel tujuan atau menambahkan data baru.

Langkah 3: Konfigurasi pemetaan bidang

Setelah mengonfigurasi sumber dan destinasi, petakan kolom di antara keduanya. Anda dapat memilih untuk Map Fields with the Same Name, Map Fields in the Same Line, Delete All Mappings, atau Edit Field Mappings.

Langkah 4: Konfigurasi pengaturan lanjutan

Anda dapat mengonfigurasi pengaturan lanjutan untuk tugas, seperti Expected Maximum Concurrency dan Policy for Dirty Data Records. Untuk tutorial ini, atur Policy for Dirty Data Records menjadi Disallow Dirty Data Records dan gunakan nilai default untuk semua pengaturan lainnya. Untuk informasi lebih lanjut, lihat Konfigurasi UI tanpa kode.

Langkah 5: Konfigurasi dan jalankan tugas debug

Di pojok kanan atas editor, klik Run Configuration, atur Resource Group dan Script Parameters untuk eksekusi debug, lalu klik Run untuk menguji tugas.
Di panel navigasi sebelah kiri, klik , lalu klik ikon baru di samping Personal Directory untuk membuat file SQL baru. Jalankan pernyataan SQL berikut untuk mengkueri tabel destinasi dan memverifikasi bahwa data sesuai harapan Anda.
Catatan
- Untuk menjalankan kueri ini, Anda harus terlebih dahulu mengikat proyek MaxCompute destinasi sebagai mesin komputasi untuk DataWorks.
- Di editor file .sql, klik Run Configuration di sisi kanan. Tentukan Type sumber data, Computing Resources, dan Resource Group, lalu klik Run di bilah alat atas.
```
SELECT * FROM <your_maxcompute_table_name> WHERE pt=<your_partition> LIMIT 20;
```

Langkah 6: Konfigurasi penjadwalan dan publikasikan tugas

Di panel sebelah kanan, klik Scheduling Settings untuk mengatur parameter penjadwalan guna eksekusi berkala. Kemudian, klik Publish dan ikuti petunjuk untuk mempublikasikan tugas.