Topik ini menggunakan contoh sinkronisasi offline satu tabel OSS ke tabel MaxCompute dan menjelaskan praktik terbaik untuk konfigurasi sumber data, konektivitas jaringan, serta konfigurasi tugas sinkronisasi.
Informasi latar belakang
Alibaba Cloud Object Storage Service (OSS) adalah layanan penyimpanan cloud yang menyediakan kapasitas penyimpanan besar, keamanan tinggi, biaya rendah, dan keandalan tinggi. Layanan ini menjamin ketahanan data sebesar 99,9999999999% (dua belas angka 9) dan ketersediaan data sebesar 99,995%. OSS menyediakan berbagai kelas penyimpanan untuk membantu Anda mengoptimalkan biaya penyimpanan. Data Integration memungkinkan Anda melakukan sinkronisasi data dari OSS ke destinasi lain maupun dari sumber lain ke OSS. Topik ini menggunakan contoh sinkronisasi offline dari OSS ke MaxCompute untuk menjelaskan seluruh prosesnya.
Dapatkan informasi bucket OSS
Buka Konsol OSS. Di daftar Bucket, temukan bucket OSS yang ingin Anda gunakan untuk sinkronisasi data. Pada halaman informasi bucket, peroleh Access Over Internet dan dari bagian Ikhtisar. Anda dapat memilih titik akhir yang berbeda sesuai skenario penggunaan.
Titik akhir publik menyediakan akses melalui Internet. Lalu lintas arah masuk (penulisan) ke OSS melalui titik akhir publik gratis, tetapi lalu lintas keluar (pembacaan) dikenai biaya. Untuk informasi lebih lanjut mengenai biaya OSS, lihat Item Penagihan.
Titik akhir internal menyediakan akses melalui jaringan internal Alibaba Cloud antar produk dalam wilayah yang sama. Misalnya, Anda dapat menggunakan kelompok sumber daya Data Integration untuk mengakses layanan OSS di wilayah yang sama. Baik lalu lintas arah masuk maupun keluar melalui jaringan internal tidak dikenai biaya. Jika Anda membaca data dari atau menulis data ke bucket OSS yang berada di wilayah yang sama dengan kelompok sumber daya Data Integration, konfigurasikan titik akhir internal. Jika tidak, konfigurasikan titik akhir publik.
Untuk informasi mengenai pemetaan wilayah dan titik akhir, lihat Wilayah dan Titik Akhir.
Prasyarat
Anda telah membeli kelompok sumber daya Serverless.
Anda telah membuat sumber data OSS dan sumber data MaxCompute. Untuk informasi lebih lanjut, lihat Konfigurasi Sumber Data.
Anda telah menetapkan koneksi jaringan antara kelompok sumber daya dan sumber data. Untuk informasi lebih lanjut, lihat Ikhtisar solusi koneksi jaringan.
Batasan
Sinkronisasi data sumber ke tabel eksternal MaxCompute tidak didukung.
Prosedur
Topik ini menggunakan antarmuka Data Studio (Baru) sebagai contoh untuk menunjukkan cara mengonfigurasi tugas sinkronisasi offline.
1. Buat node dan konfigurasikan tugas
Untuk langkah-langkah umum membuat node dan menggunakan Antarmuka tanpa kode, lihat panduan Konfigurasi Antarmuka tanpa kode.
2. Konfigurasikan sumber data dan destinasi
Konfigurasikan sumber data (OSS)
Pada contoh ini, sumber data berupa file OSS. Tabel berikut menjelaskan item konfigurasi utama.
Item konfigurasi | Rincian konfigurasi |
Text Type | Pilih jenis file yang ingin Anda sinkronkan. Antarmuka tanpa kode mendukung pembacaan file dalam format |
File Path | Masukkan path file yang ingin Anda sinkronkan.
|
Column Delimiter | Menentukan pemisah kolom dalam file konfigurasi. |
Encoding | Atur format encoding yang digunakan untuk membaca file sumber. |
Null Value |
|
Compression Format | Format kompresi file sumber. Format yang didukung adalah |
Skip Header | File bertipe CSV mungkin memiliki baris header yang berfungsi sebagai judul. Anda dapat memilih apakah akan melewatinya atau tidak. Secara default, header tidak dilewati. Catatan Melewatkan header tidak didukung untuk file terkompresi. |
Table Data Structure | Setelah Anda mengonfigurasi parameter untuk sumber data, klik Confirm Table Schema untuk memeriksa apakah format data sesuai harapan Anda. |
Konfigurasikan destinasi data (MaxCompute)
Pada contoh ini, destinasi data berupa tabel MaxCompute. Tabel berikut menjelaskan item konfigurasi utama.
Anda dapat menggunakan nilai default untuk parameter yang tidak dijelaskan dalam tabel berikut.
Item konfigurasi | Rincian konfigurasi |
Tunnel Resource Group | Sumber daya MaxCompute Data Transmission Service, yaitu Tunnel Quota. Pilihan default adalah "Public transmission resources", yaitu kuota gratis untuk MaxCompute. Jika kuota Tunnel eksklusif Anda tidak tersedia karena Pembayaran tertunda atau masa berlaku habis, tugas yang sedang berjalan akan secara otomatis beralih ke "Public transmission resources". |
Table | Pilih tabel MaxCompute tempat Anda ingin menyinkronkan data. Jika Anda menggunakan ruang kerja DataWorks standar, pastikan tabel MaxCompute dengan nama dan skema yang sama tersedia di lingkungan pengembangan maupun lingkungan produksi MaxCompute. Anda juga dapat mengklik Generate Destination Table Schema. Sistem akan secara otomatis membuat tabel untuk menerima data tersebut. Anda dapat menyesuaikan pernyataan pembuatan tabel secara manual. Catatan Jika:
|
Partition | Jika tabel merupakan tabel partisi, Anda dapat memasukkan nilai untuk kolom kunci partisi.
|
Write Mode | Saat menulis ke tabel destinasi, Anda dapat memilih untuk menghapus data yang sudah ada atau mempertahankannya. |
3. Konfigurasikan pemetaan bidang
Setelah Anda memilih sumber data dan destinasi, Anda harus mengonfigurasi pemetaan bidang antara sumber dan destinasi. Anda dapat mengklik Map Fields with Same Name, Map Fields in Same Line, Clear Mappings, atau Manually Edit Mapping.
4. Konfigurasikan kontrol saluran
Tugas sinkronisasi offline mendukung pengaturan seperti Maximum Expected Concurrency dan Policy for Dirty Data Records. Pada contoh ini, Policy for Dirty Data Records diatur ke Do not tolerate dirty data, sedangkan pengaturan lain menggunakan nilai default. Untuk informasi lebih lanjut, lihat Konfigurasi Antarmuka tanpa kode.
5. Konfigurasikan dan jalankan tugas debug
Klik Debugging Configurations di sisi kanan halaman edit node sinkronisasi offline. Atur Resource Group dan Script Parameters untuk eksekusi debug. Kemudian, klik Run di bilah alat atas untuk menguji apakah saluran sinkronisasi berjalan sukses.
Di panel navigasi sebelah kiri, klik ikon
. Lalu, klik ikon
di sebelah kanan Personal Directory dan buat file dengan ekstensi .sql. Jalankan kueri SQL berikut untuk memeriksa apakah data di tabel destinasi sesuai harapan.CatatanMetode kueri ini mengharuskan Anda untuk menghubungkan proyek MaxCompute destinasi sebagai sumber daya komputasi untuk DataWorks.
Pada halaman edit file
.sql, klik Debugging Configurations di sisi kanan. Tentukan Type, Computing Resource, dan Resource Group. Kemudian, klik Run di bilah alat atas.
SELECT * FROM <destination_table_name_in_MaxCompute> WHERE pt=<specified_partition> LIMIT 20;
6. Konfigurasikan penjadwalan dan publikasikan tugas
Klik Scheduling di sisi kanan tugas sinkronisasi offline. Konfigurasikan parameter penjadwalan untuk eksekusi berkala. Kemudian, klik Publish di bilah alat atas untuk membuka panel penerbitan. Ikuti petunjuk di layar untuk menerbitkan tugas tersebut.