全部产品
Search
文档中心

DataWorks:Sinkronisasi offline tabel tunggal dari OSS ke MaxCompute

更新时间:Nov 28, 2025

Topik ini menggunakan contoh sinkronisasi offline satu tabel OSS ke tabel MaxCompute dan menjelaskan praktik terbaik untuk konfigurasi sumber data, konektivitas jaringan, serta konfigurasi tugas sinkronisasi.

Informasi latar belakang

Alibaba Cloud Object Storage Service (OSS) adalah layanan penyimpanan cloud yang menyediakan kapasitas penyimpanan besar, keamanan tinggi, biaya rendah, dan keandalan tinggi. Layanan ini menjamin ketahanan data sebesar 99,9999999999% (dua belas angka 9) dan ketersediaan data sebesar 99,995%. OSS menyediakan berbagai kelas penyimpanan untuk membantu Anda mengoptimalkan biaya penyimpanan. Data Integration memungkinkan Anda melakukan sinkronisasi data dari OSS ke destinasi lain maupun dari sumber lain ke OSS. Topik ini menggunakan contoh sinkronisasi offline dari OSS ke MaxCompute untuk menjelaskan seluruh prosesnya.

Dapatkan informasi bucket OSS

Buka Konsol OSS. Di daftar Bucket, temukan bucket OSS yang ingin Anda gunakan untuk sinkronisasi data. Pada halaman informasi bucket, peroleh Access Over Internet dan dari bagian Ikhtisar. Anda dapat memilih titik akhir yang berbeda sesuai skenario penggunaan.

  • Titik akhir publik menyediakan akses melalui Internet. Lalu lintas arah masuk (penulisan) ke OSS melalui titik akhir publik gratis, tetapi lalu lintas keluar (pembacaan) dikenai biaya. Untuk informasi lebih lanjut mengenai biaya OSS, lihat Item Penagihan.

  • Titik akhir internal menyediakan akses melalui jaringan internal Alibaba Cloud antar produk dalam wilayah yang sama. Misalnya, Anda dapat menggunakan kelompok sumber daya Data Integration untuk mengakses layanan OSS di wilayah yang sama. Baik lalu lintas arah masuk maupun keluar melalui jaringan internal tidak dikenai biaya. Jika Anda membaca data dari atau menulis data ke bucket OSS yang berada di wilayah yang sama dengan kelompok sumber daya Data Integration, konfigurasikan titik akhir internal. Jika tidak, konfigurasikan titik akhir publik.

  • Untuk informasi mengenai pemetaan wilayah dan titik akhir, lihat Wilayah dan Titik Akhir.

Prasyarat

Batasan

Sinkronisasi data sumber ke tabel eksternal MaxCompute tidak didukung.

Prosedur

Catatan

Topik ini menggunakan antarmuka Data Studio (Baru) sebagai contoh untuk menunjukkan cara mengonfigurasi tugas sinkronisasi offline.

1. Buat node dan konfigurasikan tugas

Untuk langkah-langkah umum membuat node dan menggunakan Antarmuka tanpa kode, lihat panduan Konfigurasi Antarmuka tanpa kode.

2. Konfigurasikan sumber data dan destinasi

Konfigurasikan sumber data (OSS)

Pada contoh ini, sumber data berupa file OSS. Tabel berikut menjelaskan item konfigurasi utama.

Item konfigurasi

Rincian konfigurasi

Text Type

Pilih jenis file yang ingin Anda sinkronkan. Antarmuka tanpa kode mendukung pembacaan file dalam format csv, text, orc, dan parquet.

File Path

Masukkan path file yang ingin Anda sinkronkan.

  • Jika Anda menentukan satu objek OSS, OSS Reader hanya dapat menggunakan satu thread untuk mengekstraksi data.

  • Jika Anda menentukan beberapa objek OSS, OSS Reader dapat menggunakan beberapa thread untuk mengekstraksi data. Anda dapat mengonfigurasi jumlah thread konkuren sesuai kebutuhan.

  • Jika Anda menggunakan karakter wildcard, OSS Reader akan mencoba menelusuri informasi beberapa objek. Misalnya, jika Anda mengatur path menjadi abc*[0-9], maka akan cocok dengan abc0, abc1, abc2, abc3, dan seterusnya. Jika Anda mengatur path menjadi abc?.txt, maka akan cocok dengan file yang diawali dengan abc, diakhiri dengan .txt, dan memiliki satu karakter arbitrer di tengahnya.

Column Delimiter

Menentukan pemisah kolom dalam file konfigurasi.

Encoding

Atur format encoding yang digunakan untuk membaca file sumber.

Null Value

  • Jika Anda memilih "Do not process", nilai yang dibaca dari sumber tetap tidak berubah.

  • Jika Anda memilih "Visible characters", masukkan string yang merepresentasikan nilai null. Jika dibiarkan kosong, berarti merepresentasikan string kosong.

  • Jika Anda memilih "Invisible characters", masukkan kode Unicode, seperti \u001b atau \u007c, atau karakter escape, seperti \t. Kolom ini tidak boleh dibiarkan kosong.

Compression Format

Format kompresi file sumber. Format yang didukung adalah Gzip, Bzip2, Zip, dan tanpa kompresi.

Skip Header

File bertipe CSV mungkin memiliki baris header yang berfungsi sebagai judul. Anda dapat memilih apakah akan melewatinya atau tidak. Secara default, header tidak dilewati.

Catatan

Melewatkan header tidak didukung untuk file terkompresi.

Table Data Structure

Setelah Anda mengonfigurasi parameter untuk sumber data, klik Confirm Table Schema untuk memeriksa apakah format data sesuai harapan Anda.

Konfigurasikan destinasi data (MaxCompute)

Pada contoh ini, destinasi data berupa tabel MaxCompute. Tabel berikut menjelaskan item konfigurasi utama.

Catatan

Anda dapat menggunakan nilai default untuk parameter yang tidak dijelaskan dalam tabel berikut.

Item konfigurasi

Rincian konfigurasi

Tunnel Resource Group

Sumber daya MaxCompute Data Transmission Service, yaitu Tunnel Quota. Pilihan default adalah "Public transmission resources", yaitu kuota gratis untuk MaxCompute. Jika kuota Tunnel eksklusif Anda tidak tersedia karena Pembayaran tertunda atau masa berlaku habis, tugas yang sedang berjalan akan secara otomatis beralih ke "Public transmission resources".

Table

Pilih tabel MaxCompute tempat Anda ingin menyinkronkan data. Jika Anda menggunakan ruang kerja DataWorks standar, pastikan tabel MaxCompute dengan nama dan skema yang sama tersedia di lingkungan pengembangan maupun lingkungan produksi MaxCompute.

Anda juga dapat mengklik Generate Destination Table Schema. Sistem akan secara otomatis membuat tabel untuk menerima data tersebut. Anda dapat menyesuaikan pernyataan pembuatan tabel secara manual.

Catatan

Jika:

  • Tabel MaxCompute tidak ada di lingkungan pengembangan, Anda tidak akan menemukannya dalam daftar drop-down tabel destinasi saat mengonfigurasi node sinkronisasi offline.

  • Tabel MaxCompute tidak ada di lingkungan produksi, tugas sinkronisasi akan gagal setelah dikirim dan dipublikasikan karena sistem tidak dapat menemukan tabel destinasi saat waktu proses.

  • Skema tabel di lingkungan pengembangan dan produksi tidak konsisten, pemetaan kolom aktual saat waktu proses mungkin berbeda dari pemetaan yang dikonfigurasi pada node sinkronisasi offline. Hal ini dapat menyebabkan penulisan data yang salah.

Partition

Jika tabel merupakan tabel partisi, Anda dapat memasukkan nilai untuk kolom kunci partisi.

  • Nilainya dapat berupa nilai statis, seperti ds=20220101.

  • Nilainya dapat berupa parameter sistem penjadwalan, seperti ds=${bizdate}. Parameter sistem akan secara otomatis diganti dengan nilainya saat tugas dijalankan.

Write Mode

Saat menulis ke tabel destinasi, Anda dapat memilih untuk menghapus data yang sudah ada atau mempertahankannya.

3. Konfigurasikan pemetaan bidang

Setelah Anda memilih sumber data dan destinasi, Anda harus mengonfigurasi pemetaan bidang antara sumber dan destinasi. Anda dapat mengklik Map Fields with Same Name, Map Fields in Same Line, Clear Mappings, atau Manually Edit Mapping.

4. Konfigurasikan kontrol saluran

Tugas sinkronisasi offline mendukung pengaturan seperti Maximum Expected Concurrency dan Policy for Dirty Data Records. Pada contoh ini, Policy for Dirty Data Records diatur ke Do not tolerate dirty data, sedangkan pengaturan lain menggunakan nilai default. Untuk informasi lebih lanjut, lihat Konfigurasi Antarmuka tanpa kode.

5. Konfigurasikan dan jalankan tugas debug

  1. Klik Debugging Configurations di sisi kanan halaman edit node sinkronisasi offline. Atur Resource Group dan Script Parameters untuk eksekusi debug. Kemudian, klik Run di bilah alat atas untuk menguji apakah saluran sinkronisasi berjalan sukses.

  2. Di panel navigasi sebelah kiri, klik ikon image. Lalu, klik ikon image di sebelah kanan Personal Directory dan buat file dengan ekstensi .sql. Jalankan kueri SQL berikut untuk memeriksa apakah data di tabel destinasi sesuai harapan.

    Catatan
    SELECT * FROM <destination_table_name_in_MaxCompute> WHERE pt=<specified_partition> LIMIT 20;

6. Konfigurasikan penjadwalan dan publikasikan tugas

Klik Scheduling di sisi kanan tugas sinkronisasi offline. Konfigurasikan parameter penjadwalan untuk eksekusi berkala. Kemudian, klik Publish di bilah alat atas untuk membuka panel penerbitan. Ikuti petunjuk di layar untuk menerbitkan tugas tersebut.