全部产品
Search
文档中心

DataWorks:Sinkronisasi offline tabel tunggal dari OSS ke MaxCompute

更新时间:Mar 01, 2026

Topik ini menjelaskan cara memuat data offline dari satu tabel Object Storage Service (OSS) ke MaxCompute serta menyediakan praktik terbaik untuk konfigurasi sumber data, konektivitas jaringan, dan pengaturan tugas sinkronisasi.

Ikhtisar OSS

Alibaba Cloud Object Storage Service (OSS) adalah layanan penyimpanan cloud yang aman, hemat biaya, dan sangat andal, menawarkan kapasitas penyimpanan besar, ketahanan data 99,9999999999% (dua belas angka 9), dan ketersediaan data 99,995%. OSS menyediakan berbagai kelas penyimpanan untuk membantu Anda mengoptimalkan biaya. Data Integration memungkinkan sinkronisasi data dari OSS ke destinasi lain atau sebaliknya.

Dapatkan informasi bucket OSS

Buka Konsol OSS. Di Bucket list, temukan bucket yang akan digunakan untuk sinkronisasi data. Di halaman overview bucket tersebut, peroleh Titik akhir publik dan Titik akhir internal-nya. Pilih titik akhir yang sesuai berdasarkan skenario Anda.

  • Titik akhir publik digunakan untuk akses melalui internet. Saat mengakses OSS melalui internet, lalu lintas masuk (penulisan) gratis, sedangkan lalu lintas keluar (pembacaan) dikenai biaya. Untuk informasi lebih lanjut tentang biaya OSS, lihat Harga OSS dan Item Penagihan.

  • Jaringan internal adalah jaringan komunikasi privat antar produk Alibaba Cloud dalam Wilayah yang sama. Misalnya, Anda dapat menggunakan kelompok sumber daya Data Integration untuk mengakses OSS di Wilayah yang sama. Baik lalu lintas masuk maupun keluar melalui jaringan internal tidak dikenai biaya. Jika Anda membaca dari atau menulis ke bucket OSS yang berada di Wilayah yang sama dengan kelompok sumber daya Data Integration Anda, gunakan Titik akhir internal. Jika tidak, gunakan Titik akhir publik.

  • Untuk daftar Wilayah dan titik akhirnya, lihat Wilayah dan Titik Akhir.

Prasyarat

Batasan

Sinkronisasi data sumber ke tabel eksternal MaxCompute tidak didukung.

Prosedur

Catatan

Topik ini menggunakan antarmuka pengguna Data Studio (Baru) untuk menunjukkan cara mengonfigurasi tugas sinkronisasi offline.

Langkah 1: Buat node dan tugas

Untuk langkah-langkah umum pembuatan node dan penggunaan antarmuka UI tanpa kode, lihat Konfigurasi UI tanpa kode.

Langkah 2: Konfigurasi sumber dan destinasi

Konfigurasi sumber (OSS)

Dalam skenario ini, sumber data adalah file OSS. Item konfigurasi utama dijelaskan di bawah ini.

Parameter

Deskripsi

File Type

Pilih jenis file yang akan disinkronkan. Antarmuka UI tanpa kode mendukung pembacaan file dalam format csv, text, orc, dan parquet.

File Path

Masukkan path ke file sumber.

  • Saat Anda menentukan satu objek OSS, OSS Reader menggunakan satu thread untuk ekstraksi data.

  • Saat Anda menentukan beberapa objek OSS, OSS Reader menggunakan beberapa thread untuk ekstraksi data. Anda dapat mengonfigurasi konkurensi sesuai kebutuhan.

  • Saat Anda menggunakan wildcard, OSS Reader mencoba menemukan beberapa objek. Misalnya, jika Anda mengatur path menjadi abc*[0-9], maka akan cocok dengan objek seperti abc0, abc1, abc2, dan abc3. Jika Anda mengatur path menjadi abc?.txt, maka akan cocok dengan file yang diawali dengan abc, diakhiri dengan .txt, dan memiliki satu karakter di antaranya.

Field Delimiter

Tentukan pemisah kolom yang digunakan dalam file.

Encoding

Atur pengkodean karakter yang digunakan untuk membaca file sumber.

Null String

  • Jika Anda memilih Do not process, nilai yang dibaca dari sumber tetap tidak berubah.

  • Jika Anda memilih Visible characters, masukkan string yang merepresentasikan nilai null. Jika Anda meninggalkan bidang ini kosong, nilai tersebut dianggap sebagai string kosong.

  • Saat Anda memilih “Invisible Characters”, masukkan kode Unicode, seperti \u001b atau \u007c, atau karakter escape seperti \t. Nilainya tidak boleh kosong.

Compression Format

Format kompresi file sumber. Format yang didukung adalah Gzip, Bzip2, Zip, dan tidak terkompresi.

Skip Header

Untuk file bertipe CSV, Anda dapat memilih apakah akan melewatkan baris header. Secara default, header disertakan.

Catatan

Melewatkan header tidak didukung untuk file terkompresi.

Table Data Structure

Setelah Anda mengonfigurasi parameter sumber data, klik Confirm Data Structure untuk memverifikasi format data.

Konfigurasi destinasi (MaxCompute)

Dalam skenario ini, destinasi untuk sinkronisasi data offline dari OSS adalah tabel MaxCompute. Item konfigurasi utama dijelaskan di bawah ini.

Catatan

Anda dapat mempertahankan nilai default untuk parameter apa pun yang tidak disebutkan dalam tabel di bawah ini.

Parameter

Deskripsi

Tunnel Resource Group

Ini menentukan sumber daya transfer data MaxCompute (Tunnel Quota). Secara default, digunakan Public transmission resources, yang sesuai dengan kuota gratis untuk MaxCompute. Jika Tunnel Quota eksklusif Anda menjadi tidak tersedia karena pembayaran tertunda atau kedaluwarsa, tugas secara otomatis kembali menggunakan Public transmission resources.

Table

Pilih tabel MaxCompute untuk sinkronisasi data. Jika Anda menggunakan ruang kerja DataWorks standar, pastikan tabel MaxCompute dengan nama dan skema yang sama ada di lingkungan pengembangan maupun lingkungan produksi.

Sebagai alternatif, klik Generate Destination Table Schema untuk membuat tabel destinasi secara otomatis. Anda kemudian dapat menyesuaikan pernyataan pembuatan tersebut secara manual.

Catatan

Pertimbangkan hal berikut:

  • Jika tabel MaxCompute tujuan tidak ada di lingkungan pengembangan, tabel tersebut tidak akan muncul dalam daftar tabel destinasi.

  • Jika tabel MaxCompute tujuan tidak ada di lingkungan produksi, tugas sinkronisasi yang dipublikasikan akan gagal karena tidak dapat menemukan tabel tujuan.

  • Jika skema tabel di lingkungan pengembangan dan produksi tidak konsisten, pemetaan kolom yang digunakan saat waktu proses mungkin berbeda dari pemetaan yang Anda konfigurasi, sehingga menyebabkan penulisan data yang salah.

Partition Information

Jika destinasi adalah tabel partisi, Anda dapat menentukan nilai untuk kolom partisi.

  • Anda dapat menggunakan nilai tetap, seperti ds=20220101.

  • Anda dapat menggunakan parameter penjadwalan, seperti ds=${bizdate}. Sistem secara otomatis mengganti parameter ini dengan nilai aktual saat waktu proses.

Write Method

Pilih apakah akan menghapus data yang sudah ada di tabel tujuan atau menambahkan data baru.

Langkah 3: Konfigurasi pemetaan bidang

Setelah mengonfigurasi sumber dan destinasi, petakan kolom di antara keduanya. Anda dapat memilih untuk Map Fields with the Same Name, Map Fields in the Same Line, Delete All Mappings, atau Edit Field Mappings.

Langkah 4: Konfigurasi pengaturan lanjutan

Anda dapat mengonfigurasi pengaturan lanjutan untuk tugas, seperti Expected Maximum Concurrency dan Policy for Dirty Data Records. Untuk tutorial ini, atur Policy for Dirty Data Records menjadi Disallow Dirty Data Records dan gunakan nilai default untuk semua pengaturan lainnya. Untuk informasi lebih lanjut, lihat Konfigurasi UI tanpa kode.

Langkah 5: Konfigurasi dan jalankan tugas debug

  1. Di pojok kanan atas editor, klik Run Configuration, atur Resource Group dan Script Parameters untuk eksekusi debug, lalu klik Run untuk menguji tugas.

  2. Di panel navigasi sebelah kiri, klik image, lalu klik ikon baru di samping Personal Directory untuk membuat file SQL baru. Jalankan pernyataan SQL berikut untuk mengkueri tabel destinasi dan memverifikasi bahwa data sesuai harapan Anda.

    Catatan
    SELECT * FROM <your_maxcompute_table_name> WHERE pt=<your_partition> LIMIT 20;

Langkah 6: Konfigurasi penjadwalan dan publikasikan tugas

Di panel sebelah kanan, klik Scheduling Settings untuk mengatur parameter penjadwalan guna eksekusi berkala. Kemudian, klik Publish dan ikuti petunjuk untuk mempublikasikan tugas.