Topik ini menjelaskan cara memuat data offline dari satu tabel Object Storage Service (OSS) ke MaxCompute serta menyediakan praktik terbaik untuk konfigurasi sumber data, konektivitas jaringan, dan pengaturan tugas sinkronisasi.
Ikhtisar OSS
Alibaba Cloud Object Storage Service (OSS) adalah layanan penyimpanan cloud yang aman, hemat biaya, dan sangat andal, menawarkan kapasitas penyimpanan besar, ketahanan data 99,9999999999% (dua belas angka 9), dan ketersediaan data 99,995%. OSS menyediakan berbagai kelas penyimpanan untuk membantu Anda mengoptimalkan biaya. Data Integration memungkinkan sinkronisasi data dari OSS ke destinasi lain atau sebaliknya.
Dapatkan informasi bucket OSS
Buka Konsol OSS. Di Bucket list, temukan bucket yang akan digunakan untuk sinkronisasi data. Di halaman overview bucket tersebut, peroleh Titik akhir publik dan Titik akhir internal-nya. Pilih titik akhir yang sesuai berdasarkan skenario Anda.
-
Titik akhir publik digunakan untuk akses melalui internet. Saat mengakses OSS melalui internet, lalu lintas masuk (penulisan) gratis, sedangkan lalu lintas keluar (pembacaan) dikenai biaya. Untuk informasi lebih lanjut tentang biaya OSS, lihat Harga OSS dan Item Penagihan.
-
Jaringan internal adalah jaringan komunikasi privat antar produk Alibaba Cloud dalam Wilayah yang sama. Misalnya, Anda dapat menggunakan kelompok sumber daya Data Integration untuk mengakses OSS di Wilayah yang sama. Baik lalu lintas masuk maupun keluar melalui jaringan internal tidak dikenai biaya. Jika Anda membaca dari atau menulis ke bucket OSS yang berada di Wilayah yang sama dengan kelompok sumber daya Data Integration Anda, gunakan Titik akhir internal. Jika tidak, gunakan Titik akhir publik.
-
Untuk daftar Wilayah dan titik akhirnya, lihat Wilayah dan Titik Akhir.
Prasyarat
-
Anda telah membeli kelompok sumber daya Serverless.
-
Anda telah membuat sumber data OSS dan sumber data MaxCompute. Untuk informasi lebih lanjut, lihat Konfigurasi sumber data.
-
Anda telah menetapkan konektivitas jaringan antara kelompok sumber daya dan sumber data. Untuk informasi lebih lanjut, lihat Ikhtisar solusi konektivitas jaringan.
Batasan
Sinkronisasi data sumber ke tabel eksternal MaxCompute tidak didukung.
Prosedur
Topik ini menggunakan antarmuka pengguna Data Studio (Baru) untuk menunjukkan cara mengonfigurasi tugas sinkronisasi offline.
Langkah 1: Buat node dan tugas
Untuk langkah-langkah umum pembuatan node dan penggunaan antarmuka UI tanpa kode, lihat Konfigurasi UI tanpa kode.
Langkah 2: Konfigurasi sumber dan destinasi
Konfigurasi sumber (OSS)
Dalam skenario ini, sumber data adalah file OSS. Item konfigurasi utama dijelaskan di bawah ini.
|
Parameter |
Deskripsi |
|
File Type |
Pilih jenis file yang akan disinkronkan. Antarmuka UI tanpa kode mendukung pembacaan file dalam format |
|
File Path |
Masukkan path ke file sumber.
|
|
Field Delimiter |
Tentukan pemisah kolom yang digunakan dalam file. |
|
Encoding |
Atur pengkodean karakter yang digunakan untuk membaca file sumber. |
|
Null String |
|
|
Compression Format |
Format kompresi file sumber. Format yang didukung adalah |
|
Skip Header |
Untuk file bertipe CSV, Anda dapat memilih apakah akan melewatkan baris header. Secara default, header disertakan. Catatan
Melewatkan header tidak didukung untuk file terkompresi. |
|
Table Data Structure |
Setelah Anda mengonfigurasi parameter sumber data, klik Confirm Data Structure untuk memverifikasi format data. |
Konfigurasi destinasi (MaxCompute)
Dalam skenario ini, destinasi untuk sinkronisasi data offline dari OSS adalah tabel MaxCompute. Item konfigurasi utama dijelaskan di bawah ini.
Anda dapat mempertahankan nilai default untuk parameter apa pun yang tidak disebutkan dalam tabel di bawah ini.
|
Parameter |
Deskripsi |
|
Tunnel Resource Group |
Ini menentukan sumber daya transfer data MaxCompute (Tunnel Quota). Secara default, digunakan Public transmission resources, yang sesuai dengan kuota gratis untuk MaxCompute. Jika Tunnel Quota eksklusif Anda menjadi tidak tersedia karena pembayaran tertunda atau kedaluwarsa, tugas secara otomatis kembali menggunakan Public transmission resources. |
|
Table |
Pilih tabel MaxCompute untuk sinkronisasi data. Jika Anda menggunakan ruang kerja DataWorks standar, pastikan tabel MaxCompute dengan nama dan skema yang sama ada di lingkungan pengembangan maupun lingkungan produksi. Sebagai alternatif, klik Generate Destination Table Schema untuk membuat tabel destinasi secara otomatis. Anda kemudian dapat menyesuaikan pernyataan pembuatan tersebut secara manual. Catatan
Pertimbangkan hal berikut:
|
|
Partition Information |
Jika destinasi adalah tabel partisi, Anda dapat menentukan nilai untuk kolom partisi.
|
|
Write Method |
Pilih apakah akan menghapus data yang sudah ada di tabel tujuan atau menambahkan data baru. |
Langkah 3: Konfigurasi pemetaan bidang
Setelah mengonfigurasi sumber dan destinasi, petakan kolom di antara keduanya. Anda dapat memilih untuk Map Fields with the Same Name, Map Fields in the Same Line, Delete All Mappings, atau Edit Field Mappings.
Langkah 4: Konfigurasi pengaturan lanjutan
Anda dapat mengonfigurasi pengaturan lanjutan untuk tugas, seperti Expected Maximum Concurrency dan Policy for Dirty Data Records. Untuk tutorial ini, atur Policy for Dirty Data Records menjadi Disallow Dirty Data Records dan gunakan nilai default untuk semua pengaturan lainnya. Untuk informasi lebih lanjut, lihat Konfigurasi UI tanpa kode.
Langkah 5: Konfigurasi dan jalankan tugas debug
-
Di pojok kanan atas editor, klik Run Configuration, atur Resource Group dan Script Parameters untuk eksekusi debug, lalu klik Run untuk menguji tugas.
-
Di panel navigasi sebelah kiri, klik
, lalu klik ikon baru di samping Personal Directory untuk membuat file SQL baru. Jalankan pernyataan SQL berikut untuk mengkueri tabel destinasi dan memverifikasi bahwa data sesuai harapan Anda.Catatan-
Untuk menjalankan kueri ini, Anda harus terlebih dahulu mengikat proyek MaxCompute destinasi sebagai mesin komputasi untuk DataWorks.
-
Di editor file
.sql, klik Run Configuration di sisi kanan. Tentukan Type sumber data, Computing Resources, dan Resource Group, lalu klik Run di bilah alat atas.
SELECT * FROM <your_maxcompute_table_name> WHERE pt=<your_partition> LIMIT 20; -
Langkah 6: Konfigurasi penjadwalan dan publikasikan tugas
Di panel sebelah kanan, klik Scheduling Settings untuk mengatur parameter penjadwalan guna eksekusi berkala. Kemudian, klik Publish dan ikuti petunjuk untuk mempublikasikan tugas.