MaxCompute memungkinkan Anda menggunakan alat ETL Kettle untuk menjadwalkan pekerjaan. Anda dapat mendefinisikan topologi transmisi data dengan menyeret kontrol di Kettle. Topik ini menjelaskan cara menggunakan driver Java Database Connectivity (JDBC) untuk menghubungkan Kettle ke proyek MaxCompute dan menjadwalkan pekerjaan.
Informasi latar belakang
Kettle adalah alat ETL sumber terbuka berbasis Java yang kompatibel dengan sistem operasi Windows, UNIX, dan Linux serta menyediakan antarmuka pengguna grafis (GUI). Alat ini mendukung berbagai sumber data input dan output, termasuk database seperti Oracle, MySQL, dan DB2, serta sistem big data open source seperti Hadoop Distributed File System (HDFS), HBase, Cassandra, dan MongoDB.
Anda dapat membuat pekerjaan di Kettle untuk terhubung ke proyek MaxCompute dan menjadwalkannya sesuai alur kerja ETL.
Prasyarat
Proyek MaxCompute telah dibuat.
Untuk informasi lebih lanjut, lihat Buat Proyek MaxCompute.
Pasangan AccessKey akun Alibaba Cloud untuk mengakses proyek MaxCompute telah diperoleh.
Anda dapat mengklik foto profil di sudut kanan atas konsol MaxCompute dan memilih Manajemen AccessKey untuk mendapatkan pasangan AccessKey.
Paket driver JDBC MaxCompute versi 3.2.8 atau lebih baru, termasuk paket
jar-with-dependencies, telah diunduh.Driver JDBC MaxCompute versi 3.2.9 digunakan dalam topik ini.
Paket instalasi Kettle telah diunduh dan diekstrak ke direktori lokal.
Kettle 8.2.0.0-342 digunakan dalam topik ini.
Prosedur
Langkah 1: Simpan Paket Driver JDBC MaxCompute
Simpan paket driver JDBC MaxCompute ke direktori instalasi Kettle agar dapat digunakan untuk menghubungkan Kettle ke proyek MaxCompute.
Langkah 2: Hubungkan Kettle ke Proyek MaxCompute
Konfigurasikan parameter koneksi untuk menghubungkan Kettle ke proyek MaxCompute.
Langkah 3: Buat Alur Kerja Penjadwalan Pekerjaan
Buat alur kerja penjadwalan pekerjaan dan konfigurasikan pekerjaan di Spoon.
Langkah 4: Jalankan Alur Kerja Penjadwalan Pekerjaan
Jalankan pekerjaan berdasarkan alur kerja yang telah dibuat.
Langkah 5: Lihat Hasil Penjadwalan Pekerjaan
Gunakan editor SQL untuk memeriksa hasil penjadwalan pekerjaan.
Langkah 1: Simpan paket driver JDBC MaxCompute
Simpan paket driver JDBC MaxCompute, seperti odps-jdbc-3.2.9-jar-with-dependencies.jar, ke direktori instalasi Kettle data-integration/lib.

Langkah 2: Hubungkan Kettle ke proyek MaxCompute
Di direktori
data-integration, klik dua kaliSpoon.bat(Windows) atauSpoon(macOS) untuk memulai Spoon.Di bilah menu utama Spoon, pilih untuk membuat pekerjaan Kettle. Pekerjaan ini akan digunakan untuk membuat alur kerja penjadwalan pekerjaan.

Di panel sisi kiri, klik tab View. Pada pohon navigasi yang muncul, klik kanan Database connections dan pilih New.

Di kotak dialog yang muncul, klik tab General dan konfigurasikan parameter koneksi. Tabel berikut menjelaskan parameter tersebut.
Parameter
Deskripsi
Connection name
Nama koneksi data yang ingin Anda buat, seperti MaxCompute. Parameter ini digunakan untuk membedakan koneksi ke database yang berbeda.
Connection type
Tipe koneksi data yang ingin Anda buat. Pilih Generic database dari daftar drop-down.
Method of access
Metode koneksi. Pilih Native (JDBC) dari daftar drop-down.
Dialect
Dialek SQL. Pilih Hadoop Hive 2 dari daftar drop-down.
Custom connection URL
URL yang digunakan untuk menghubungkan ke proyek MaxCompute. Formatnya adalah
jdbc:odps:<MaxCompute_endpoint>?project=<MaxCompute_project_name>. Hapus tanda kurung sudut (<>) saat Anda mengonfigurasi parameter ini. Parameter:<MaxCompute_endpoint>: wajib. Titik akhir MaxCompute. Konfigurasikan parameter ini berdasarkan wilayah tempat proyek MaxCompute berada.
Untuk informasi lebih lanjut tentang titik akhir MaxCompute di berbagai wilayah, lihat Titik Akhir.
<MaxCompute_project_name>: wajib. Nama proyek MaxCompute.
Parameter ini menentukan nama proyek MaxCompute Anda, bukan ruang kerja DataWorks yang sesuai dengan proyek MaxCompute. Masuk ke Konsol MaxCompute, pilih wilayah tempat proyek MaxCompute Anda berada di bilah navigasi atas, dan pilih Workspace > Projects. Kemudian Anda dapat melihat nama proyek MaxCompute.
Custom driver class name
Driver yang digunakan untuk menghubungkan ke proyek MaxCompute. Atur parameter ini ke com.aliyun.odps.jdbc.OdpsDriver.
Username
ID AccessKey yang digunakan untuk mengakses proyek MaxCompute.
Anda dapat mengklik foto profil di sudut kanan atas konsol MaxCompute dan memilih Manajemen AccessKey untuk mendapatkan ID AccessKey.
Password
Rahasia AccessKey yang sesuai dengan ID AccessKey.
Klik Test. Jika tes koneksi berhasil, klik OK dan Confirm.
Langkah 3: Buat alur kerja penjadwalan pekerjaan
Di Spoon, Anda dapat membuat dan mengaitkan objek inti (pekerjaan) di tab Design untuk membuat alur kerja penjadwalan pekerjaan.
Langkah ini menjelaskan cara membuat alur kerja ETL yang menggunakan perintah LOAD untuk memuat data dari Object Storage Service (OSS) dan menulis data ke tabel internal MaxCompute. Untuk informasi lebih lanjut tentang data sampel, lihat Gunakan Ekstraktor Bawaan atau Penanganan Penyimpanan untuk Mengimpor Data. Gambar berikut menunjukkan objek inti yang terlibat dalam alur kerja ETL. Objek inti ini dikategorikan berdasarkan jenisnya.

Di Spoon, klik tab Design.
Di panel navigasi sisi kiri, seret objek inti yang ditampilkan pada gambar sebelumnya ke panel pekerjaan di sisi kanan dan gunakan garis untuk menghubungkan objek inti ini berdasarkan struktur yang ditunjukkan pada gambar berikut.
Untuk menghubungkan dua objek inti, pilih objek inti dan tekan Shift untuk menghubungkan objek ini ke objek tujuan.

Klik kanan objek inti (skrip) di panel sisi kanan dan pilih Edit. Di kotak dialog SQL, konfigurasikan parameter yang dijelaskan dalam tabel berikut dan klik OK. Konfigurasikan semua objek inti (skrip) secara berurutan. Tabel berikut menjelaskan parameter tersebut.

Parameter
Deskripsi
Job entry name
Nama pekerjaan yang ingin Anda jadwalkan, seperti Create table, Load from OSS, atau Processing.
Connection
Nama koneksi data, seperti MaxCompute. Dalam topik ini, koneksi data adalah yang Anda buat di Langkah 2. Koneksi ini digunakan untuk menghubungkan ke proyek MaxCompute.
Send SQL as single
Jangan pilih opsi ini.
SQL Script
Skrip SQL yang sesuai dengan pekerjaan yang ingin Anda jadwalkan. Skrip berikut digunakan dalam topik ini:
Create table
CREATE TABLE ambulance_data_csv_load ( vehicleId INT, recordId INT, patientId INT, calls INT, locationLatitute DOUBLE, locationLongtitue DOUBLE, recordTime STRING, direction STRING);Load from OSS
LOAD OVERWRITE TABLE ambulance_data_csv_load FROM LOCATION 'oss://oss-cn-hangzhou-internal.aliyuncs.com/mc-test/data_location/' STORED BY 'com.aliyun.odps.CsvStorageHandler' WITH serdeproperties ( 'odps.properties.rolearn'='acs:ram::xxxxx:role/aliyunodpsdefaultrole', --The Alibaba Cloud Resource Name (ARN) of the AliyunODPSDefaultRole role. You can obtain the ARN from the Roles page of the Resource Access Management (RAM) console. 'odps.text.option.delimiter'=',' );Processing
INSERT OVERWRITE TABLE ambulance_data_csv SELECT * FROM ambulance_data_csv_load;
Langkah 4: Jalankan alur kerja penjadwalan pekerjaan
Klik ikon
di sudut kiri atas tab pekerjaan. Di kotak dialog Run Options, klik Run.
Opsional:Jika pesan yang ditunjukkan pada gambar berikut muncul, klik Yes dan beri nama alur kerja sesuai petunjuk, seperti mc.

Periksa status alur kerja berdasarkan graf asiklik terarah (DAG) atau informasi di bagian Execution Results. Jika hasil eksekusi yang ditunjukkan pada gambar berikut ditampilkan, alur kerja penjadwalan pekerjaan selesai.

Langkah 5: Lihat hasil penjadwalan pekerjaan
Setelah alur kerja penjadwalan pekerjaan selesai, gunakan skrip SQL untuk memeriksa apakah data telah ditulis ke tabel MaxCompute.
Di Spoon, klik tab View, dan klik Database connections di bawah pekerjaan Kettle yang dibuat, seperti mc.
Klik kanan koneksi data yang telah dibuat, seperti MaxCompute, dan pilih SQL Editor.

Dalam kotak dialog Simple SQL editor, masukkan skrip SQL dan klik Execute. Hasil kueri akan ditampilkan di kotak dialog Examine preview data.
Contoh skrip SQL:SELECT * FROM ambulance_data_csv;