全部产品
Search
文档中心

MaxCompute:Gunakan Kettle untuk menjadwalkan pekerjaan MaxCompute

更新时间:Jul 02, 2025

MaxCompute memungkinkan Anda menggunakan alat ETL Kettle untuk menjadwalkan pekerjaan. Anda dapat mendefinisikan topologi transmisi data dengan menyeret kontrol di Kettle. Topik ini menjelaskan cara menggunakan driver Java Database Connectivity (JDBC) untuk menghubungkan Kettle ke proyek MaxCompute dan menjadwalkan pekerjaan.

Informasi latar belakang

Kettle adalah alat ETL sumber terbuka berbasis Java yang kompatibel dengan sistem operasi Windows, UNIX, dan Linux serta menyediakan antarmuka pengguna grafis (GUI). Alat ini mendukung berbagai sumber data input dan output, termasuk database seperti Oracle, MySQL, dan DB2, serta sistem big data open source seperti Hadoop Distributed File System (HDFS), HBase, Cassandra, dan MongoDB.

Anda dapat membuat pekerjaan di Kettle untuk terhubung ke proyek MaxCompute dan menjadwalkannya sesuai alur kerja ETL.

Prasyarat

  • Proyek MaxCompute telah dibuat.

    Untuk informasi lebih lanjut, lihat Buat Proyek MaxCompute.

  • Pasangan AccessKey akun Alibaba Cloud untuk mengakses proyek MaxCompute telah diperoleh.

    Anda dapat mengklik foto profil di sudut kanan atas konsol MaxCompute dan memilih Manajemen AccessKey untuk mendapatkan pasangan AccessKey.

  • Paket driver JDBC MaxCompute versi 3.2.8 atau lebih baru, termasuk paket jar-with-dependencies, telah diunduh.

    Driver JDBC MaxCompute versi 3.2.9 digunakan dalam topik ini.

  • Paket instalasi Kettle telah diunduh dan diekstrak ke direktori lokal.

    Kettle 8.2.0.0-342 digunakan dalam topik ini.

Prosedur

  1. Langkah 1: Simpan Paket Driver JDBC MaxCompute

    Simpan paket driver JDBC MaxCompute ke direktori instalasi Kettle agar dapat digunakan untuk menghubungkan Kettle ke proyek MaxCompute.

  2. Langkah 2: Hubungkan Kettle ke Proyek MaxCompute

    Konfigurasikan parameter koneksi untuk menghubungkan Kettle ke proyek MaxCompute.

  3. Langkah 3: Buat Alur Kerja Penjadwalan Pekerjaan

    Buat alur kerja penjadwalan pekerjaan dan konfigurasikan pekerjaan di Spoon.

  4. Langkah 4: Jalankan Alur Kerja Penjadwalan Pekerjaan

    Jalankan pekerjaan berdasarkan alur kerja yang telah dibuat.

  5. Langkah 5: Lihat Hasil Penjadwalan Pekerjaan

    Gunakan editor SQL untuk memeriksa hasil penjadwalan pekerjaan.

Langkah 1: Simpan paket driver JDBC MaxCompute

Simpan paket driver JDBC MaxCompute, seperti odps-jdbc-3.2.9-jar-with-dependencies.jar, ke direktori instalasi Kettle data-integration/lib.

Save the driver package

Langkah 2: Hubungkan Kettle ke proyek MaxCompute

  1. Di direktori data-integration, klik dua kali Spoon.bat (Windows) atau Spoon (macOS) untuk memulai Spoon.

  2. Di bilah menu utama Spoon, pilih File > New > Job untuk membuat pekerjaan Kettle. Pekerjaan ini akan digunakan untuk membuat alur kerja penjadwalan pekerjaan.

    Create a job

  3. Di panel sisi kiri, klik tab View. Pada pohon navigasi yang muncul, klik kanan Database connections dan pilih New.

    Establish a data connection

  4. Di kotak dialog yang muncul, klik tab General dan konfigurasikan parameter koneksi. Tabel berikut menjelaskan parameter tersebut.

    Parameter

    Deskripsi

    Connection name

    Nama koneksi data yang ingin Anda buat, seperti MaxCompute. Parameter ini digunakan untuk membedakan koneksi ke database yang berbeda.

    Connection type

    Tipe koneksi data yang ingin Anda buat. Pilih Generic database dari daftar drop-down.

    Method of access

    Metode koneksi. Pilih Native (JDBC) dari daftar drop-down.

    Dialect

    Dialek SQL. Pilih Hadoop Hive 2 dari daftar drop-down.

    Custom connection URL

    URL yang digunakan untuk menghubungkan ke proyek MaxCompute. Formatnya adalah jdbc:odps:<MaxCompute_endpoint>?project=<MaxCompute_project_name>. Hapus tanda kurung sudut (<>) saat Anda mengonfigurasi parameter ini. Parameter:

    • <MaxCompute_endpoint>: wajib. Titik akhir MaxCompute. Konfigurasikan parameter ini berdasarkan wilayah tempat proyek MaxCompute berada.

      Untuk informasi lebih lanjut tentang titik akhir MaxCompute di berbagai wilayah, lihat Titik Akhir.

    • <MaxCompute_project_name>: wajib. Nama proyek MaxCompute.

      Parameter ini menentukan nama proyek MaxCompute Anda, bukan ruang kerja DataWorks yang sesuai dengan proyek MaxCompute. Masuk ke Konsol MaxCompute, pilih wilayah tempat proyek MaxCompute Anda berada di bilah navigasi atas, dan pilih Workspace > Projects. Kemudian Anda dapat melihat nama proyek MaxCompute.

    Custom driver class name

    Driver yang digunakan untuk menghubungkan ke proyek MaxCompute. Atur parameter ini ke com.aliyun.odps.jdbc.OdpsDriver.

    Username

    ID AccessKey yang digunakan untuk mengakses proyek MaxCompute.

    Anda dapat mengklik foto profil di sudut kanan atas konsol MaxCompute dan memilih Manajemen AccessKey untuk mendapatkan ID AccessKey.

    Password

    Rahasia AccessKey yang sesuai dengan ID AccessKey.

  5. Klik Test. Jika tes koneksi berhasil, klik OK dan Confirm.

Langkah 3: Buat alur kerja penjadwalan pekerjaan

Di Spoon, Anda dapat membuat dan mengaitkan objek inti (pekerjaan) di tab Design untuk membuat alur kerja penjadwalan pekerjaan.

Langkah ini menjelaskan cara membuat alur kerja ETL yang menggunakan perintah LOAD untuk memuat data dari Object Storage Service (OSS) dan menulis data ke tabel internal MaxCompute. Untuk informasi lebih lanjut tentang data sampel, lihat Gunakan Ekstraktor Bawaan atau Penanganan Penyimpanan untuk Mengimpor Data. Gambar berikut menunjukkan objek inti yang terlibat dalam alur kerja ETL. Objek inti ini dikategorikan berdasarkan jenisnya.

ETL workflow

  1. Di Spoon, klik tab Design.

  2. Di panel navigasi sisi kiri, seret objek inti yang ditampilkan pada gambar sebelumnya ke panel pekerjaan di sisi kanan dan gunakan garis untuk menghubungkan objek inti ini berdasarkan struktur yang ditunjukkan pada gambar berikut.

    Untuk menghubungkan dua objek inti, pilih objek inti dan tekan Shift untuk menghubungkan objek ini ke objek tujuan. Create a workflow

  3. Klik kanan objek inti (skrip) di panel sisi kanan dan pilih Edit. Di kotak dialog SQL, konfigurasikan parameter yang dijelaskan dalam tabel berikut dan klik OK. Konfigurasikan semua objek inti (skrip) secara berurutan. Tabel berikut menjelaskan parameter tersebut.

    Edit core objects

    Parameter

    Deskripsi

    Job entry name

    Nama pekerjaan yang ingin Anda jadwalkan, seperti Create table, Load from OSS, atau Processing.

    Connection

    Nama koneksi data, seperti MaxCompute. Dalam topik ini, koneksi data adalah yang Anda buat di Langkah 2. Koneksi ini digunakan untuk menghubungkan ke proyek MaxCompute.

    Send SQL as single

    Jangan pilih opsi ini.

    SQL Script

    Skrip SQL yang sesuai dengan pekerjaan yang ingin Anda jadwalkan. Skrip berikut digunakan dalam topik ini:

    • Create table

      CREATE TABLE ambulance_data_csv_load (
      vehicleId INT,
      recordId INT,
      patientId INT,
      calls INT,
      locationLatitute DOUBLE,
      locationLongtitue DOUBLE,
      recordTime STRING,
      direction STRING);
    • Load from OSS

      LOAD OVERWRITE TABLE ambulance_data_csv_load 
      FROM 
      LOCATION 'oss://oss-cn-hangzhou-internal.aliyuncs.com/mc-test/data_location/' 
      STORED BY 'com.aliyun.odps.CsvStorageHandler' 
      WITH serdeproperties (
      'odps.properties.rolearn'='acs:ram::xxxxx:role/aliyunodpsdefaultrole',   --The Alibaba Cloud Resource Name (ARN) of the AliyunODPSDefaultRole role. You can obtain the ARN from the Roles page of the Resource Access Management (RAM) console.
      'odps.text.option.delimiter'=','
      );
    • Processing

      INSERT OVERWRITE TABLE ambulance_data_csv SELECT * FROM ambulance_data_csv_load;

Langkah 4: Jalankan alur kerja penjadwalan pekerjaan

  1. Klik ikon Run di sudut kiri atas tab pekerjaan. Di kotak dialog Run Options, klik Run.

    Run

  2. Opsional:Jika pesan yang ditunjukkan pada gambar berikut muncul, klik Yes dan beri nama alur kerja sesuai petunjuk, seperti mc.

    Save the workflow

  3. Periksa status alur kerja berdasarkan graf asiklik terarah (DAG) atau informasi di bagian Execution Results. Jika hasil eksekusi yang ditunjukkan pada gambar berikut ditampilkan, alur kerja penjadwalan pekerjaan selesai.

    Workflow completed

Langkah 5: Lihat hasil penjadwalan pekerjaan

Setelah alur kerja penjadwalan pekerjaan selesai, gunakan skrip SQL untuk memeriksa apakah data telah ditulis ke tabel MaxCompute.

  1. Di Spoon, klik tab View, dan klik Database connections di bawah pekerjaan Kettle yang dibuat, seperti mc.

  2. Klik kanan koneksi data yang telah dibuat, seperti MaxCompute, dan pilih SQL Editor.

    SQL Editor

  3. Dalam kotak dialog Simple SQL editor, masukkan skrip SQL dan klik Execute. Hasil kueri akan ditampilkan di kotak dialog Examine preview data.

    Execute the SQL scriptContoh skrip SQL:

    SELECT * FROM ambulance_data_csv;