All Products
Search
Document Center

ApsaraDB for ClickHouse:Gunakan DataWorks untuk menyinkronkan data

Last Updated:Jul 06, 2025

Topik ini menjelaskan cara menggunakan DataWorks untuk menyinkronkan data dari MaxCompute ke ApsaraDB for ClickHouse.

Informasi latar belakang

Anda dapat menggunakan fitur penyinkronan data batch DataWorks untuk menyinkronkan data dari berbagai sumber data ke ApsaraDB for ClickHouse. Untuk informasi lebih lanjut tentang sumber data yang didukung oleh penyinkronan data batch, lihat Tipe Sumber Data yang Didukung, Plugin Reader, dan Plugin Writer.

Prasyarat

Catatan penggunaan

  • ApsaraDB for ClickHouse hanya mendukung grup sumber daya eksklusif untuk Data Integration.

  • Jika Anda ingin menyinkronkan tabel yang sebelumnya telah disinkronkan, jalankan pernyataan TRUNCATE TABLE <Nama Tabel>; untuk menghapus data yang telah disinkronkan dalam tabel ApsaraDB for ClickHouse.

Prosedur

  1. Tambahkan Sumber Data.

    Anda perlu menambahkan sumber data untuk MaxCompute dan ApsaraDB for ClickHouse.

    Catatan

    Untuk informasi lebih lanjut, lihat Tambahkan Sumber Data MaxCompute dan Tambahkan Sumber Data ClickHouse.

  2. Buat Tabel MaxCompute.

    1. Masuk ke Konsol DataWorks.

    2. Di panel navigasi kiri, klik Workspace.

    3. Di bilah navigasi atas, pilih wilayah tempat workspace yang diinginkan berada.

    4. Pada halaman Workspaces, temukan workspace dan pilih Shortcuts > Data Development di kolom Actions.

    5. Pada halaman DataStudio, gerakkan pointer di atas ikon 新建 dan pilih Create Table > MaxCompute > Table.

    6. Dalam kotak dialog Create Table, pilih jalur dari daftar drop-down Path dan konfigurasikan parameter Name. Dalam contoh ini, odptabletest1 digunakan sebagai nama tabel. Klik Create.

    7. Dalam bagian General, konfigurasikan parameter.

      基本属性

      Tabel berikut menjelaskan parameter.

      Parameter

      Deskripsi

      Nama Tampilan

      Nama tampilan tabel.

      Tema

      Folder yang digunakan untuk menyimpan dan mengelola tabel. Anda dapat menentukan folder level-1 dan level-2 untuk menyimpan tabel. Parameter Tema Level-1 dan Tema Level-2 dapat digunakan untuk mengkategorikan tabel berdasarkan kategori bisnis. Anda dapat menyimpan tabel dengan kategori bisnis yang sama di folder yang sama.

      Catatan

      Tema level-1 dan level-2 di panel Tabel Workspace halaman DataStudio membantu Anda mengelola tabel di folder dengan lebih baik. Anda dapat dengan cepat menemukan tabel saat ini di panel Tabel Workspace berdasarkan tema. Jika tidak ada tema yang tersedia, Anda dapat membuat satu. Untuk informasi tentang cara membuat tema, lihat bagian Buat atau kelola folder untuk tabel dari topik "Kelola pengaturan untuk tabel".

    8. Klik DDL di toolbar.

    9. Dalam kotak dialog DDL, masukkan pernyataan berikut dan klik Generate Table Schema:

      CREATE TABLE IF NOT EXISTS odptabletest1
      (    
      v1  TINYINT,    
      v2  SMALLINT                
      );
    10. Klik Commit to Development Environment dan kemudian Commit to Production Environment.

  3. Tulis Data ke Tabel MaxCompute.

    1. Pada halaman DataStudio, klik Ad Hoc Query di panel navigasi kiri.

    2. Gerakkan pointer di atas ikon 新建 dan pilih Create > ODPS SQL.

    3. Dalam kotak dialog Create Node, pilih jalur dari daftar drop-down Path dan konfigurasikan parameter Name.

    4. Klik Confirm.

    5. Pada halaman edit node, masukkan pernyataan berikut untuk menulis data ke tabel MaxCompute:

      insert into odptabletest1 values (1,"a"),(2,"b"),(3,"c"),(4,"d");
    6. Klik ikon 执行 di toolbar.

    7. Dalam kotak dialog Estimate MaxCompute Computing Cost, klik Run.

  4. Buat ApsaraDB for ClickHouse tabel.

    1. Masuk ke Konsol ApsaraDB for ClickHouse.

    2. Di bilah navigasi atas, pilih wilayah tempat kluster yang diinginkan diterapkan.

    3. Pada halaman Clusters, klik tab berdasarkan edisi kluster Anda dan klik ID kluster yang ingin Anda kelola.

    4. Pada halaman Cluster Information, klik Log On to Database di pojok kanan atas.

    5. Dalam kotak dialog Log on to Database Instance, masukkan nama pengguna dan kata sandi akun database Anda dan klik Login.

    6. Masukkan pernyataan berikut dan klik Execute(F8). Contoh pernyataan:

      create table default.dataworktest ON CLUSTER default (
      v1 Int, 
      v2 String
      ) ENGINE = MergeTree ORDER BY v1;
      Catatan

      Tipe skema tabel ApsaraDB for ClickHouse harus memetakan tipe skema tabel MaxCompute.

  5. Buat Alur Kerja.

    Jika Anda sudah memiliki workflow, lewati langkah ini.

    1. Pada halaman DataStudio, klik Scheduled Workflow di panel navigasi kiri.

    2. Gerakkan pointer di atas ikon 新建 dan pilih Create Workflow.

    3. Dalam kotak dialog Create Workflow, konfigurasikan parameter Workflow Name.

      Penting

      Nama tersebut harus memiliki panjang 1 hingga 128 karakter dan dapat berisi huruf, digit, garis bawah (_), dan titik (.).

    4. Klik Create.

  6. Buat Node Sinkronisasi Batch.

    1. Klik alur kerja yang baru dibuat dan klik kanan Data Integration.

    2. Pilih Create Node > Offline synchronization.

    3. Dalam kotak dialog Create Node, konfigurasikan parameter Name, dan pilih jalur dari daftar drop-down Path.

      Penting

      Nama node harus memiliki panjang 1 hingga 128 karakter dan dapat berisi huruf, digit, garis bawah (_), dan titik (.).

    4. Klik Confirm.

  7. Konfigurasikan Sumber Data dan Tujuan.

    1. Sumber: Pilih sumber data yang didukung. Dalam contoh ini, MaxCompute dipilih.

      选择数据源

      Tabel berikut menjelaskan parameter.

      Parameter

      Deskripsi

      Connection

      Tipe dan nama sumber data.

      Production Project Name

      Nama proyek dalam lingkungan produksi. Anda tidak dapat mengubah nilai ini.

      Table

      Tabel yang ingin Anda sinkronkan.

      Partition Key Column

      Jika data tambahan harian Anda disimpan dalam partisi tanggal tertentu, Anda dapat menentukan informasi partisi untuk menyinkronkan data tambahan harian. Misalnya, atur v17 menjadi ${bizdate}.

      Catatan

      DataWorks tidak dapat memetakan bidang dalam tabel MaxCompute yang dipartisi. Jika Anda ingin membaca data dari tabel MaxCompute yang dipartisi, Anda harus menentukan setiap partisi yang diinginkan saat mengonfigurasi MaxCompute Reader.

      Catatan

      Untuk informasi lebih lanjut tentang parameter, lihat MaxCompute Reader.

    2. Tujuan: Pilih ClickHouse.

      选择数据源

      Tabel berikut menjelaskan parameter.

      Parameter

      Deskripsi

      Connection

      Tipe dan nama sumber data. Pilih ClickHouse.

      Table

      Tabel ke mana Anda ingin mengimpor data yang disinkronkan.

      Primary key or unique key conflict handling

      Atur nilai ini ke insert into (Insert).

      Pre sql

      Pernyataan SQL yang ingin Anda jalankan sebelum tugas sinkronisasi dijalankan.

      Post sql

      Pernyataan SQL yang ingin Anda jalankan setelah tugas sinkronisasi dijalankan.

      Batch insert byte size

      Jumlah maksimum byte yang akan dimasukkan.

      Number of batches

      Jumlah entri data yang akan dimasukkan dalam satu batch.

    3. (Opsional) Mappings: Anda dapat memilih pemetaan bidang. Field di sisi kiri sesuai dengan Field di sisi kanan.

      字段映射

      Catatan

      Untuk informasi tentang parameter, lihat bagian Langkah 4: Konfigurasikan Pemetaan antara Bidang Sumber dan Bidang Tujuan dari topik Konfigurasikan Tugas Sinkronisasi Batch Menggunakan Antarmuka Tanpa Kode.

    4. (Opsional) Channel: Konfigurasikan laju transmisi maksimum dan aturan pemeriksaan data kotor.

      通道控制

      Catatan

      Untuk informasi tentang parameter, lihat bagian Langkah 5: Konfigurasikan Kebijakan Kontrol Saluran dari topik Konfigurasikan Tugas Sinkronisasi Batch Menggunakan Antarmuka Tanpa Kode.

  8. Konfigurasikan Grup Sumber Daya untuk Data Integration.

    Klik Resource Group configuration di sebelah kanan dan pilih grup dari daftar drop-down Exclusive Resource Group.集成资源组配置

  9. Jalankan dan Simpan Tugas Sinkronisasi.

    1. Klik ikon 保存 di toolbar untuk menyimpan tugas sinkronisasi.

    2. Klik ikon 运行 di toolbar untuk menjalankan tugas sinkronisasi.p353650.png

Verifikasi hasil sinkronisasi data

  1. Masuk ke Konsol ApsaraDB for ClickHouse.

  2. Di bilah navigasi atas, pilih wilayah tempat kluster yang diinginkan diterapkan.

  3. Pada halaman Clusters, klik tab berdasarkan edisi kluster Anda dan klik ID kluster yang ingin Anda kelola.

  4. Pada halaman Cluster Information, klik Log On to Database di pojok kanan atas.

  5. Dalam kotak dialog Log on to Database Instance, masukkan nama pengguna dan kata sandi akun database Anda dan klik Login.

  6. Masukkan pernyataan kueri berikut dan klik Eksekusi(F8) untuk memeriksa apakah data telah disinkronkan:

    SELECT * FROM dataworktest;

    Hasil berikut dikembalikan.查询结果

    Catatan

    Jika hasil dikembalikan setelah Anda menjalankan pernyataan kueri, data telah disinkronkan dari MaxCompute ke ApsaraDB for ClickHouse.