All Products
Search
Document Center

DataWorks:Pemrosesan berbantuan AI untuk sinkronisasi batch

Last Updated:Mar 27, 2026

Pemrosesan berbantuan AI mengintegrasikan inferensi model bahasa besar (LLM) langsung ke dalam pipeline Integrasi Data DataWorks. Alih-alih memindahkan data apa adanya, pipeline tersebut memanggil model AI secara real-time untuk menganalisis, memperkaya, atau mentransformasi setiap record saat berpindah dari sumber ke tujuan—mengungkap nilai dari teks tidak terstruktur tanpa perlu menulis kode pemanggilan AI.

Fitur ini dirancang untuk pengguna perusahaan yang memerlukan analisis dan pemrosesan tingkat lanjut pada data selama proses sinkronisasi. Fitur ini sangat berguna bagi organisasi yang ingin memanfaatkan AI guna meningkatkan kualitas data dan mengekstraksi nilai darinya.

Tugas NLP yang didukung

Task Apa yang dilakukan
Sentiment analysis Mengklasifikasikan sentimen teks
Summary generation Merangkum dokumen panjang menjadi poin-poin utama
Keyword extraction Mengekstraksi istilah dan frasa yang paling relevan
Text translation Mengonversi teks dari satu bahasa ke bahasa lain

Kasus penggunaan

Industri Bagaimana pemrosesan AI membantu
Layanan pelanggan / E-dagang Menganalisis sentimen dalam komentar pengguna dan tiket dukungan; mengekstraksi isu inti dan poin umpan balik utama
Kepatuhan / Hukum / Penelitian ilmiah Menghasilkan ringkasan dan mengekstraksi informasi penting dari dokumen kebijakan, kontrak hukum, dan makalah penelitian selama proses sinkronisasi
Manufaktur / Rantai pasok / Kesehatan Menganalisis log perangkat, umpan balik rantai pasok, dan catatan dokter-pasien untuk mengidentifikasi peringatan ancaman dan indikator kualitas layanan
Kolaborasi lintas bahasa Menerjemahkan komentar media sosial, artikel berita, atau dokumen bisnis ke dalam satu bahasa untuk analisis terpusat

Prasyarat

Sebelum memulai, pastikan Anda telah:

Penagihan

Selain biaya langganan DataWorks dan biaya kelompok sumber daya, pemrosesan berbantuan AI akan dikenakan biaya inferensi model.

Contoh: menerjemahkan umpan balik pelanggan selama sinkronisasi Hologres-ke-Hologres

Contoh ini menjelaskan langkah-langkah mengonfigurasi pemrosesan berbantuan AI dalam tugas sinkronisasi offline yang menyalin data dari satu tabel Hologres ke tabel lainnya. Tugas ini menerjemahkan setiap nilai pada kolom feedback_info ke dalam bahasa Inggris dan menuliskan hasilnya ke tabel tujuan.

Apa yang dilakukan pemrosesan AI dalam contoh ini:

Source field Processing description Output field
feedback_info Translate '#{feedback_info}' into English feedback_processed

Langkah 1: Siapkan data sumber

Buat tabel sumber dan masukkan data contoh:

CREATE TABLE customer_feedback (
    id BIGINT PRIMARY KEY,
    device STRING,
    feedback_info STRING,
    pt INT
)
PARTITIONED BY (pt)
DISTRIBUTED BY HASH(id)
WITH (table_type='Duplication');

INSERT INTO customer_feedback (id, device, feedback_info, pt)
VALUES
(8, 'Huawei MateBook D14', 'Affordable, suitable for students, performance is adequate', 2020),
(1, 'iphone', 'This product is okay, I have used it for 1 year', 2013),
(10, 'Bose QuietComfort 35 II', 'A classic among noise-canceling headphones, maximum comfort', 2021);

Langkah 2: Buat tugas sinkronisasi offline

  1. Buka halaman Workspaces di Konsol DataWorks. Di bilah navigasi atas, pilih Wilayah. Temukan ruang kerja target dan pilih Shortcuts > Data Studio di kolom Actions.

  2. Di panel navigasi kiri, klik image untuk membuka Data Studio. Di sebelah kanan Workspace Directories, klik image dan pilih Create Node > Data Integration > Batch Synchronization. Kotak dialog New Node akan muncul.

  3. Atur Path, Data Source and Destination, dan Name untuk node tersebut, lalu klik OK.

Langkah 3: Konfigurasi tugas sinkronisasi

Setelah node dibuat, halaman konfigurasi tugas akan terbuka. Konfigurasikan setiap bagian secara berurutan.

Data source

  • Type — Diatur saat pembuatan node dan tidak dapat diubah. Untuk menggunakan jenis sumber data yang berbeda, buat node baru.

  • Data Source — Pilih sumber data yang sudah ada dari daftar drop-down, atau klik Add Data Source untuk membuat yang baru.

Runtime resource

  1. Pilih Resource Group untuk tugas sinkronisasi. Untuk kelompok sumber daya arsitektur tanpa server, tentukan jumlah CU di bidang Resource Usage(CU).

  2. Setelah memilih kelompok sumber daya, Integrasi Data akan secara otomatis memeriksa konektivitas ke sumber dan tujuan. Klik Connectivity Check untuk menjalankan pemeriksaan secara manual.

image

Source

Konfigurasikan pengaturan tabel sumber: Schema, Table, Partition, dan kondisi Data Filtering. Klik Data Preview untuk melihat pratinjau record yang akan disinkronkan.

image

Data processing

  1. Di bagian pemrosesan data, aktifkan toggle Enable untuk mengaktifkan pemrosesan data. Ini memerlukan sumber daya komputasi tambahan.

  2. Klik Add Node dan pilih AI Process.

    image

  3. Konfigurasikan node AI Process. Parameter utamanya adalah:

    Parameter Description
    Model Provider Pilih penyedia: DataWorks Model Service, Aliyun Bailian, atau PAI Model Gallery
    Model Endpoint Berlaku ketika Model Provider adalah PAI Model Gallery. Masukkan titik akhir pemanggilan model. Untuk mendapatkan titik akhir tersebut, lihat Test service invocation
    Model Name Model yang digunakan untuk pemrosesan data cerdas. Pilih salah satu dari daftar
    API Key Kredensial untuk mengakses model. Untuk Alibaba Cloud Model Studio, lihat Obtain a Model Studio API key. Untuk PAI Model Gallery, buka tugas EAS yang telah dideploy, mulai online debugging, dan gunakan token akses sebagai Kunci API
    Processing Description Instruksi dalam bahasa alami yang menjelaskan cara memproses field sumber. Referensikan nama field menggunakan format #{column_name}. Untuk contoh ini, masukkan Translate '#{feedback_info}' into English
    Output Field Field tempat hasil pemrosesan disimpan. Jika field belum ada, field tersebut akan dibuat secara otomatis. Untuk contoh ini, masukkan feedback_processed

  4. Klik Data Output Preview di pojok kanan atas bagian pemrosesan data untuk melihat pratinjau output yang telah diproses.

  5. (Opsional) Tambahkan lebih banyak node pemrosesan. Beberapa node pemrosesan data dieksekusi secara berurutan.

    image

Destination

  1. Konfigurasikan tabel tujuan: Schema, Table, dan Partition.

    • Klik Generate Target Table Schema untuk menghasilkan skema secara otomatis.

    • Pilih tabel yang sudah ada jika tersedia.

  2. Atur Write Mode dan Write Conflict Strategy.

    image

  3. Konfigurasikan apakah akan menghapus data yang sudah ada di tabel Hologres sebelum sinkronisasi.

  4. (Opsional) Atur Maximum Connections.

    Maximum Connections hanya berlaku ketika Write Mode adalah SQL(INSERT INTO). Satu tugas dapat menggunakan hingga sembilan koneksi. Pastikan instans Hologres memiliki cukup koneksi idle sebelum memulai tugas.

Destination field mapping

Setelah mengonfigurasi sumber, pemrosesan data, dan tujuan, pemetaan field antara tabel sumber dan tujuan akan ditampilkan. Field dipetakan berdasarkan nama dan posisi secara default.

Untuk contoh ini, selain pemetaan default untuk id, device, feedback_info, dan pt, petakan secara manual feedback_processed (field output AI dari sumber) ke translate_feedback di tabel tujuan.

image

Langkah 4: Uji tugas

  1. Di panel kanan, klik Run Configuration. Atur Resource Group dan parameter Script Parameters untuk pengujian ini.

  2. Di bilah alat, klik Save lalu Run. Setelah tugas selesai, verifikasi bahwa hasilnya berhasil dan periksa tabel tujuan untuk memastikan data sudah benar.

Langkah 5: Konfigurasi penjadwalan

Untuk menjalankan tugas sinkronisasi sesuai jadwal, atur Scheduling Policies di bagian Scheduling di sisi kanan halaman dan konfigurasikan properti penjadwalan node.

Langkah 6: Publikasikan node

Klik ikon Publish di bilah alat untuk memulai alur publikasi. Ini akan mempublikasikan tugas ke lingkungan produksi. Penjadwalan periodik hanya berlaku setelah node dipublikasikan.

Langkah selanjutnya

Setelah node dipublikasikan, Anda dapat melakukan pengisian ulang data historis atau memantau dan mengelola tugas di Operation Center.

Referensi