Buat tugas integrasi data dengan kemampuan pemrosesan AI - DataWorks

Fitur ini secara native mengintegrasikan kemampuan pemrosesan model AI besar ke dalam pipeline Integrasi Data DataWorks, meningkatkan sinkronisasi data tradisional dari sekadar transportasi data menjadi pemrosesan cerdas. Anda dapat memanggil model AI secara real time untuk menganalisis, memproses, dan meningkatkan data selama transfer dari sumber ke tujuan, sehingga membuka nilai tersembunyi dari data tidak terstruktur.

Pengenalan fungsi

Pelanggan yang sesuai: Fitur ini dirancang untuk pengguna perusahaan yang perlu melakukan analisis dan pemrosesan tingkat lanjut pada data selama sinkronisasi. Fitur ini sangat berguna bagi perusahaan yang ingin memanfaatkan AI untuk meningkatkan kualitas data dan mengekstraksi nilainya.
Integrasi mulus ke dalam pipeline sinkronisasi: Pemrosesan AI merupakan langkah bawaan dalam Integrasi Data yang terhubung secara mulus dengan proses membaca data dari sumber dan menulisnya ke tujuan.
Dukungan untuk berbagai tugas NLP: Anda dapat menjalankan berbagai tugas pemrosesan bahasa alami (NLP) pada data teks selama sinkronisasi, seperti analisis sentimen, pembuatan ringkasan, ekstraksi kata kunci, dan terjemahan teks.

Skenario

Industri	Aplikasi khas
Layanan pelanggan / E-dagang	Analisis sentimen komentar pengguna dan tiket layanan pelanggan secara real time. Ekstrak secara otomatis masalah inti dan poin umpan balik utama.
Kepatuhan / Hukum / Penelitian ilmiah	Selama sinkronisasi, secara otomatis hasilkan ringkasan dan ekstrak informasi kunci dari dokumen kebijakan, kontrak hukum, dan makalah penelitian.
Manufaktur / Rantai pasok / Kesehatan	Analisis secara cerdas log perangkat, umpan balik rantai pasok, atau catatan komunikasi dokter-pasien untuk mengaktifkan alert ancaman dan optimalisasi kualitas layanan.
Kolaborasi lintas bahasa	Terjemahkan secara otomatis komentar media sosial, artikel berita, atau dokumen bisnis ke dalam satu bahasa selama sinkronisasi agar memungkinkan analisis terpusat.

Persiapan

Buat ruang kerja yang menggunakan Data Studio (versi baru).
Persiapkan layanan model besar yang diperlukan untuk pemrosesan berbantuan AI. Proses persiapan bervariasi berdasarkan penyedia layanan model besar yang dipilih:
- Layanan model DataWorks Alibaba Cloud: Deploy model dan mulai layanan model di Manajemen Layanan Model.
- Alibaba Cloud Model Studio: Aktifkan Alibaba Cloud Model Studio dan dapatkan Kunci API.
- Alibaba Cloud PAI-Marketplace: Aktifkan Platform for AI (PAI) dan dapatkan token untuk layanan model.
Anda dapat mengonfigurasi informasi sumber data secara manual atau menggunakan sumber data yang sudah ada untuk tugas sinkronisasi offline.
Pastikan ruang kerja telah disambungkan ke kelompok sumber daya dan kelompok sumber daya tersebut dapat terhubung ke sumber data.

Penagihan

Selain biaya langganan DataWorks dan biaya kelompok sumber daya, fitur ini juga dikenai biaya inferensi model (pemanggilan).

Contoh

Contoh ini menggunakan Hologres untuk menunjukkan cara menggunakan fitur pemrosesan berbantuan AI selama tugas sinkronisasi offline dari satu tabel Hologres ke tabel lainnya. Tujuannya adalah menerjemahkan data di kolom feedback_info dari tabel sumber ke dalam bahasa Inggris dan menyinkronkannya ke tabel tujuan.

Persiapkan data untuk tabel sumber

CREATE TABLE customer_feedback (
    id BIGINT PRIMARY KEY,
    device STRING,
    feedback_info STRING,
    pt INT
)
PARTITIONED BY (pt)
DISTRIBUTED BY HASH(id)
WITH (table_type='Duplication');

INSERT INTO customer_feedback (id, device, feedback_info, pt)
VALUES
(8, 'Huawei MateBook D14', 'Affordable, suitable for students, performance is adequate', 2020),
(1, 'iphone', 'This product is okay, I have used it for 1 year', 2013),
(10, 'Bose QuietComfort 35 II', 'A classic among noise-canceling headphones, maximum comfort', 2021);

1. Buat tugas sinkronisasi offline

Buka halaman Workspaces di Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Temukan ruang kerja yang diinginkan dan pilih Shortcuts > Data Studio di kolom Actions.
Di panel navigasi sebelah kiri, klik untuk menuju halaman Data Studio. Di sebelah kanan Workspace Directories, klik dan pilih Create Node > Data Integration > Batch Synchronization. Kotak dialog New Node akan ditampilkan.
Atur Path, Data Source and Destination, dan Name untuk node tersebut, lalu klik OK untuk membuat node sinkronisasi offline.
Dokumen ini menggunakan contoh tugas sinkronisasi Hologres-ke-Hologres untuk menjelaskan fitur pemrosesan berbantuan AI.

2. Konfigurasi tugas sinkronisasi

Setelah Anda membuat node sinkronisasi offline, halaman konfigurasi tugas akan ditampilkan. Di halaman ini, konfigurasikan pengaturan berikut:

1. Sumber data

Konfigurasikan sumber dan tujuan untuk tugas sinkronisasi data.

Type: Jenis sumber dan tujuan data yang dipilih pada langkah Buat tugas sinkronisasi offline. Pengaturan ini tidak dapat diubah. Untuk mengubah jenis sumber data, Anda harus membuat tugas sinkronisasi offline baru.
Data Source：Pilih sumber data yang sudah ada dari daftar drop-down, atau klik Add Data Source untuk membuat yang baru.

2. Sumber daya Runtime

Pilih Resource Group untuk tugas sinkronisasi. Jika Anda menggunakan kelompok sumber daya arsitektur tanpa server, Anda juga dapat menentukan jumlah CU yang dialokasikan untuk tugas tersebut di bidang Resource Usage(CU).
Setelah memilih Resource Group, Integrasi Data secara otomatis memeriksa konektivitas antara kelompok sumber daya dengan sumber dan tujuan data. Anda juga dapat mengklik Connectivity Check untuk melakukan pemeriksaan secara manual.

3. Sumber

Konfigurasikan informasi untuk tabel sumber, seperti Schema, Table, Partition, dan kondisi Data Filtering. Anda dapat mengklik Data Preview untuk melihat pratinjau data yang akan disinkronkan.

4. Pemrosesan data

Di bagian pemrosesan data, Anda dapat Enable fitur pemrosesan data. Fitur ini memerlukan resource komputasi tambahan dan meningkatkan beban resource tugas.
Klik Add Node, pilih AI Process.

Konfigurasikan pengaturan untuk pemrosesan berbantuan AI.

Tabel berikut menjelaskan parameter utama.

Parameter	Deskripsi
Model Provider	Penyedia yang didukung adalah DataWorks Model Service, Aliyun Bailian, dan PAI Model Gallery.
Model Endpoint	Pilih PAI Model Gallery dan masukkan Endpoint pemanggilan model. Untuk mendapatkan Endpoint, lihat Test service invocation.
Model Name	Model yang bertanggung jawab atas pemrosesan data cerdas. Pilih sesuai kebutuhan.
API Key	Kunci API untuk mengakses model. Dapatkan dari penyedia model. Alibaba Cloud Model Studio: Obtain a Model Studio API key. Alibaba Cloud PAI-Marketplace: Buka tugas EAS yang telah dideploy, start online debugging, dan dapatkan token. Masukkan token sebagai Kunci API.
Processing Description	Gunakan bahasa alami untuk menjelaskan pemrosesan pada field sumber. Tulis nama field dalam format `#{column_name}`. Misalnya, dalam kasus ini, masukkan `Translate '#{feedback_info}' into English`.
Output Field	Masukkan nama field tempat hasil akan disimpan. Jika field tersebut belum ada, field baru akan dibuat secara otomatis.

Catatan

Dalam contoh ini, field feedback_info dari tabel sumber diterjemahkan ke dalam bahasa Inggris dan disimpan di field feedback_processed.

Anda dapat mengklik Data Output Preview di pojok kanan atas bagian pemrosesan berbantuan AI untuk melihat pratinjau data keluaran akhir.
(Opsional) Anda dapat mengonfigurasi beberapa alur pemrosesan data yang dieksekusi secara berurutan.

5. Tujuan

Konfigurasikan informasi untuk tabel tujuan sinkronisasi data, seperti Schema, Table, dan Partition.
- Anda dapat mengklik Generate Target Table Schema untuk menghasilkan skema tabel tujuan secara cepat.
- Jika tabel tujuan sudah ada, Anda dapat memilihnya.
Konfigurasikan Write Mode dan Write Conflict Strategy.
Konfigurasikan apakah akan menghapus data yang sudah ada di tabel Hologres sebelum sinkronisasi.
(Opsional) Konfigurasikan Maximum Connections.
Pengaturan Maximum Connections hanya berlaku ketika mode penulisan adalah SQL(INSERT INTO). Saat memulai tugas, pastikan instans Hologres memiliki jumlah koneksi idle yang cukup. Satu tugas dapat menggunakan hingga sembilan koneksi.

6. Pemetaan field tujuan

Setelah Anda mengonfigurasi sumber, pemrosesan data, dan tujuan, pemetaan field antara tabel sumber dan tujuan akan ditampilkan. Secara default, field dipetakan berdasarkan nama dan posisi. Anda dapat mengubah pemetaan sesuai kebutuhan.

Catatan

Dalam contoh ini, selain memetakan field tabel sumber yang sudah ada (id, device, feedback_info, dan pt) berdasarkan nama, Anda juga harus memetakan secara manual field feedback_processed, yang menyimpan hasil terjemahan dari tabel sumber, ke field translate_feedback di tabel tujuan.

3. Uji tugas

Di panel kanan halaman konfigurasi tugas sinkronisasi offline, klik Debugging Configurations. Konfigurasikan Resource Group dan parameter Script Parameters terkait yang akan digunakan untuk menguji node ini.
Di bilah alat di bagian atas halaman konfigurasi node, klik Save lalu klik Run. Setelah tugas selesai dijalankan, verifikasi bahwa hasilnya berhasil. Anda kemudian dapat memeriksa database tujuan untuk memastikan data tabel benar.

4. Konfigurasi penjadwalan

Untuk menjalankan node sinkronisasi offline secara berkala, Anda harus mengatur Scheduling Policies di bagian Scheduling di sisi kanan halaman dan mengonfigurasi properti penjadwalan node terkait.

5. Publikasikan node

Klik ikon Publish di bilah alat node untuk memulai alur publikasi. Alur ini mempublikasikan tugas ke lingkungan produksi. Penjadwalan berkala hanya berlaku setelah tugas dipublikasikan.

Langkah selanjutnya: Tugas O&M

Setelah node dipublikasikan, Anda dapat mengklik Backfill Data atau Perform O&M di alur publikasi.

Backfill Data: Anda dapat menggunakan opsi ini untuk mengisi ulang data hanya untuk node saat ini. Untuk fitur pengisian ulang data yang lebih kompleks, buka Operation Center. Untuk informasi selengkapnya, lihat Run a data backfill task and view the data backfill instance (New).
Perform O&M: Setelah tugas dipublikasikan, tugas tersebut secara otomatis dikelola oleh Operation Center. Di Operation Center, Anda dapat melihat status berjalan tugas atau memicu eksekusinya secara manual. Untuk informasi selengkapnya, lihat Operation Center.