Fitur ini secara native mengintegrasikan kemampuan pemrosesan model AI besar ke dalam pipeline Integrasi Data DataWorks, meningkatkan sinkronisasi data tradisional dari sekadar transportasi data menjadi pemrosesan cerdas. Anda dapat memanggil model AI secara real time untuk menganalisis, memproses, dan meningkatkan data selama transfer dari sumber ke tujuan, sehingga membuka nilai tersembunyi dari data tidak terstruktur.
Pengenalan fungsi
Pelanggan yang sesuai: Fitur ini dirancang untuk pengguna perusahaan yang perlu melakukan analisis dan pemrosesan tingkat lanjut pada data selama sinkronisasi. Fitur ini sangat berguna bagi perusahaan yang ingin memanfaatkan AI untuk meningkatkan kualitas data dan mengekstraksi nilainya.
Integrasi mulus ke dalam pipeline sinkronisasi: Pemrosesan AI merupakan langkah bawaan dalam Integrasi Data yang terhubung secara mulus dengan proses membaca data dari sumber dan menulisnya ke tujuan.
Dukungan untuk berbagai tugas NLP: Anda dapat menjalankan berbagai tugas pemrosesan bahasa alami (NLP) pada data teks selama sinkronisasi, seperti analisis sentimen, pembuatan ringkasan, ekstraksi kata kunci, dan terjemahan teks.
Skenario
Industri | Aplikasi khas |
Layanan pelanggan / E-dagang | Analisis sentimen komentar pengguna dan tiket layanan pelanggan secara real time. Ekstrak secara otomatis masalah inti dan poin umpan balik utama. |
Kepatuhan / Hukum / Penelitian ilmiah | Selama sinkronisasi, secara otomatis hasilkan ringkasan dan ekstrak informasi kunci dari dokumen kebijakan, kontrak hukum, dan makalah penelitian. |
Manufaktur / Rantai pasok / Kesehatan | Analisis secara cerdas log perangkat, umpan balik rantai pasok, atau catatan komunikasi dokter-pasien untuk mengaktifkan alert ancaman dan optimalisasi kualitas layanan. |
Kolaborasi lintas bahasa | Terjemahkan secara otomatis komentar media sosial, artikel berita, atau dokumen bisnis ke dalam satu bahasa selama sinkronisasi agar memungkinkan analisis terpusat. |
Persiapan
Buat ruang kerja yang menggunakan Data Studio (versi baru).
Persiapkan layanan model besar yang diperlukan untuk pemrosesan berbantuan AI. Proses persiapan bervariasi berdasarkan penyedia layanan model besar yang dipilih:
Layanan model DataWorks Alibaba Cloud: Deploy model dan mulai layanan model di Manajemen Layanan Model.
Alibaba Cloud Model Studio: Aktifkan Alibaba Cloud Model Studio dan dapatkan Kunci API.
Alibaba Cloud PAI-Marketplace: Aktifkan Platform for AI (PAI) dan dapatkan token untuk layanan model.
Anda dapat mengonfigurasi informasi sumber data secara manual atau menggunakan sumber data yang sudah ada untuk tugas sinkronisasi offline.
Pastikan ruang kerja telah disambungkan ke kelompok sumber daya dan kelompok sumber daya tersebut dapat terhubung ke sumber data.
Penagihan
Selain biaya langganan DataWorks dan biaya kelompok sumber daya, fitur ini juga dikenai biaya inferensi model (pemanggilan).
Contoh
Contoh ini menggunakan Hologres untuk menunjukkan cara menggunakan fitur pemrosesan berbantuan AI selama tugas sinkronisasi offline dari satu tabel Hologres ke tabel lainnya. Tujuannya adalah menerjemahkan data di kolom feedback_info dari tabel sumber ke dalam bahasa Inggris dan menyinkronkannya ke tabel tujuan.
1. Buat tugas sinkronisasi offline
Buka halaman Workspaces di Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Temukan ruang kerja yang diinginkan dan pilih di kolom Actions.
Di panel navigasi sebelah kiri, klik
untuk menuju halaman Data Studio. Di sebelah kanan Workspace Directories, klik
dan pilih . Kotak dialog New Node akan ditampilkan.Atur Path, Data Source and Destination, dan Name untuk node tersebut, lalu klik OK untuk membuat node sinkronisasi offline.
Dokumen ini menggunakan contoh tugas sinkronisasi Hologres-ke-Hologres untuk menjelaskan fitur pemrosesan berbantuan AI.
2. Konfigurasi tugas sinkronisasi
Setelah Anda membuat node sinkronisasi offline, halaman konfigurasi tugas akan ditampilkan. Di halaman ini, konfigurasikan pengaturan berikut:
1. Sumber data
Konfigurasikan sumber dan tujuan untuk tugas sinkronisasi data.
Type: Jenis sumber dan tujuan data yang dipilih pada langkah Buat tugas sinkronisasi offline. Pengaturan ini tidak dapat diubah. Untuk mengubah jenis sumber data, Anda harus membuat tugas sinkronisasi offline baru.
Data Source:Pilih sumber data yang sudah ada dari daftar drop-down, atau klik Add Data Source untuk membuat yang baru.
2. Sumber daya Runtime
Pilih Resource Group untuk tugas sinkronisasi. Jika Anda menggunakan kelompok sumber daya arsitektur tanpa server, Anda juga dapat menentukan jumlah CU yang dialokasikan untuk tugas tersebut di bidang Resource Usage(CU).
Setelah memilih Resource Group, Integrasi Data secara otomatis memeriksa konektivitas antara kelompok sumber daya dengan sumber dan tujuan data. Anda juga dapat mengklik Connectivity Check untuk melakukan pemeriksaan secara manual.

3. Sumber
Konfigurasikan informasi untuk tabel sumber, seperti Schema, Table, Partition, dan kondisi Data Filtering. Anda dapat mengklik Data Preview untuk melihat pratinjau data yang akan disinkronkan.

4. Pemrosesan data
Di bagian pemrosesan data, Anda dapat Enable fitur pemrosesan data. Fitur ini memerlukan resource komputasi tambahan dan meningkatkan beban resource tugas.
Klik Add Node, pilih AI Process.

Konfigurasikan pengaturan untuk pemrosesan berbantuan AI.

Tabel berikut menjelaskan parameter utama.
Parameter
Deskripsi
Model Provider
Penyedia yang didukung adalah DataWorks Model Service, Aliyun Bailian, dan PAI Model Gallery.
Model Endpoint
Pilih PAI Model Gallery dan masukkan Endpoint pemanggilan model. Untuk mendapatkan Endpoint, lihat Test service invocation.
Model Name
Model yang bertanggung jawab atas pemrosesan data cerdas. Pilih sesuai kebutuhan.
API Key
Kunci API untuk mengakses model. Dapatkan dari penyedia model.
Alibaba Cloud Model Studio: Obtain a Model Studio API key.
Alibaba Cloud PAI-Marketplace: Buka tugas EAS yang telah dideploy, start online debugging, dan dapatkan token. Masukkan token sebagai Kunci API.
Processing Description
Gunakan bahasa alami untuk menjelaskan pemrosesan pada field sumber. Tulis nama field dalam format
#{column_name}. Misalnya, dalam kasus ini, masukkanTranslate '#{feedback_info}' into English.Output Field
Masukkan nama field tempat hasil akan disimpan. Jika field tersebut belum ada, field baru akan dibuat secara otomatis.
CatatanDalam contoh ini, field
feedback_infodari tabel sumber diterjemahkan ke dalam bahasa Inggris dan disimpan di fieldfeedback_processed.Anda dapat mengklik Data Output Preview di pojok kanan atas bagian pemrosesan berbantuan AI untuk melihat pratinjau data keluaran akhir.
(Opsional) Anda dapat mengonfigurasi beberapa alur pemrosesan data yang dieksekusi secara berurutan.

5. Tujuan
Konfigurasikan informasi untuk tabel tujuan sinkronisasi data, seperti Schema, Table, dan Partition.
Anda dapat mengklik Generate Target Table Schema untuk menghasilkan skema tabel tujuan secara cepat.
Jika tabel tujuan sudah ada, Anda dapat memilihnya.
Konfigurasikan Write Mode dan Write Conflict Strategy.

Konfigurasikan apakah akan menghapus data yang sudah ada di tabel Hologres sebelum sinkronisasi.
(Opsional) Konfigurasikan Maximum Connections.
Pengaturan Maximum Connections hanya berlaku ketika mode penulisan adalah
SQL(INSERT INTO). Saat memulai tugas, pastikan instans Hologres memiliki jumlah koneksi idle yang cukup. Satu tugas dapat menggunakan hingga sembilan koneksi.
6. Pemetaan field tujuan
Setelah Anda mengonfigurasi sumber, pemrosesan data, dan tujuan, pemetaan field antara tabel sumber dan tujuan akan ditampilkan. Secara default, field dipetakan berdasarkan nama dan posisi. Anda dapat mengubah pemetaan sesuai kebutuhan.
Dalam contoh ini, selain memetakan field tabel sumber yang sudah ada (id, device, feedback_info, dan pt) berdasarkan nama, Anda juga harus memetakan secara manual field feedback_processed, yang menyimpan hasil terjemahan dari tabel sumber, ke field translate_feedback di tabel tujuan.

3. Uji tugas
Di panel kanan halaman konfigurasi tugas sinkronisasi offline, klik Debugging Configurations. Konfigurasikan Resource Group dan parameter Script Parameters terkait yang akan digunakan untuk menguji node ini.
Di bilah alat di bagian atas halaman konfigurasi node, klik Save lalu klik Run. Setelah tugas selesai dijalankan, verifikasi bahwa hasilnya berhasil. Anda kemudian dapat memeriksa database tujuan untuk memastikan data tabel benar.
4. Konfigurasi penjadwalan
Untuk menjalankan node sinkronisasi offline secara berkala, Anda harus mengatur Scheduling Policies di bagian Scheduling di sisi kanan halaman dan mengonfigurasi properti penjadwalan node terkait.
5. Publikasikan node
Klik ikon Publish di bilah alat node untuk memulai alur publikasi. Alur ini mempublikasikan tugas ke lingkungan produksi. Penjadwalan berkala hanya berlaku setelah tugas dipublikasikan.
Langkah selanjutnya: Tugas O&M
Setelah node dipublikasikan, Anda dapat mengklik Backfill Data atau Perform O&M di alur publikasi.
Backfill Data: Anda dapat menggunakan opsi ini untuk mengisi ulang data hanya untuk node saat ini. Untuk fitur pengisian ulang data yang lebih kompleks, buka Operation Center. Untuk informasi selengkapnya, lihat Run a data backfill task and view the data backfill instance (New).
Perform O&M: Setelah tugas dipublikasikan, tugas tersebut secara otomatis dikelola oleh Operation Center. Di Operation Center, Anda dapat melihat status berjalan tugas atau memicu eksekusinya secara manual. Untuk informasi selengkapnya, lihat Operation Center.