Memproses data teks tak terstruktur—seperti ulasan pengguna, deskripsi produk, dan log layanan pelanggan—merupakan tantangan umum dalam pipa data tradisional. Kini Anda dapat memanfaatkan kemampuan large language models (LLMs) secara langsung dalam pipa DataWorks. Dengan instruksi dalam bahasa alami, Anda dapat menjalankan berbagai tugas AI kompleks, seperti ringkasan teks, analisis sentimen, klasifikasi konten, dan ekstraksi informasi. Pendekatan ini menyederhanakan pemrosesan data serta memungkinkan insinyur dan analis data mengintegrasikan kemampuan AI ke dalam pipa extract, transform, and load (ETL) yang sudah ada tanpa perlu menulis algoritma kompleks.
Preparations
Deploy layanan model bahasa besar di DataWorks. Untuk informasi selengkapnya, lihat Deploy a model.
Pilihan model dan spesifikasi resource secara langsung memengaruhi performa dan kecepatan respons layanan model. Selain itu, layanan model akan dikenai biaya kelompok sumber daya.
Configure the large language model node
Anda dapat mengonfigurasi beberapa pengaturan untuk menjalankan node model bahasa besar.
Configuration item | Description |
Model Service | Layanan model bahasa besar yang telah Anda deploy pada tahap persiapan. |
Model Name | Model dalam layanan model yang dipilih. Nilai ini dipilih secara default. |
System Prompt | Menentukan perilaku sistem untuk model bahasa besar, termasuk perannya, kemampuannya, dan kode etik. Anda dapat menggunakan format ${param} untuk mendapatkan parameter. |
User Prompt | Masukkan pertanyaan atau instruksi spesifik. DataWorks menyediakan empat templat yang dapat Anda pilih. Anda dapat menggunakan format ${param} untuk mendapatkan parameter. Sebagai contoh, Anda dapat menulis prompt sebagai berikut: `Please select items that match |
Simple example
Contoh ini menunjukkan cara menggunakan model bahasa besar dalam suatu pipeline dan meneruskan parameter antara node hulu dan hilir.
Masuk ke layanan model bahasa besar DataWorks. Buat layanan model berdasarkan Qwen3-1.7B. Untuk Resource Group, pilih kelompok sumber daya yang terhubung ke ruang kerja saat ini.
Buka Data Studio dan buat pipeline dengan node-node berikut.

Atur mode bahasa untuk node assignment ke Shell melalui bilah alat di pojok kanan bawah. Kemudian, tulis kode berikut.
Untuk informasi selengkapnya, lihat Assignment node.
echo 'DataWorks';Konfigurasikan node LLM.
Pilih layanan model dan nama model yang telah Anda konfigurasi.
Konfigurasikan user prompt sebagai berikut:
Write an introduction about ${title} with a word limit of ${length}.Di panel konfigurasi di sebelah kanan, buka , lalu ubah kelompok sumber daya ke yang telah Anda pilih saat membuat layanan model.
Di panel konfigurasi sebelah kanan, buka . Tambahkan parameter title dan atur nilainya ke output dari node assignment. Tambahkan parameter length dan atur nilainya ke bidang statis 300.
Di sebelah kanan kotak input nilai, klik
untuk menyambungkan output dari node hulu.
Konfigurasikan MaxCompute SQL node untuk mengeluarkan hasil dari model bahasa besar.
PentingMengonfigurasi MaxCompute SQL node memerlukan penyambungan resource komputasi MaxCompute. Jika Anda tidak memilikinya, Anda dapat menggunakan node Shell untuk menampilkan output.
Konfigurasikan kode sebagai berikut:
select '${content}';Di panel konfigurasi di sebelah kanan, buka , lalu ubah kelompok sumber daya menjadi yang Anda pilih saat membuat layanan model.
Di panel konfigurasi sebelah kanan, buka . Tambahkan parameter content dan atur nilainya ke output dari node llmtest.
Di sebelah kanan kotak input nilai, klik
untuk menyambungkan output dari node hulu.
Kembali ke pipeline, klik tombol Run di bagian atas, lalu masukkan parameter untuk eksekusi ini di jendela pop-up.
Setelah pipeline berhasil dijalankan, MaxCompute SQL node menghasilkan output dari model bahasa besar yang mirip dengan berikut.
DataWorks is an enterprise data development and management platform from Alibaba Cloud. It supports data collection, cleansing, integration, scheduling, and visualization for large-scale data processing. It provides a visual interface, connects to various data sources, and features powerful task scheduling and data quality monitoring. DataWorks handles both real-time and batch processing, helping enterprises manage data as assets and improve efficiency. Its unified process helps build reliable data pipelines for data governance and intelligent analysis.