Memproses data teks tidak terstruktur—seperti ulasan pengguna, deskripsi produk, dan log layanan pelanggan—merupakan tantangan umum dalam pipa data tradisional. Kini, Anda dapat memanfaatkan kekuatan model bahasa besar (LLM) secara langsung dalam pipa DataWorks. Gunakan instruksi dalam bahasa alami untuk menjalankan tugas AI kompleks seperti ringkasan teks, analisis sentimen, klasifikasi konten, dan ekstraksi informasi. Pendekatan ini menyederhanakan pemrosesan data dan memungkinkan insinyur serta analis data mengintegrasikan kemampuan AI ke dalam pipa ekstrak, transformasi, dan muat (ETL) yang sudah ada tanpa perlu menulis algoritma rumit.
Preparations
Deploy a large language model service in DataWorks. For more information, see Deploy a model.
Pilihan model dan spesifikasi sumber daya secara langsung memengaruhi kinerja dan kecepatan respons layanan model. Selain itu, layanan model tersebut menimbulkan biaya kelompok sumber daya.
Configure the large language model node
Anda dapat mengonfigurasi beberapa pengaturan untuk menjalankan node model bahasa besar.
Configuration item | Description |
Model service | Layanan model bahasa besar yang telah Anda deploy pada tahap persiapan. |
Model name | Model dalam layanan model yang dipilih. Model ini dipilih secara default. |
System prompt | Menentukan perilaku sistem untuk model bahasa besar, termasuk perannya, kemampuannya, dan kode etik. Anda dapat menggunakan format ${param} untuk mendapatkan parameter. |
User prompt | Masukkan pertanyaan atau instruksi spesifik. DataWorks menyediakan empat templat yang dapat Anda pilih. Anda dapat menggunakan format ${param} untuk mendapatkan parameter. Sebagai contoh, Anda dapat menulis prompt sebagai berikut: `Please select items that match |
Simple example
Contoh berikut menunjukkan cara menggunakan model bahasa besar dalam suatu pipa dan meneruskan parameter antara node hulu dan hilir.
Masuk ke DataWorks large language model service. Buat layanan model berdasarkan Qwen3-1.7B. Untuk Resource Group, pilih kelompok sumber daya yang terhubung ke ruang kerja saat ini.
Buka Data Development dan buat pipa dengan node-node berikut.

Atur mode bahasa untuk assignment node menjadi Shell melalui bilah alat di pojok kanan bawah, lalu tulis kode berikut.
Untuk informasi selengkapnya, lihat Assignment node.
echo 'DataWorks';Konfigurasi large language model node.
Pilih layanan model dan nama model yang telah Anda konfigurasi.
Konfigurasi user prompt sebagai berikut:
Write an introduction about ${title} with a word limit of ${length}.Di panel konfigurasi sebelah kanan, buka , lalu ubah kelompok sumber daya menjadi yang sama dengan yang dipilih saat membuat layanan model.
Di panel konfigurasi sebelah kanan, buka . Tambahkan parameter title dan atur nilainya ke output dari node hulu. Tambahkan juga parameter length dan atur nilainya ke nilai statis 300.
Di sebelah kanan kotak input nilai, klik
untuk mengaitkan output dari node hulu.
Konfigurasi MaxCompute SQL node untuk menampilkan hasil dari model bahasa besar.
PentingMengonfigurasi MaxCompute SQL node memerlukan sumber daya komputasi MaxCompute. Jika Anda belum memilikinya, Anda dapat menggunakan node Shell untuk menampilkan output.
Konfigurasi kode sebagai berikut:
select '${content}';Di panel konfigurasi sebelah kanan, buka , lalu ubah kelompok sumber daya menjadi yang sama dengan yang dipilih saat membuat layanan model.
Di panel konfigurasi sebelah kanan, buka . Tambahkan parameter content dan atur nilainya ke output dari node hulu.
Di sebelah kanan kotak input nilai, klik
untuk mengaitkan output dari node hulu.
Kembali ke pipa, klik tombol Run di bagian atas, lalu masukkan parameter untuk eksekusi ini di jendela pop-up.
Setelah pipa berhasil dijalankan, MaxCompute SQL node akan menghasilkan output dari model bahasa besar seperti berikut.
DataWorks is an enterprise data development and management platform from Alibaba Cloud. It supports data collection, cleansing, integration, scheduling, and visualization for large-scale data processing. It provides a visual interface, connects to various data sources, and features powerful task scheduling and data quality monitoring. DataWorks handles both real-time and batch processing, helping enterprises manage data as assets and improve efficiency. Its unified process helps build reliable data pipelines for data governance and intelligent analysis.