Topik ini menjelaskan cara menggunakan AI_SUMMARIZE dengan Large Language Model (LLM) untuk menghasilkan ringkasan teks.
Batasan
Hanya didukung di Ververica Runtime (VVR) 11.4 atau versi yang lebih baru.
Throughput operator Flink yang digunakan oleh AI_SUMMARIZE dibatasi oleh rate limiting pada platform model. Saat batas lalu lintas tercapai, pekerjaan Flink mengalami backpressure dan operator ini menjadi bottleneck. Dalam kasus parah, kondisi ini dapat memicu error timeout serta restart pekerjaan.
Sintaksis
AI_SUMMARIZE(
MODEL => MODEL <MODEL NAME>,
INPUT => <INPUT COLUMN NAME>,
MAX_LENGTH => <MAX LENGTH>
)Parameter Masukan
Parameter | Tipe Data | Deskripsi |
MODEL <MODEL NAME> | MODEL | Nama layanan model yang telah didaftarkan. Untuk detailnya, lihat Model Settings untuk mendaftarkan layanan model. Catatan: Model saat ini harus mengembalikan output bertipe VARIANT. |
<INPUT COLUMN NAME> | STRING | Data yang akan dianalisis oleh model. |
<MAX LENGTH> | INTEGER | Panjang maksimum output model. Catatan: Parameter masukan ini saat ini harus berupa konstanta. |
Output
Parameter | Tipe Data | Deskripsi |
summary | STRING | Konten ringkasan |
Contoh
Data Uji
id | description |
1 | What is Flink? Apache Flink adalah framework open source terdistribusi untuk pemrosesan aliran yang mendukung komputasi stateful atas aliran data real-time dan data batch. Dalam istilah sederhana: Flink adalah mesin komputasi untuk memproses data real-time. Flink menangani aliran data kontinu seperti klik website, data sensor Internet of Things, dan transaksi saham. Flink menyediakan latensi rendah, throughput tinggi, dan semantik tepat-sekali (exactly-once semantics). Flink mendukung baik pemrosesan aliran maupun pemrosesan batch. |
Pernyataan Uji
Contoh SQL berikut membuat model Qwen-Plus dan menggunakan AI_SUMMARIZE untuk merangkum data masukan.
CREATE TEMPORARY MODEL general_model
INPUT (`input` STRING)
OUTPUT (`content` VARIANT)
WITH (
'provider' = 'openai-compat',
'endpoint'='<YOUR ENDPOINT>',
'apiKey' = '<YOUR KEY>',
'model' = 'qwen-plus'
);
CREATE TEMPORARY VIEW infos(id, description)
AS VALUES (1, '
What is Flink?
Apache Flink is an open source distributed stream processing framework for stateful computation over real-time data streams and batch data.
In simple terms:
Flink is a compute engine for processing real-time data.
It handles continuous data streams such as website clicks, Internet of Things sensor data, and stock trades.
It provides low latency, high throughput, and exactly-once semantics.
It supports both stream processing and batch processing.
');
-- Gunakan argumen posisional untuk memanggil AI_SUMMARIZE
SELECT id, summary
FROM infos, LATERAL TABLE(
AI_SUMMARIZE(MODEL general_model, description, 10));
-- Gunakan argumen bernama untuk memanggil AI_SUMMARIZE
SELECT id, summary
FROM infos, LATERAL TABLE(
AI_SUMMARIZE(
MODEL => MODEL general_model,
INPUT => description,
MAX_LENGTH => 10));Hasil Output
id | summary |
1 | Real-time stream processing engine |