在傳統的資料工作流程中,處理像使用者評論、產品描述、客服日誌等非結構化文本資料一直是一項挑戰。您現在可以直接在DataWorks的工作流程中,利用強大的大語言模型(LLM)能力,通過自然語言指令,輕鬆完成文本摘要、情感分析、內容分類、資訊提取等複雜的AI任務。這極大地簡化資料處理流程,讓資料工程師和分析師無需編寫複雜的演算法,即可將AI能力無縫整合到現有的ETL(資料幫浦、轉換、載入)鏈路中。
準備工作
在DataWorks中部署大模型服務,詳情請參見部署模型。
大模型節點配置
只需簡單配置即可實現大模型節點運行。
配置項 | 說明 |
模型服務 | 在準備工作中部署的大模型服務。 |
模型名稱 | 預設選擇大模型服務中的模型。 |
系統Prompt | 定義大模型的系統行為,包含角色、能力和管理辦法等。 支援通過${param}格式擷取參數。 |
使用者Prompt | 輸入具體問題或需求。DataWorks預設提供4種模板,可快速選擇。 支援通過${param}格式擷取參數。 例如,Prompt寫成:請挑選出符合 |
簡單樣本
通過一個簡單例子,示範大模型在工作流程中的使用以及上下遊參數傳遞。
登入DataWorks大模型服務,建立一個基於Qwen3-1.7B的大模型服務。資源群組,選擇已綁定到當前工作空間的資源群組。
進入新版資料開發,建立如下工作流程和相應節點。

配置賦值節點的語言模式為Shell(右下角工具列),並編寫如下代碼。
若找不到,可參見賦值節點的詳細說明。
echo 'DataWorks';配置大模型節點。
選擇上述配置好的大模型服務以及模型名稱。
配置使用者Prompt如下:
寫一篇關於${title}的介紹,字數限制為${length}。在右側配置面板的,修改資源群組為建立大模型服務時選中的資源群組。
在右側配置面板的,添加參數title為上遊節點的輸出和length為固定值300。
在參數值輸入框右側點擊
進行上遊參數的綁定。
配置MaxCompute SQL節點,輸出大模型結果。
重要配置MaxCompute SQL節點需要綁定MaxCompute計算資源。若無,可選擇Shell節點代替,僅示範輸出結果。
配置代碼如下:
select '${content}';在右側配置面板的,修改資源群組為建立大模型服務時選中的資源群組。
在右側,添加參數content為上遊節點的輸出。
在參數值輸入框右側點擊
進行上遊參數的綁定。
回到工作流程,點擊上方運行按鈕,在彈窗中填寫本次運行參數。
運行成功後,最終MaxCompute SQL節點輸出類似如下大語言模型結果。
DataWorks 是阿里雲推出的一款企業級資料開發與管理平台,支援資料擷取、清洗、整合、調度和可視化,適用於大規模資料處理情境。 它提供可視化開發介面,支援多種資料來源接入,具備強大的任務調度能力和資料品質監控功能。 DataWorks 支援即時資料流處理和批處理,可協助企業實現資料資產化管理,提升資料利用效率。 通過統一的資料開發流程,DataWorks 有助於構建高效、可靠的資料管道,支援企業級資料治理與智能化分析。