大模型應用需要訪問即時資料和企業知識才能準確回答問題。LangStudio 提供多種資料檢索節點,支援從知識庫、互連網和外部 API 擷取資料,為大模型提供所需的上下文資訊。
知識庫檢索(Index Lookup)
從知識庫中檢索與使用者問題相關的常值內容,以便將其用作下遊LLM節點的上下文。
輸入(Input)
-
知識庫索引名稱:選擇在LangStudio上登入可用的知識庫,詳情請參見知識庫管理員。
-
檢索關鍵詞:選擇希望在知識庫中檢索的關鍵資訊,需要引用上遊節點的輸出參數,格式為String。
-
Top K:知識庫索引檢索時,系統返回的與檢索關鍵詞最相關的前K項結果。
輸出(Output)
檢索輸出變數result, 類型為List[Dict],其中Dict的Key包含以下欄位:
|
Key |
說明 |
|
content |
檢索到的文檔分區內容。 |
|
score |
文檔分區與查詢的相似性得分,得分越高相關性越強。 |
以下為輸出樣本,表示返回結果包含得分最高的top_k條記錄:
[
{
"score": 0.8057173490524292,
"content": "受疫情帶來的不確定性影響,xx銀行根據經濟走勢及中國或中國內地環境預判,主動\n加大了貸款和墊款、非信貸資產減值損失的計提力度,加大\n不良資產核銷處置力度,提升撥備覆蓋率,2020 年實現淨利\n潤289.28億元,同比增長 2.6%,盈利能力逐步改善。\n(人民幣百萬元) 2020年 2019年 變動(%)\n經營成果與盈利\n營業收入 153,542 137,958 11.3\n減值損失前營業利潤 107,327 95,816 12.0\n淨利潤 28,928 28,195 2.6\n成本收入比(1)(%) 29.11 29.61下降 0.50個\n百分點\n平均總資產收益率 (%) 0.69 0.77下降 0.08個\n百分點\n加權平均淨資產收益率 (%) 9.58 11.30下降 1.72個\n百分點\n淨息差(2)(%) 2.53 2.62下降 0.09個\n百分點\n註: (1) 成本收入比 =業務及管理費/營業收入。",
"id": "49f04c4cb1d48cbad130647bd0d75f***1cf07c4aeb7a5d9a1f3bda950a6b86e",
"metadata": {
"page_label": "40",
"file_name": "2021-02-04_中國xx保險集團股份有限公司_xx_中國xx_2020年__年度報告.pdf",
"file_path": "oss://my-bucket-name/datasets/chatglm-fintech/2021-02-04__中國xx保險集團股份有限公司__601318__中國xx__2020年__年度報告.pdf",
"file_type": "application/pdf",
"file_size": 7982999,
"creation_date": "2024-10-10",
"last_modified_date": "2024-10-10"
}
},
{
"score": 0.7708036303520203,
"content": "72億元,同比增長 5.2%。\n2020年\n(人民幣百萬元)壽險及\n健康險業務財產保險\n業務 銀行業務 信託業務 證券業務其他資產\n管理業務 科技業務其他業務\n及合并抵消 集團合并\n歸屬於母公司股東的淨利潤 95,018 16,083 16,766 2,476 2,959 5,737 7,936 (3,876) 143,099\n少數股東損益 1,054 76 12,162 3 143 974 1,567 281 16,260\n淨利潤 (A) 96,072 16,159 28,928 2,479 3,102 6,711 9,503 (3,595) 159,359\n剔除專案 :\n 短期投資波動(1)(B) 10,308 – – – – – – – 10,308\n 折現率變動影響 (C) (7,902) – – – – – – – (7,902)\n 管 理層認為不屬於 \n日常營運收支而剔除的 \n一次性重大專案及其他 (D) – – – – – – 1,282 – 1,282\n營運利潤 (E=A-B-C-D) 93,666 16,159 28,928 2,479 3,102 6,711 8,221 (3,595) 155,670\n歸屬於母公司股東的營運利潤 92,672 16,",
"id": "8066c16048bd722d030a85ee8b1***36d5f31624b28f1c0c15943855c5ae5c9f",
"metadata": {
"page_label": "19",
"file_name": "2021-02-04_中國xx保險集團股份有限公司_xxx_中國xx__2020年__年度報告.pdf",
"file_path": "oss://my-bucket-name/datasets/chatglm-fintech/2021-02-04__中國xx保險集團股份有限公司__601318__中國xx__2020年__年度報告.pdf",
"file_type": "application/pdf",
"file_size": 7982999,
"creation_date": "2024-10-10",
"last_modified_date": "2024-10-10"
}
}
]
使用案例
阿里雲IQS-連網搜尋(IQS-GenericSearch)
使用阿里雲資訊查詢服務(IQS)進行連網搜尋,對指定的查詢語句進行即時檢索,擷取互連網上的最新資訊,支援時間範圍篩選。通過連網資料可以增強AI應用回答的準確性和時效性。
輸出變數 output 類型為 Array<Object>,包含欄位:title(String)、link(String)、summary(String)、content(String)、markdown_text(String)、score(Number)、publish_time(Integer)、host_logo(String)、hostname(String)、site_label(String)、scene_items(Array<Object>)。
輸入(Input)
-
搜尋關鍵詞:選擇希望進行連網搜尋的關鍵資訊。長度必須在2到100個字元之間,若超過100個字元,將被截斷至100個字元;若少於2個字元,則會引發錯誤。
-
時間範圍:選擇搜尋資料的時間範圍,支援選擇NoLimit、OneDay、OneWeek、OneMonth和OneYear。
-
IQS串連:配置方式取決於運行時或部署服務時的執行個體RAM角色設定,推薦使用RAM角色鑒權方式(資料更安全)。
-
使用RAM角色鑒權(推薦)
-
適用情境:執行個體RAM角色選擇自訂角色,且該角色已配置AliyunIQSFullAccess權限原則。
-
配置方式:無需配置IQS串連,系統將自動通過RAM角色進行鑒權。
-
安全性:在VPC環境下通過RAM鑒權,不經公網,資料更加安全。
-
-
使用API Key鑒權(不推薦)
-
適用情境:執行個體RAM角色選擇PAI預設角色,或未配置有許可權的自訂角色。
-
配置方式:需要配置IQS串連。請參見服務串連配置-自訂串連,將鍵配置為
api_key,值可通過資訊查詢服務-憑證管理擷取。 -
安全性:通過API Key經公網訪問,資料安全性相對較低。
-
-
輸出(Output)
-
output:連網搜尋輸出變數output, 類型為List[Dict],其中Dict的Key包含以下欄位:
Key
說明
title
搜尋結果的標題,概括內容主題。
link
搜尋結果的 URL,可訪問完整內容。
summary
搜尋結果的摘要,簡要介紹核心資訊。
content
搜尋結果的完整內容。
markdown_text
Markdown 格式的搜尋內容,可能為空白。
score
搜尋結果的相關性評分,評分越高相關性越強。
publish_time
內容的發布時間。
host_logo
來源網站的標誌表徵圖 URL。
hostname
來源網站的主機名稱或網域名稱。
site_label
來源網站的標籤或分類。
-
scene_items:增強搜尋結果的輔助資訊。通常為空白,僅在特定情境(如時間、天氣、日曆等)時返回補充資訊。
使用案例
SerpAPI-連網搜尋(SerpAPI-GenericSearch)
使用SerpApi進行網路搜尋,支援多個搜尋引擎(如Bing、Google、Baidu、Yahoo以及自訂),可配置搜尋位置和結果數量。
輸入(Input)
-
SerpApi串連:選擇在LangStudio上已建立的SerpApi串連,詳情請參見建立SerpApi串連。
-
搜尋關鍵詞:選擇希望進行網路搜尋的關鍵資訊,需要引用上遊節點的輸出參數,格式為String。
-
搜尋引擎:支援bing、google、baidu和yahoo搜尋,也支援自訂的輸入。
-
位置:搜尋所在位置。如需使用,建議具體到城市,如
Shanghai, China。 -
搜尋結果數量:返回的查詢結果數量。
輸出(Output)
連網搜尋輸出變數output, 類型為List[Dict],其中Dict的Key包含以下欄位:
|
Key |
說明 |
|
title |
搜尋結果的標題,通常是網頁或文檔的標題,簡要概括了內容的主題。 |
|
link |
搜尋結果的連結,即URL。使用者可以通過這個連結訪問完整的內容。 |
|
summary |
搜尋結果的摘要,通常是對內容的簡要介紹或概括,協助使用者快速瞭解內容的核心資訊。 |
使用案例
HTTP請求
通過 HTTP 要求工具,可以便捷地調用外部 API 介面,支援多種 HTTP 方法、認證方式和請求體格式,滿足各類整合需求。
輸入
-
要求方法:HTTP 要求方法,支援GET、POST、PUT、PATCH、DELETE、HEAD、OPTIONS。
-
URL:請求的目標地址。
-
要求標頭:自訂 HTTP 要求頭。每行為一個header,填入對應的索引值。
-
請求參數:查詢字串參數。每行一個參數,填入對應的索引值。
-
鑒權:預設關閉,即不進行鑒權;開啟後可選擇標準認證方式(Bearer 或 Basic)。
-
Bearer:使用 Bearer Token 認證,填入時無需添加
Bearer首碼 -
Basic:使用基礎認證,輸入使用者名稱和密碼,系統將自動轉換為 Base 64 編碼的憑證
-
如需自訂認證方式,請手動設定要求標頭
-
-
請求體:支援以下請求體格式。
-
none:無請求體
-
JSON:發送JSON格式資料
-
form-data:發送multipart/form-data格式資料,支援檔案上傳
-
x-www-form-urlencoded:發送URL編碼的表單資料
-
raw-text:發送純文字資料
-
binary:發送二進位檔案資料,支援檔案上傳
-
-
SSL驗證:預設開啟,選擇是否驗證伺服器SSL認證,生產環境建議保持開啟。
-
逾時時間:請求逾時時間,範圍1-600秒,預設10秒。
-
重試配置:預設關閉,選擇是否在請求失敗時自動重試。
-
最大重試次數:最多重試次數,範圍0-10次
-
稍候再試:兩次重試之間的間隔時間,範圍100-10000毫秒
-
輸出
-
body:響應常值內容。當響應為檔案時,此欄位為空白字串。
-
status_code:HTTP響應狀態代碼,如200、404、500等。
-
headers:HTTP回應標頭,以索引值對形式返回。
-
file:檔案對象(當響應為檔案時)。