建立一個非結構化知識庫,並將一個或多個已解析的文檔匯入該知識庫。不支援通過API建立結構化知識庫,請通過控制台建立。
介面說明
RAM 使用者(子帳號)需要首先擷取阿里雲百鍊的 API 許可權(需要
AliyunBailianDataFullAccess,已包括 sfm:CreateIndex 許可權點),並加入一個業務空間後,方可調用本介面。阿里雲帳號(主帳號)可直接調用無須授權。建議您通過最新版阿里雲百鍊 SDK來調用本介面。您必須預先將您的原始文檔上傳至阿里雲百鍊的應用資料並獲得相應的
FileId,以作為建立知識庫時的初始知識來源。可以調用 AddFile 介面上傳。具體操作請參考知識庫 API 指南。本介面僅初始化知識庫建立作業,接下來還需要再調用 SubmitIndexJob 介面以完成建立(否則,您將得到一個空的知識庫)。
本介面不具備等冪性。
限流說明: 本介面頻繁調用會被限流,頻率請勿超過 10 次/秒。如遇限流,請稍後重試。
調試
您可以在OpenAPI Explorer中直接運行該介面,免去您計算簽名的困擾。運行成功後,OpenAPI Explorer可以自動產生SDK程式碼範例。
調試
授權資訊
|
操作 |
存取層級 |
資源類型 |
條件關鍵字 |
關聯操作 |
|
sfm:CreateIndex |
create |
*全部資源
|
無 | 無 |
請求文法
POST /{WorkspaceId}/index/create HTTP/1.1
請求參數
|
名稱 |
類型 |
必填 |
描述 |
樣本值 |
| WorkspaceId |
string |
是 |
業務空間 ID,即知識庫將在該業務空間中建立。擷取方式請參見如何使用業務空間。 |
llm-3z7uw7fwz0vexxxx |
| Name |
string |
是 |
知識庫的名稱。長度為 1~20 個字元,支援 Unicode 中 letter 分類下的字元(其中包括英文、中文和數字等)。可以包含半形冒號(:)、底線(_)、半形句號(.)或者短劃線(-)。 |
企業協助文件庫 |
| StructureType |
string |
是 |
知識庫的資料類型。更多資訊,請參見知識庫。取值範圍:
說明
請注意,知識庫建立後將無法更改其資料類型,且管理結構化文檔的知識庫暫不支援通過 API 進行建立,請通過控制台建立此類知識庫。 |
unstructured |
| EmbeddingModelName |
string |
否 |
預設值為空白,採用 text-embedding-v2 模型。 |
text-embedding-v2 |
| RerankModelName |
string |
否 |
Rank 模型名稱。Rank 模型是一種位於知識庫外部的評分系統,它會計算使用者問題與知識庫中每個文本切片的相似性分數並按此降序排列,並返回分數最高的前 K 個文本切片。更多資訊,請參見知識庫。取值範圍:
預設值為空白,採用 gte-rerank-hybrid,即官方排序。 說明
如只需語義排序,建議您使用 gte-rerank 排序;若同時需要語義排序和文本匹配特徵以確保相關性,則建議您採用官方排序。 |
gte-rerank-hybrid |
| RerankMinScore |
number |
否 |
相似性閾值。該閾值表示允許召回的文本切片的最低相似性分數,用於篩選 Rank 模型返回的文本切片,即只有分數超過此數值的文本切片才會被召回。更多資訊,請參見知識庫。取值範圍[0.01-1.00]。 預設值為 0.20。 |
0.20 |
| ChunkSize |
integer |
否 |
分段長度,即您希望每個文本切片的字元數上限。超過該長度時,文本很可能會被截斷。 取值範圍[1-6000]。如果未傳入本參數,將使用預設值 500。 更多資訊,請參見知識庫。 說明
請注意,如果您指定了 |
128 |
| OverlapSize |
integer |
否 |
分段重疊長度。它表示當前文本切片與上一個文本切片的重疊字元數。更多資訊,請參見知識庫。取值範圍[0-1024]。 如果未傳入本參數,將使用預設值 100。 說明
請注意, |
16 |
| Separator |
string |
否 |
說明
該參數暫不開放,請勿傳入。 |
(?<=。) |
| SourceType |
string |
否 |
說明
如果本參數傳入 DATA_CENTER_CATEGORY,則必須指定 說明
要建立空知識庫,可以使用不含檔案的空類目。本參數傳入 DATA_CENTER_CATEGORY, |
DATA_CENTER_FILE |
| DocumentIds |
array |
否 |
匯入知識庫的文檔 ID 列表。 |
|
|
string |
否 |
文檔 ID,即 AddFile 介面返回的 |
file_9a65732555b54d5ea10796ca5742ba22_xxxxxxxx |
|
| CategoryIds |
array |
否 |
匯入知識庫的類目 ID 列表。 |
|
|
string |
否 |
類目 ID,即 AddCategory 介面返回的 |
ca_hiu2383nfxxxx |
|
| TableIds |
array |
否 |
||
|
string |
否 |
|||
| DataSource |
object |
否 |
說明
該參數暫不開放,請勿傳入。 |
|
| CredentialId |
string |
否 |
說明
該參數暫不開放,請勿傳入。 |
|
| CredentialKey |
string |
否 |
說明
該參數暫不開放,請勿傳入。 |
|
| Database |
string |
否 |
說明
該參數暫不開放,請勿傳入。 |
|
| Endpoint |
string |
否 |
說明
該參數暫不開放,請勿傳入。 |
|
| IsPrivateLink |
boolean |
否 |
說明
該參數暫不開放,請勿傳入。 |
|
| Region |
string |
否 |
說明
該參數暫不開放,請勿傳入。 |
|
| SubPath |
string |
否 |
說明
該參數暫不開放,請勿傳入。 |
|
| SubType |
string |
否 |
說明
該參數暫不開放,請勿傳入。 |
|
| Table |
string |
否 |
說明
該參數暫不開放,請勿傳入。 |
|
| Type |
string |
否 |
說明
該參數暫不開放,請勿傳入。 |
|
| SinkType |
string |
是 |
知識庫的向量儲存類型。更多資訊,請參見知識庫。取值範圍:
說明
若您尚未在阿里雲百鍊上使用過 ADB 儲存,可前往建立知識庫頁面選擇向量儲存類型為 ADB-PG,並按介面提示完成授權。如果您傳入了 ADB,則必須指定 |
BUILT_IN |
| SinkInstanceId |
string |
否 |
知識庫的向量儲存的執行個體 ID(僅在向量儲存類型是 ADB 時傳入)。您可以前往AnalyticDB for PostgreSQL 資料執行個體列表頁面擷取此 ID。 |
gp-bp32109xxxx |
| SinkRegion |
string |
否 |
知識庫的向量儲存的執行個體地區(僅在向量儲存類型是 ADB 時傳入)。您可以調用 DescribeRegions 查看最新的阿里雲地區列表。 |
cn-hangzhou |
| Columns |
array<object> |
否 |
說明
該參數暫不開放,請勿傳入。 |
|
|
object |
否 |
|||
| Column |
string |
否 |
說明
該參數暫不開放,請勿傳入。 |
school |
| IsRecall |
boolean |
否 |
說明
該參數暫不開放,請勿傳入。 |
true |
| IsSearch |
boolean |
否 |
說明
該參數暫不開放,請勿傳入。 |
true |
| Name |
string |
否 |
說明
該參數暫不開放,請勿傳入。 |
學校 |
| Type |
string |
否 |
說明
該參數暫不開放,請勿傳入。 |
string |
| Description |
string |
否 |
知識庫描述。長度為 0~1000 個英文或中文字元。 預設值為空白。 |
企業協助文件庫包括了公司制度、產品清單等重要資料。 |
| metaExtractColumns |
array<object> |
否 |
中繼資料。中繼資料是與非結構化文檔內容相關的一系列附加屬性,這些屬性以 key-value 索引值對的形式整合到文本切片中。更多資訊,請參見知識庫。 |
|
|
object |
否 |
|||
| Key |
string |
否 |
中繼資料欄位,長度為 1~50 個字元,必須為英文或底線。如果指定本參數,則必須指定 |
author |
| Value |
string |
否 |
中繼資料欄位的值。 |
Tim |
| Type |
string |
否 |
中繼資料欄位的取值方法。取值範圍:
|
constant |
| Desc |
string |
否 |
中繼資料欄位的中文描述。長度為 0~1000 個字元,支援 Unicode 中 letter 分類下的字元(其中包括英文、中文和數字等)。可以包含半形冒號(:)、底線(_)、半形句號(.)或者短劃線(-)。 預設值為空白。 |
作者名 |
| EnableLlm |
boolean |
否 |
開啟後表示該中繼資料欄位和值將和文本切片的內容一起共同參與大模型的回答產生過程。取值範圍:
預設值為 false,即不開啟。 |
false |
| EnableSearch |
boolean |
否 |
開啟後表示該中繼資料欄位和值將和文本切片的內容一起共同參與知識庫檢索。取值範圍:
預設值為 false,即不開啟。 |
false |
| enableHeaders |
boolean |
否 |
非結構化知識庫中 Excel 文檔表頭是否支援拼裝。開啟後,知識庫會將所有 xlsx、xls 格式文檔的首行資料視為表頭,並自動拼接到每個文本切片中(資料行),避免大模型誤將表頭視為普通資料行來處理。 說明
建議僅在匯入文件均為 xlsx、xls 格式且含表頭時開啟,否則無需開啟。 取值範圍:
預設值為 false,即不開啟。 |
false |
| chunkMode |
string |
否 |
說明
該參數暫不開放,請勿傳入。 |
regex |
| EnableRewrite |
boolean |
否 |
是否開啟多輪會話改寫。更多資訊,請參見知識庫。取值範圍:
預設值為 false,即不開啟。 |
true |
| CreateIndexType |
string |
否 |
說明
該參數暫不開放,請勿傳入。 |
返回參數
|
名稱 |
類型 |
描述 |
樣本值 |
|
object |
Schema of Response |
||
| Code |
string |
錯誤狀態代碼。 |
Index.Forbidden |
| Data |
object |
介面業務資料欄位。 |
|
| Id |
string |
知識庫 ID,又稱 說明
請妥善保管該值,它將用於後續所有與此知識庫相關的 API 操作。 |
jkurxhxxxx |
| Message |
string |
錯誤資訊。 |
Invalid input, variable name is missing |
| RequestId |
string |
請求 ID。 |
17204B98-xxxx-4F9A--2446A84821CA |
| Status |
string |
介面返回的狀態代碼。 |
200 |
| Success |
boolean |
介面調用是否成功,可能值為:
|
true |
樣本
正常返回樣本
JSON格式
{
"Code": "Index.Forbidden",
"Data": {
"Id": "jkurxhxxxx"
},
"Message": "Invalid input, variable name is missing",
"RequestId": "17204B98-xxxx-4F9A--2446A84821CA",
"Status": "200",
"Success": true
}
錯誤碼
訪問錯誤中心查看更多錯誤碼。
變更歷史
更多資訊,參考變更詳情。