全部產品
Search
文件中心

:CreateIndex - 建立索引

更新時間:Aug 13, 2025

建立一個非結構化知識庫,並將一個或多個已解析的文檔匯入該知識庫。不支援通過API建立結構化知識庫,請通過控制台建立。

介面說明

  • RAM 使用者(子帳號)需要首先擷取阿里雲百鍊的 API 許可權(需要AliyunBailianDataFullAccess,已包括 sfm:CreateIndex 許可權點),並加入一個業務空間後,方可調用本介面。阿里雲帳號(主帳號)可直接調用無須授權。建議您通過最新版阿里雲百鍊 SDK來調用本介面。

  • 您必須預先將您的原始文檔上傳至阿里雲百鍊的應用資料並獲得相應的FileId,以作為建立知識庫時的初始知識來源。可以調用 AddFile 介面上傳。具體操作請參考知識庫 API 指南

  • 本介面僅初始化知識庫建立作業,接下來還需要再調用 SubmitIndexJob 介面以完成建立(否則,您將得到一個空的知識庫)。

  • 本介面不具備等冪性。

限流說明: 本介面頻繁調用會被限流,頻率請勿超過 10 次/秒。如遇限流,請稍後重試。

調試

您可以在OpenAPI Explorer中直接運行該介面,免去您計算簽名的困擾。運行成功後,OpenAPI Explorer可以自動產生SDK程式碼範例。

調試

授權資訊

下表是API對應的授權資訊,可以在RAM權限原則語句的Action元素中使用,用來給RAM使用者或RAM角色授予調用此API的許可權。具體說明如下:

  • 操作:是指具體的許可權點。

  • 存取層級:是指每個操作的存取層級,取值為寫入(Write)、讀取(Read)或列出(List)。

  • 資源類型:是指操作中支援授權的資源類型。具體說明如下:

    • 對於必選的資源類型,用前面加 * 表示。

    • 對於不支援資源級授權的操作,用全部資源表示。

  • 條件關鍵字:是指雲產品自身定義的條件關鍵字。

  • 關聯操作:是指成功執行操作所需要的其他許可權。操作者必須同時具備關聯操作的許可權,操作才能成功。

操作

存取層級

資源類型

條件關鍵字

關聯操作

sfm:CreateIndex

create

*全部資源

*

請求文法

POST /{WorkspaceId}/index/create HTTP/1.1

請求參數

名稱

類型

必填

描述

樣本值

WorkspaceId

string

業務空間 ID,即知識庫將在該業務空間中建立。擷取方式請參見如何使用業務空間

llm-3z7uw7fwz0vexxxx

Name

string

知識庫的名稱。長度為 1~20 個字元,支援 Unicode 中 letter 分類下的字元(其中包括英文、中文和數字等)。可以包含半形冒號(:)、底線(_)、半形句號(.)或者短劃線(-)。

企業協助文件庫

StructureType

string

知識庫的資料類型。更多資訊,請參見知識庫。取值範圍:

  • unstructured:非結構化。

說明

請注意,知識庫建立後將無法更改其資料類型,且管理結構化文檔的知識庫暫不支援通過 API 進行建立,請通過控制台建立此類知識庫。

unstructured

EmbeddingModelName

string

  • bedding 模型名稱。Embedding 模型用於將原始輸入 prompt 和知識文本轉化為數值化向量,以便對二者進行相似性比較。預設的 text-embedding-v2 模型(暫不支援更改)除了支援中英文雙語外,還支援多種語言,並對向量結果進行歸一化處理。更多資訊,請參見知識庫。取值範圍:

  • text-embedding-v2:text-embedding-v2 模型。

預設值為空白,採用 text-embedding-v2 模型。

text-embedding-v2

RerankModelName

string

Rank 模型名稱。Rank 模型是一種位於知識庫外部的評分系統,它會計算使用者問題與知識庫中每個文本切片的相似性分數並按此降序排列,並返回分數最高的前 K 個文本切片。更多資訊,請參見知識庫。取值範圍:

  • gte-rerank-hybrid:官方排序。

  • gte-rerank:gte-rerank 排序。

預設值為空白,採用 gte-rerank-hybrid,即官方排序。

說明

如只需語義排序,建議您使用 gte-rerank 排序;若同時需要語義排序和文本匹配特徵以確保相關性,則建議您採用官方排序。

gte-rerank-hybrid

RerankMinScore

number

相似性閾值。該閾值表示允許召回的文本切片的最低相似性分數,用於篩選 Rank 模型返回的文本切片,即只有分數超過此數值的文本切片才會被召回。更多資訊,請參見知識庫。取值範圍[0.01-1.00]。

預設值為 0.20。

0.20

ChunkSize

integer

分段長度,即您希望每個文本切片的字元數上限。超過該長度時,文本很可能會被截斷。

取值範圍[1-6000]。如果未傳入本參數,將使用預設值 500。

更多資訊,請參見知識庫

說明

請注意,如果您指定了ChunkSize參數且小於 100,則必須指定OverlapSize參數。您也可以不指定這 2 個參數(系統將採用預設值)。

128

OverlapSize

integer

分段重疊長度。它表示當前文本切片與上一個文本切片的重疊字元數。更多資訊,請參見知識庫。取值範圍[0-1024]。

如果未傳入本參數,將使用預設值 100。

說明

請注意,OverlapSize的值必須小於ChunkSize的值,否則會導致切分異常。

16

Separator

string

說明

該參數暫不開放,請勿傳入。

(?<=。)

SourceType

string

應用資料的資料類型。 更多資訊,請參見知識庫。取值範圍:

  • DATA_CENTER_CATEGORY:類目類型,即匯入應用資料中指定類目下的所有文檔,支援匯入多個類目。

  • DATA_CENTER_FILE:文件類型,即匯入應用資料下的指定文檔,支援匯入多個文檔。

說明

如果本參數傳入 DATA_CENTER_CATEGORY,則必須指定CategoryIds參數;如果本參數傳入 DATA_CENTER_FILE,則必須指定DocumentIds參數。

說明

要建立空知識庫,可以使用不含檔案的空類目。本參數傳入 DATA_CENTER_CATEGORY,CategoryIds則傳入空類目 ID。

DATA_CENTER_FILE

DocumentIds

array

匯入知識庫的文檔 ID 列表。

string

文檔 ID,即 AddFile 介面返回的FileId。您也可以在應用資料頁面,單擊檔案名稱旁的 ID 表徵圖擷取。

file_9a65732555b54d5ea10796ca5742ba22_xxxxxxxx

CategoryIds

array

匯入知識庫的類目 ID 列表。

string

類目 ID,即 AddCategory 介面返回的CategoryId。您也可以在應用資料頁面,單擊類目旁的表徵圖擷取。將指定類目 ID 下的文檔匯入知識庫。

ca_hiu2383nfxxxx

TableIds

array

string

DataSource

object

說明

該參數暫不開放,請勿傳入。

CredentialId

string

說明

該參數暫不開放,請勿傳入。

CredentialKey

string

說明

該參數暫不開放,請勿傳入。

Database

string

說明

該參數暫不開放,請勿傳入。

Endpoint

string

說明

該參數暫不開放,請勿傳入。

Region

string

說明

該參數暫不開放,請勿傳入。

SubPath

string

說明

該參數暫不開放,請勿傳入。

SubType

string

說明

該參數暫不開放,請勿傳入。

Table

string

說明

該參數暫不開放,請勿傳入。

Type

string

說明

該參數暫不開放,請勿傳入。

SinkType

string

知識庫的向量儲存類型。更多資訊,請參見知識庫。取值範圍:

  • BUILT_IN:內建的向量資料庫。

  • ADB:AnalyticDB for PostgreSQL 資料庫。如需進階功能,如管理、審計和監控資料庫,推薦選擇 ADB。

說明

若您尚未在阿里雲百鍊上使用過 ADB 儲存,可前往建立知識庫頁面選擇向量儲存類型為 ADB-PG,並按介面提示完成授權。如果您傳入了 ADB,則必須指定SinkInstanceIdSinkRegion參數。

BUILT_IN

SinkInstanceId

string

知識庫的向量儲存的執行個體 ID(僅在向量儲存類型是 ADB 時傳入)。您可以前往AnalyticDB for PostgreSQL 資料執行個體列表頁面擷取此 ID。

gp-bp32109xxxx

SinkRegion

string

知識庫的向量儲存的執行個體地區(僅在向量儲存類型是 ADB 時傳入)。您可以調用 DescribeRegions 查看最新的阿里雲地區列表。

cn-hangzhou

Columns

array<object>

說明

該參數暫不開放,請勿傳入。

object

Column

string

說明

該參數暫不開放,請勿傳入。

school

IsRecall

boolean

說明

該參數暫不開放,請勿傳入。

true

IsSearch

boolean

說明

該參數暫不開放,請勿傳入。

true

Name

string

說明

該參數暫不開放,請勿傳入。

學校

Type

string

說明

該參數暫不開放,請勿傳入。

string

Description

string

知識庫描述。長度為 0~1000 個英文或中文字元。 預設值為空白。

企業協助文件庫包括了公司制度、產品清單等重要資料。

metaExtractColumns

array<object>

中繼資料。中繼資料是與非結構化文檔內容相關的一系列附加屬性,這些屬性以 key-value 索引值對的形式整合到文本切片中。更多資訊,請參見知識庫

object

Key

string

中繼資料欄位,長度為 1~50 個字元,必須為英文或底線。如果指定本參數,則必須指定ValueType參數。

author

Value

string

中繼資料欄位的值。

Tim

Type

string

中繼資料欄位的取值方法。取值範圍:

  • constant:常量。

  • variable:變數。

  • custom_prompt:大模型。

  • regular:正則。

  • keywords:關鍵詞搜尋。

constant

Desc

string

中繼資料欄位的中文描述。長度為 0~1000 個字元,支援 Unicode 中 letter 分類下的字元(其中包括英文、中文和數字等)。可以包含半形冒號(:)、底線(_)、半形句號(.)或者短劃線(-)。 預設值為空白。

作者名

EnableLlm

boolean

開啟後表示該中繼資料欄位和值將和文本切片的內容一起共同參與大模型的回答產生過程。取值範圍:

  • true:開啟。

  • false:不開啟。

預設值為 false,即不開啟。

false

EnableSearch

boolean

開啟後表示該中繼資料欄位和值將和文本切片的內容一起共同參與知識庫檢索。取值範圍:

  • true:開啟。

  • false:不開啟。

預設值為 false,即不開啟。

false

enableHeaders

boolean

非結構化知識庫中 Excel 文檔表頭是否支援拼裝。開啟後,知識庫會將所有 xlsx、xls 格式文檔的首行資料視為表頭,並自動拼接到每個文本切片中(資料行),避免大模型誤將表頭視為普通資料行來處理。

說明

建議僅在匯入文件均為 xlsx、xls 格式且含表頭時開啟,否則無需開啟。

取值範圍:

  • true:開啟。

  • false:不開啟。

預設值為 false,即不開啟。

false

chunkMode

string

說明

該參數暫不開放,請勿傳入。

regex

EnableRewrite

boolean

是否開啟多輪會話改寫。更多資訊,請參見知識庫。取值範圍:

  • true:開啟。

  • false:不開啟。

預設值為 false,即不開啟。

true

CreateIndexType

string

說明

該參數暫不開放,請勿傳入。

返回參數

名稱

類型

描述

樣本值

object

Schema of Response

Code

string

錯誤狀態代碼。

Index.Forbidden

Data

object

介面業務資料欄位。

Id

string

知識庫 ID,又稱IndexId

說明

請妥善保管該值,它將用於後續所有與此知識庫相關的 API 操作。

jkurxhxxxx

Message

string

錯誤資訊。

Invalid input, variable name is missing

RequestId

string

請求 ID。

17204B98-xxxx-4F9A--2446A84821CA

Status

string

介面返回的狀態代碼。

200

Success

boolean

介面調用是否成功,可能值為:

  • true:成功。

  • false:失敗。

true

樣本

正常返回樣本

JSON格式

{
  "Code": "Index.Forbidden",
  "Data": {
    "Id": "jkurxhxxxx"
  },
  "Message": "Invalid input, variable name is missing",
  "RequestId": "17204B98-xxxx-4F9A--2446A84821CA",
  "Status": "200",
  "Success": true
}

錯誤碼

訪問錯誤中心查看更多錯誤碼。

變更歷史

更多資訊,參考變更詳情