調用API進行文本分詞和向量化 - OpenSearch

描述：進行文本切分和切塊向量化

請求文法

POST /v3/openapi/apps/{app_group_identity}/actions/knowledge-split

注：app_group_identity表示應用程式名稱。

請求參數

SplitDoc
參數名	參數類型	描述	備忘
title	String	資料標題	選填
content	String	處理資料內容	必填
use_embedding	Boolean	是否需要向量化： true：是 false：否	不填則為false
model	String	需要使用的向量化模型	無

請求體樣本

{
  "title":"測試標題",
  "content":"測試文本",
  "use_embedding":true,
}

返回參數

響應名	響應類型	描述
chunks	List<ChunkContext>	切片後的文本資料對象

ChunkContext
響應名	響應類型	描述
chunk_id	String	切片id
chunk	String	切片後的文本資料
embedding	String	向量化後的向量
type	String	文本類型：文本類型：text，圖片類型：image
img_url	String	若是圖片類型資料，需要有圖片的url

響應體樣本

{
  "request_id":"111111111",
  "status":"OK";
  "errors":[],
  "result":[
  {
    "chunk_id":"1",
    "chunk":"測試切片文本1",
    "embedding":"-0.010441,-0.002826,-0.022911,0.000847,0.025610,0.019213,-0.019912,0.008210,0.011974,-0.010120,-0.003866,-0.008091,-0.006889,-0.034774,...-0.012572,0.009668,0.010963,-0.005273,-0.005072,-0.002190,-0.001554,-0.000058",
    "type":"text"
  },
  {
    "chunk_id":"2",
    "chunk":"測試切片文本2",
    "embedding":"-0.010441,-0.002826,-0.022911,0.000847,0.025610,0.019213,-0.019912,0.008210,0.011974,-0.010120,-0.003866,-0.008091,-0.006889,-0.034774,...-0.012572,0.009668,0.010963,-0.005273,-0.005072,-0.002190,-0.001554,-0.000058",
    "type":"image",
    "img_url":"http://127.0.0.1"
  },
  {
    "chunk_id":"3",
    "chunk":"測試切片文本3",
    "type":"text"
  }
]
}

說明

文本切片向量化後的向量維度為1536維。