全部產品
Search
文件中心

OpenSearch:新增網站匯入任務

更新時間:Jun 11, 2025

新增網站任務。

URL

POST /v4/openapi/app-groups/[appGroupIdentity]/chatos/spiders
  • [app_group_identity]:表示應用程式名稱(需要指定應用程式名稱訪問,主要針對服務中的應用版本)。

  • 以上 URL 省略了請求Header參數及編碼等因素。

  • 以上 URL 中省略了訪問應用的 host 地址。

請求協議

HTTP

HTTP請求方式

POST

支援格式

JSON

請求參數

參數

類型

必須

描述

url

String

網站連結:一個應用下url不能重複。

category

String

類目:該欄位會放到主表的category欄位,用於區分不同的網站匯入資料。一個應用下面category不能重複。

urlRegex

List<String>

url過濾:用於網頁url過濾,基於Regex,支援多個過濾條件。

預設的URL過濾規則為以url的開頭的網站地址。比如網站url為http://www.abc.com/,則預設Regex為:http://www\.abc\.com/.*

xpathSelectors

List<String>

xpath選取器:用於精準擷取網頁內容,基於Xpath選取器,支援多個配置。

比如要精確擷取div標籤下的內容,該項設為://div

cssSelectors

List<String>

css選取器:用於精準擷取網頁內容,基於CSS選取器,支援多個配置。

比如要精確擷取div標籤下class為content的內容,<div class="content">網頁內容</div>

該項設為:div.content

請求體樣本:

{ 
 "category": "opensearch產品文檔"
 "url": "http://xxx"
}

返回結果

參數

類型

描述

errors

List

錯誤內容。

status

String

status:執行結果,OK為成功,FAIL為失敗,請根據返回錯誤碼進行排查。

request_id

String

當前請求ID。

code

String

錯誤碼。

message

String

錯誤資訊。

latency

String

延遲時間。

響應體樣本:

{
 "status" : "OK",
 "requestId" : "",
 "httpCode": 200,
 "code": "",
 "message": "",
 "latency" : 123
 
}

注意事項

  • 爬取指定url後面所有的網頁內容(預設是該網頁開頭部分的連結,非該網站連結忽略)。

  • 如果網站robots.txt不允許爬取內容,則返回報錯如果網站地址已經存在。

  • 一個應用只能有一個running的爬蟲任務。