新增網站任務。
URL
POST /v4/openapi/app-groups/[appGroupIdentity]/chatos/spiders[app_group_identity]:表示應用程式名稱(需要指定應用程式名稱訪問,主要針對服務中的應用版本)。
以上 URL 省略了請求Header參數及編碼等因素。
以上 URL 中省略了訪問應用的 host 地址。
請求協議
HTTP
HTTP請求方式
POST
支援格式
JSON
請求參數
參數 | 類型 | 必須 | 描述 |
url | String | 是 | 網站連結:一個應用下url不能重複。 |
category | String | 是 | 類目:該欄位會放到主表的category欄位,用於區分不同的網站匯入資料。一個應用下面category不能重複。 |
urlRegex | List<String> | 否 | url過濾:用於網頁url過濾,基於Regex,支援多個過濾條件。 預設的URL過濾規則為以url的開頭的網站地址。比如網站url為 |
xpathSelectors | List<String> | 否 | xpath選取器:用於精準擷取網頁內容,基於Xpath選取器,支援多個配置。 比如要精確擷取div標籤下的內容,該項設為: |
cssSelectors | List<String> | 否 | css選取器:用於精準擷取網頁內容,基於CSS選取器,支援多個配置。 比如要精確擷取div標籤下class為content的內容,<div class="content">網頁內容</div> 該項設為: |
請求體樣本:
{
"category": "opensearch產品文檔"
"url": "http://xxx"
}返回結果
參數 | 類型 | 描述 |
errors | List | 錯誤內容。 |
status | String | status:執行結果,OK為成功,FAIL為失敗,請根據返回錯誤碼進行排查。 |
request_id | String | 當前請求ID。 |
code | String | 錯誤碼。 |
message | String | 錯誤資訊。 |
latency | String | 延遲時間。 |
響應體樣本:
{
"status" : "OK",
"requestId" : "",
"httpCode": 200,
"code": "",
"message": "",
"latency" : 123
}注意事項
爬取指定url後面所有的網頁內容(預設是該網頁開頭部分的連結,非該網站連結忽略)。
如果網站robots.txt不允許爬取內容,則返回報錯如果網站地址已經存在。
一個應用只能有一個running的爬蟲任務。