すべてのプロダクト
Search
ドキュメントセンター

OpenSearch:CreateSpider

最終更新日:Jun 12, 2025

Web サイトインポートタスクを作成します。

URL

POST /v4/openapi/app-groups/[appGroupIdentity]/chatos/spiders
  • [app_group_identity] は、アクセスする OpenSearch インスタンスを指定します。サービス中のインスタンスにアクセスするには、インスタンス名を指定できます。

  • サンプル URL には、リクエストヘッダーやエンコーディング方式などの情報は含まれていません。

  • サンプル URL には、OpenSearch インスタンスへの接続に使用するエンドポイントも含まれていません。

プロトコル

HTTP

HTTP リクエストメソッド

POST

サポートされている形式

JSON

リクエストパラメーター

パラメーター

タイプ

必須

説明

url

STRING

はい

Web サイトの URL。URL は OpenSearch インスタンス内で一意である必要があります。

category

STRING

はい

Web サイトからインポートするデータのカテゴリ。このパラメーターの値は、メインテーブルの category フィールドの値と一致しています。カテゴリは OpenSearch インスタンス内で一意である必要があります。

urlRegex

List<STRING>

いいえ

Web ページの URL をフィルタリングするための URL フィルタ条件として使用される正規表現。複数のフィルタ条件がサポートされています。

デフォルトの URL フィルタ条件は、アクセスする Web サイトの URL で始まる URL です。たとえば、Web サイトの URL が http://www.abc.com/ の場合、デフォルトの正規表現は http://www\.abc\.com/.* です。

xpathSelectors

List<STRING>

いいえ

Web ページ上の指定されたコンテンツをクエリするために使用される XPath セレクター。複数の XPath セレクターがサポートされています。

たとえば、Web ページの div タグ内のコンテンツをクエリする場合、このパラメーターを //div に設定します。

cssSelectors

List<STRING>

いいえ

Web ページ上の指定されたコンテンツをクエリするために使用される CSS セレクター。複数の CSS セレクターがサポートされています。

たとえば、Web ページで <div class="content">Web ページのコンテンツ</div> 形式のコンテンツをクエリする場合、このパラメーターを div.content に設定します。

リクエストの例

{ 
 "category": "OpenSearch ドキュメント"
 "url": "http://xxx"
}

レスポンスパラメーター

パラメーター

タイプ

説明

errors

LIST

エラーの詳細。

status

STRING

リクエストの実行結果。有効な値:OK および FAIL。OK の値は、リクエストが成功したことを示します。FAIL の値は、リクエストが失敗したことを示します。この場合、エラーコードに基づいてエラーをトラブルシューティングします。

request_id

STRING

リクエストの ID。

code

STRING

エラーコード。

message

STRING

エラーメッセージ。

latency

STRING

リクエストのレイテンシ。

レスポンスの例

{
 "status" : "OK",
 "requestId" : "",
 "httpCode": 200,
 "code": "",
 "message": "",
 "latency" : 123
 
}

使用上の注意

  • Web サイトインポートタスクは、指定された URL の Web サイトからコンテンツをクロールします。デフォルトでは、URL が指定された URL で始まる Web ページが含まれます。

  • Web サイトの URL が有効であるが、Web サイトの robots.txt ファイルがクロール機能をサポートしていない場合は、エラーが返されます。

  • OpenSearch インスタンスには、実行中の Web サイトインポートタスクは 1 つだけ存在できます。