Web サイトインポートタスクを作成します。
URL
POST /v4/openapi/app-groups/[appGroupIdentity]/chatos/spiders
[app_group_identity] は、アクセスする OpenSearch インスタンスを指定します。サービス中のインスタンスにアクセスするには、インスタンス名を指定できます。
サンプル URL には、リクエストヘッダーやエンコーディング方式などの情報は含まれていません。
サンプル URL には、OpenSearch インスタンスへの接続に使用するエンドポイントも含まれていません。
プロトコル
HTTP
HTTP リクエストメソッド
POST
サポートされている形式
JSON
リクエストパラメーター
パラメーター | タイプ | 必須 | 説明 |
url | STRING | はい | Web サイトの URL。URL は OpenSearch インスタンス内で一意である必要があります。 |
category | STRING | はい | Web サイトからインポートするデータのカテゴリ。このパラメーターの値は、メインテーブルの category フィールドの値と一致しています。カテゴリは OpenSearch インスタンス内で一意である必要があります。 |
urlRegex | List<STRING> | いいえ | Web ページの URL をフィルタリングするための URL フィルタ条件として使用される正規表現。複数のフィルタ条件がサポートされています。 デフォルトの URL フィルタ条件は、アクセスする Web サイトの URL で始まる URL です。たとえば、Web サイトの URL が http://www.abc.com/ の場合、デフォルトの正規表現は http://www\.abc\.com/.* です。 |
xpathSelectors | List<STRING> | いいえ | Web ページ上の指定されたコンテンツをクエリするために使用される XPath セレクター。複数の XPath セレクターがサポートされています。 たとえば、Web ページの div タグ内のコンテンツをクエリする場合、このパラメーターを //div に設定します。 |
cssSelectors | List<STRING> | いいえ | Web ページ上の指定されたコンテンツをクエリするために使用される CSS セレクター。複数の CSS セレクターがサポートされています。 たとえば、Web ページで <div class="content">Web ページのコンテンツ</div> 形式のコンテンツをクエリする場合、このパラメーターを div.content に設定します。 |
リクエストの例
{
"category": "OpenSearch ドキュメント"
"url": "http://xxx"
}
レスポンスパラメーター
パラメーター | タイプ | 説明 |
errors | LIST | エラーの詳細。 |
status | STRING | リクエストの実行結果。有効な値:OK および FAIL。OK の値は、リクエストが成功したことを示します。FAIL の値は、リクエストが失敗したことを示します。この場合、エラーコードに基づいてエラーをトラブルシューティングします。 |
request_id | STRING | リクエストの ID。 |
code | STRING | エラーコード。 |
message | STRING | エラーメッセージ。 |
latency | STRING | リクエストのレイテンシ。 |
レスポンスの例
{
"status" : "OK",
"requestId" : "",
"httpCode": 200,
"code": "",
"message": "",
"latency" : 123
}
使用上の注意
Web サイトインポートタスクは、指定された URL の Web サイトからコンテンツをクロールします。デフォルトでは、URL が指定された URL で始まる Web ページが含まれます。
Web サイトの URL が有効であるが、Web サイトの robots.txt ファイルがクロール機能をサポートしていない場合は、エラーが返されます。
OpenSearch インスタンスには、実行中の Web サイトインポートタスクは 1 つだけ存在できます。