PolarSearch - PolarDB - Alibaba Cloud ドキュメントセンター

PolarSearch は、PolarDB が提供する高性能の分散データ検索および分析エンジンです。OpenSearch をベースに開発されており、Elasticsearch および OpenSearch エコシステムと互換性があります。API または SDK を介して、テキストドキュメント、画像の特徴、ログなどのマルチモーダルデータのミリ秒レベルのフルテキスト検索、ベクトル検索、およびインテリジェント分析が可能です。PolarDB から他のデータ検索プラットフォームに手動でデータを同期する必要はありません。

説明

この機能はグレースケールリリース中です。この機能を使用するには、チケットを送信して有効化してください。

PolarSearch では、以下を実行できます。

フルテキスト検索

curl -X GET "http://<endpoint>:<port>/articles/_search" -H "Content-Type:application/json" -d '
{
  "query": {
    "match": {
      "content": "PolarSearch"
    }
  }
}'

ベクトル検索

curl -X GET "http://<endpoint>:<port>/my-vector-index/_search" -H "Content-Type:application/json" -d '
{
  "size": 2,
  "query": {
    "knn": {
      "vector_field": {
        "vector": [0.1, 0.5, -0.3, 0.8],
        "k": 2
      }
    }
  }
}'

技術アーキテクチャ

PolarSearch は、PolarStore が提供する共有分散ストレージとクラウドネイティブのコンピューティングストレージ分離アーキテクチャを活用しています。独自開発のインテリジェント検索エンジンと分散コンピューティングフレームワークを統合し、Elasticsearch DSL 構文プロトコルと互換性があります。PolarSearch は、ペタバイト規模の異種データのストレージ、分析、およびマルチモーダルリアルタイム検索に使用できます。データの価値を解き放つために、高並列性と高可用性のデータ検索サービスを迅速に確立するのに役立ちます。

メリット

効率の向上: MySQL から検索エンジンへのデータ同期パイプラインを手動で構築する必要がなくなります。取得 ワークロード の処理時間を分単位からミリ秒単位に短縮し、開発サイクルを 50% 短縮します。
コストの最適化: 複数のエンジンとシステムを伴う従来の「データベース + ファイルストレージ + コンピュートエンジン」アーキテクチャに代わる選択肢を提供します。多階層の分散共有ストレージである PFS を利用することで、TCO を 40% 削減します。
ビジネスイノベーション: 非構造化データのストレージとマイニング、および AI ベクター取得機能を活用して、インテリジェントな推奨、RAG ナレッジベース、エージェントメモリベースなどの AI インフラストラクチャを構築します。

ユースケース

E コマースコンテンツプラットフォームおよび SaaS サービス

商品タイトルと製品ページのあいまい検索、セマンティックマッチング、パーソナライズされたレコメンデーション。
ユーザーコメントおよび UGC (ユーザー生成コンテンツ) のキーワードとセンチメントマイニングのリアルタイム分析。

エンタープライズ RAG ナレッジベースとドキュメント管理

PDF や Word などのさまざまな形式のドキュメントのフルテキストインデックス作成と検索。
画像検索のための画像特徴のベクトル化ストレージ。

エージェントメモリベースとエージェントデータ管理

現在の会話のコンテキスト、セッションコンテキスト情報、一時変数などの要素の短期記憶。
ユーザープリファレンス、履歴クエリコンテンツ、LLM パラメーターなどの長期インタラクションデータを保存する長期記憶。

ログ分析とサービス監視

ペタバイト規模のログデータのリアルタイム検索、統計の集計、異常アラート。
多次元ログフィールドの関連分析と視覚化されたレポート。

モノのインターネットとリアルタイム IoT データストリーム

IoT デバイスからの時系列データへの大規模な同時書き込みと迅速な検索。
センサーデータストリームの動的集計と複数条件フィルタリング。

主な機能

高可用性とスケーラビリティ

分散アーキテクチャにより、単一ノード障害発生時の自動負荷分散とシームレスなスイッチオーバーが保証され、99.99% のサービス可用性を実現します。
オンラインスケーリングがサポートされています。ストレージと計算リソースは、数億のデータを処理するために必要に応じて拡張されます。

インテリジェント検索エンジン

プライマリノードの InnoDB プライマリテーブルデータの反転セカンダリインデックスの作成をサポートし、トランザクションレベルの可視性を提供します。
オプティマイザーによって識別され、検索のために検索ノードに自動的にルーティングされる InnoDB プライマリテーブルデータに対するフルテキストインデックスクエリをサポートします。
テキストセグメンテーション、セマンティックベクトル化、数値範囲で構成される多次元混合インデックスをサポートし、クエリのパフォーマンスを 10 倍以上向上させます。
組み込みの中国語 NLP 拡張モデルを提供し、同義語拡張、ピンイン修正、意図認識などの高度な機能を実現します。

マルチモーダルデータフュージョン

スカラーフォワードインデックス、フルテキスト反転インデックス、ベクトルインデックスなど、さまざまなデータ型の統合ストレージとマルチチャンネルフュージョン検索をサポートします。
画像やドキュメントなど、大量の異種非構造化データのストレージ、検索、およびコンテンツ解析拡張機能を提供します。

リアルタイム検索と集計分析

書き込み後数百ミリ秒以内にデータを取得できます。複雑な条件フィルタリング、バケット統計、Top K ソートなどの操作がサポートされています。
時系列データのローリングウィンドウ計算とジオフェンス識別シナリオ用のシナリオベースの関数が組み込まれています。