インテリジェント検索 (PolarSearch) - PolarDB - Alibaba Cloud ドキュメントセンター

PolarSearch は、PolarDB が開発し、OpenSearch 上に構築された、パフォーマンス専有型の分散データ検索および分析エンジンです。Elasticsearch および OpenSearch のエコシステムと互換性があります。PolarDB から他の検索プラットフォームへ手動でデータを同期する必要はありません。代わりに、API または SDK を使用して、テキストドキュメント、画像特徴、ログなどのマルチモーダルデータに対して、ミリ秒レベルの全文検索、ベクトル検索、インテリジェント分析を実行できます。

PolarSearch を使用すると、次のことができます。

全文検索

curl -X GET "http://<endpoint>:<port>/articles/_search" -H "Content-Type:application/json" -d '
{
  "query": {
    "match": {
      "content": "PolarSearch"
    }
  }
}'

ベクトル検索

curl -X GET "http://<endpoint>:<port>/my-vector-index/_search" -H "Content-Type:application/json" -d '
{
  "size": 2,
  "query": {
    "knn": {
      "vector_field": {
        "vector": [0.1, 0.5, -0.3, 0.8],
        "k": 2
      }
    }
  }
}'

技術アーキテクチャ

PolarSearch は、PolarStore の分散共有ストレージと、クラウドネイティブなコンピューティングとストレージの分離アーキテクチャ上に構築されています。独自のインテリジェント検索エンジンと分散コンピューティングフレームワークを深く統合しています。Elasticsearch DSL の構文とプロトコルをサポートしています。PolarSearch は、ペタバイト規模の膨大な異種データを保存、分析し、リアルタイムでマルチパス融合検索を実行します。これにより、高同時実行かつ高可用性なデータ検索サービスを迅速に構築し、データの価値を引き出すことができます。

製品価値

効率の向上： や PostgreSQL から検索エンジンへのデータ同期リンクを手動で設定する必要がなくなります。これにより、取得 ワークロード のレイテンシーが分単位からミリ秒単位に短縮され、開発サイクルが 50% 短縮されます。
コストの最適化：データベース、ファイルストレージ、コンピュートエンジンなどを使用する従来のマルチエンジン、マルチシステムのアーキテクチャを PolarSearch に置き換えることができます。PolarFileSystem (PolarFS) の多層分散共有ストレージにより、総所有コスト (TCO) が 40% 削減されます。
ビジネスイノベーション：非構造化データのストレージとマイニング、AI を活用したベクトル検索などの機能を使用して、パーソナライズドレコメンデーションシステム、検索拡張生成 (RAG) ナレッジベース、エージェントメモリストアなどの AI インフラストラクチャを構築できます。

利用シーン

E コマースコンテンツプラットフォームと SaaS サービス

製品タイトルや製品ページに対するあいまい検索、セマンティックマッチング、パーソナライズドレコメンデーション。
ユーザーレビューやユーザー生成コンテンツ (UGC) に対するリアルタイムのキーワード分析と感情マイニング。

エンタープライズ RAG ナレッジベースとドキュメント管理

PDF、Word ドキュメント、その他のファイルに対する全文検索とドキュメント取得。
類似画像検索をサポートするための画像特徴のベクトル化ストレージ。

エージェントメモリストアとインテリジェントエージェントデータ管理

短期記憶：現在の会話コンテキスト、セッションコンテキスト、一時変数を含みます。
長期記憶：ユーザーのプリファレンス、過去のクエリ、大規模言語モデル (LLM) のパラメーターなど、長期間にわたるインタラクションからのデータを保存します。

ログ分析とサービス監視

ペタバイト規模のログデータに対するリアルタイム検索、集約、異常アラート。
複数のログフィールドにまたがる関連性分析と可視化レポートの生成。

モノのインターネット (IoT) とリアルタイム IoT データストリーム

IoT デバイスの時系列データの高同時実行書き込みと高速な取得。
センサーデータストリームの複数条件によるフィルターと動的な集約。

コア機能

高可用性とスケーラビリティ

分散アーキテクチャにより、自動的な負荷分散が提供されます。ノードに障害が発生した場合、フェールオーバーはシームレスに行われます。サービス可用性は 99.99% です。
このサービスは、オンラインでの動的スケーリングをサポートしています。数億規模のデータ量に対応するため、必要に応じてストレージリソースと計算リソースをスケーリングできます。

インテリジェント検索エンジン

PolarSearch は、PolarDB の RW ノードにある InnoDB プライマリテーブル上に転置セカンダリインデックスを構築し、トランザクションレベルの可視性をサポートします。
オプティマイザーを使用して InnoDB プライマリテーブル上の全文検索リクエストを識別し、自動的に検索ノードに転送します。
テキストの形態素解析、セマンティック埋め込み、数値範囲などの複数のディメンションにわたるハイブリッドインデックス作成をサポートし、クエリパフォーマンスを 10 倍以上向上させます。
組み込みの中国語 NLP 強化モデルは、類義語展開、ピンイン修正、インテント認識をサポートします。

マルチモーダルデータフュージョン

PolarSearch は、スカラーフォワードインデックス、全文転置インデックス、ベクトル、その他のデータ型を単一のシステムに保存し、マルチパス融合検索をサポートします。
画像やドキュメントなどの膨大で異種な非構造化データを保存、抽出し、解析するためのプラグインを提供します。

リアルタイム検索、集計、分析

データは取り込みから数百ミリ秒以内に検索可能になります。複雑なフィルター、バケット化、Top-K ソートをサポートします。
組み込み関数には、時系列データのタンブリングウィンドウ計算や、位置情報データのジオフェンスチェックなどがあります。