多次元インデックス - 多次元クエリと分析 | Tablestore - Tablestore

背景情報

検索インデックスは、ワイドテーブルモデルにのみ適用されます。

検索インデックス、データベース、検索エンジンは、いずれもビッグデータにおける複雑なクエリの問題に対処しますが、以下の点で異なります。

結合、トランザクション、関連性分析を除き、Tablestore はデータベースと検索システムの両方の機能を提供します。一般的なデータベース + 検索エンジン アーキテクチャを置き換えます。

結合、トランザクション、または複雑な関連性分析を必要としないシナリオでは、Tablestore の検索インデックスを使用します。

表格存储与数据库及搜索系统的主要的区别

インデックスの概要

検索インデックスは、転置インデックスと列ストアを使用して、ビッグデータに対する多次元クエリと統計分析の問題を解決します。非プライマリキー列のクエリ、前方一致クエリ、ファジークエリ、ブールクエリ、ネストされたクエリ、ジオクエリ、全文検索、ベクトル検索、および統計的集約 (max、min、count、sum、avg、distinct_count、group_by、percentiles、histogram) をサポートしています。

次の図は、検索インデックスで使用される転置インデックス、列ストア、および多次元空間インデックス構造を示しています。

従来のデータベースインデックス (MySQL など) とは異なり、検索インデックスは最左一致の原則に制限されません。ほとんどの場合、テーブルごとに 1 つの検索インデックスのみが必要です。たとえば、名前、学生 ID、性別、学年、クラス、自宅住所などの列を持つ学生テーブルでは、3 年生で名前が田中太郎の学生、自宅住所が 1 km 以内の男子学生、3 年 2 組で特定の住宅地に住んでいる学生などの組み合わせクエリをサポートするために、1 つの検索インデックスのみが必要です。

インデックスの比較

Tablestore は、データテーブルでのプライマリキークエリに加えて、クエリを高速化するための 2 つのインデックスタイプ (セカンダリインデックスと検索インデックス) をサポートしています。次の表は、これら 3 つのクエリ方法を比較したものです。

クエリ方法	原理	シナリオ
プライマリキー	データテーブルは大きなマップのように機能します。プライマリキーによってのみデータをクエリできます。	完全なプライマリキーまたはキープレフィックスがわかっているシナリオに適しています。
セカンダリインデックス	クエリ機能を拡張するプライマリキー列を持つインデックステーブルを作成します。	クエリ列が事前に決定されており、列数が少ないシナリオに適しています。
検索インデックス	転置インデックス、BKD tree、列ストアなどの構造を使用して、豊富なクエリ機能を提供します。	プライマリキーおよびセカンダリインデックスの範囲を超えるすべてのクエリおよび分析シナリオに適しています：非プライマリキー列のクエリ、任意の列でのブールクエリ、関係クエリ、全文検索、ジオクエリ、ファジークエリ、ネストされたクエリ、NULL 値クエリ、および統計的集約。

シナリオ

検索インデックスは、アプリケーションシステムでデータクエリと分析に広く使用されています。次の表に、一般的なシナリオを示します。

アプリケーションシステム	シナリオ例
E コマースプラットフォーム	商品のカテゴリ分類と属性フィルタリングを実装し、ユーザーが商品を迅速に検索およびフィルタリングできるようにします。
ソーシャルアプリケーション	ユーザーのフォロー関係や友人関係をクエリしたり、興味タグに基づいてユーザーを推薦・マッチングしたりします。
ログ分析	キーワード検索と時間範囲クエリを実行して、問題を迅速に特定し、ログデータを分析します。
IoT データ分析	デバイスデータのクエリや分析を行います。たとえば、デバイスタイプや地理的位置によって、データのフィルタリングやカウントを行います。
アプリケーションパフォーマンス監視	メトリックデータの集約とクエリを行います。たとえば、時間範囲やアプリケーション名で、データのフィルタリングや要約を行います。
位置情報サービス	ジオクエリと周辺検索を実行して、近隣の店舗、観光スポット、サービスに関する情報を提供します。
テキスト検索エンジン	全文検索と関連性ソートを実行して、ドキュメント、記事、その他のコンテンツを迅速に見つけます。

機能

機能一覧

次の表に、多次元インデックスの機能を示します。

機能	説明	ドキュメント
任意の列 (プライマリキー列および非プライマリキー列を含む) でのクエリ	任意の列でデータをクエリします。ほとんどのクエリシナリオに適しています。プライマリキーまたはプレフィックスクエリでニーズを満たせない場合は、対象フィールドを含む多次元インデックスを作成し、列の値でクエリを実行します。	基本クエリなどの任意の多次元インデックスクエリ
ブールクエリ	複数のフィールドを組み合わせて効率的なフィルタリングを行います。注文システム、ログ分析、ユーザーペルソナに適しています。リレーショナルデータベースでは、数十のフィールドを持つテーブルは、すべてのフィールドの組み合わせをカバーするために数百のインデックスを必要とする場合があります。組み合わせが欠落していると、クエリの効率が低下します。 Tablestore では、1 つの多次元インデックスがすべてのフィールドの組み合わせをカバーします。クエリする可能性のあるフィールドをインデックスに追加し、And、Or、Not のロジックを使用して自由に組み合わせます。	ブールクエリ
ジオクエリ	モバイルデバイスの普及により、地理位置情報データの価値はますます高まっています。ソーシャルネットワーキング、フードデリバリー、スポーツ、車のインターネット (IoV) などのアプリケーションでは、すべて位置情報を活用したクエリが必要です。多次元インデックスは、次のジオクエリ機能をサポートしています：近傍：原点から指定された距離内のポイントをクエリします。例：ソーシャルメディアの「近くにいる人」機能。範囲内：長方形または多角形の領域内のポイントをクエリします。アプリケーションで位置情報ベースのクエリが必要な場合、Tablestore の多次元インデックスは、追加のデータベースや検索システムなしでワンストップソリューションを提供します。	ジオディスタンスクエリジオバウンディングボックスクエリジオポリゴンクエリ
フルテキストインデックス	指定された語句を含むデータを検索します。ビッグデータ分析、コンテンツ検索、ナレッジマネジメント、ソーシャルメディア分析、ログ分析、AI チャットシステム、コンプライアンスレビュー、パーソナライズされたレコメンデーションに適しています。多次元インデックスは、トークン化を使用して全文検索を行います。基本的な BM25 の関連度は提供しますが、カスタムの関連度は提供しません。複雑な関連度検索のニーズには、専用の検索システムを使用してください。それ以外の場合は、多次元インデックスで十分です。利用可能なトークン化の種類は、単語、区切り文字、最小セマンティック、最大セマンティック、あいまい、の 5 種類です。結果のキーワードをハイライト表示するには、要約とハイライト機能を使用します。	マッチクエリマッチフレーズクエリトークン化要約とハイライト
ベクトル検索	多次元インデックスは、ベクトル検索をサポートしており、大規模なデータセットに対して効率的な近似最近傍クエリを実行できます。検索拡張生成 (RAG)、レコメンデーションシステム、類似性検出 (画像、動画、音声)、自然言語処理に適しています。	AISearch
あいまいクエリ	多次元インデックスは、さまざまなシナリオでのあいまい一致のために、ワイルドカードクエリ、プレフィックスクエリ、およびサフィックスクエリを提供します。ワイルドカードクエリ：リレーショナルデータベースの `like` 構文に似ています。アスタリスク () とクエスチョンマーク (?) の 2 種類のワイルドカードをサポートしています。 `word*` パターンの場合は、パフォーマンスを向上させるために、トークン化ベースのワイルドカードクエリ (あいまいトークン化とマッチフレーズクエリの組み合わせ) を使用します。プレフィックスクエリ：プレフィックスによってコンテンツを照合します。たとえば、`apple` をクエリすると、`apple6s` と `applexr` に一致します。中国語、英語、その他の言語をサポートしています。サフィックスクエリ：サフィックスによってコンテンツを照合します。たとえば、末尾が `1234` のすべての携帯電話番号をクエリできます。	ワイルドカードクエリトークン化ベースのワイルドカードクエリプレフィックスクエリサフィックスクエリ
列存在クエリ (NULL クエリ)	列に null 値があるかどうかを確認します。データ整合性チェックやデータクリーニングに適しています。	列存在クエリ
ネストクエリ	フラットな構造だけでなく、アプリケーションデータはしばしば多層のネスト構造を持ちます。たとえば、画像タグ付けシステムは、複数のエンティティ (家、車、人) を持つ画像を保存し、それぞれが異なる位置、サイズ、重み (スコア) を持っています。各画像は複数のタグにマッピングされ、各タグには名前と重みスコアがあります。タグの条件で画像をフィルタリングするには、ネストクエリを使用します。画像タグは JSON 形式で保存されます： `{ "tags": [ { "name": "car", "score": 0.78 }, { "name": "tree", "score": 0.24 } ] }` ネストクエリは、多層の論理関係を持つデータを処理し、複雑なデータモデリングに柔軟性を提供します。複雑なネストデータ構造 (JSON など) の場合、要約とハイライト機能を使用して、必要な情報を正確に見つけます。	配列型とネスト型ネストクエリ
重複排除	多次元インデックスは、クエリ結果を重複排除して多様性を向上させます。重複排除は、単一の結果セット内で特定の属性値が表示される回数を制限します。たとえば、eコマースプラットフォームで `laptop` を検索する場合、重複排除により、最初のページが単一のブランドで占められるのを防ぎます。	折りたたみ (重複排除)
ソート	Tablestore は、デフォルトでプライマリキーでデータをアルファベット順にソートします。他のフィールドでソートするには、多次元インデックスのソート機能を使用します。多次元インデックスは、昇順または降順、単一条件ソート、および複数条件ソートをサポートしています。すべてのソートはグローバルです。デフォルトでは、多次元インデックスの結果はプライマリキーでアルファベット順にソートされます。	ソートとページネーション基本クエリなどの任意の多次元インデックスクエリ
総行数	多次元インデックスでデータをクエリする場合、一致する行数を返すことができます。これは、データ検証や操作に役立ちます。空のクエリ条件は、インデックス化されたすべてのデータに一致します。返される合計は、データテーブル内のインデックス化された行数と等しくなります。データの書き込みが停止し、すべてのデータがインデックス化されている場合、合計はデータテーブルの行数と等しくなります。	マッチオールクエリ基本クエリなどの任意の多次元インデックスクエリ
統計集計	多次元インデックスは、Max、Min、Avg、Sum、Count、DistinctCount、GroupBy、Percentile、Histogram などの一般的な集計関数を提供します。これらは、軽量分析の基本的な統計ニーズを満たします。	統計集計

サポートされるリージョン

現在、多次元インデックス機能は、次のリージョンで利用可能です：中国 (杭州)、中国 (上海)、中国 (青島)、中国 (北京)、中国 (張家口)、中国 (ウランチャブ)、中国 (深圳)、中国 (広州)、中国 (成都)、中国 (香港)、日本 (東京)、シンガポール、マレーシア (クアラルンプール)、インドネシア (ジャカルタ)、フィリピン (マニラ)、タイ (バンコク)、ドイツ (フランクフルト)、英国 (ロンドン)、米国 (シリコンバレー)、米国 (バージニア)、SAU (リヤド - パートナーリージョン)、および。ベクトル検索機能は、米国 (シリコンバレー) リージョンではまだサポートされていません。

災害復旧

ゾーンディザスタリカバリー機能を備えたリージョンでは、多次元インデックスはデフォルトでゾーン冗長ストレージを提供します。データはリージョン内の複数のゾーンにまたがって保存されます。単一のゾーンで障害が発生しても、読み取りおよび書き込みサービスは中断することなく継続されます。

現在、多次元インデックスは、次のリージョンでゾーン冗長ストレージをサポートしています：中国 (杭州)、中国 (上海)、中国 (北京)、中国 (張家口)、中国 (ウランチャブ)、中国 (深圳)、中国 (香港)、日本 (東京)、シンガポール、インドネシア (ジャカルタ)、ドイツ (フランクフルト)、および。

データライフサイクル

データテーブルに UpdateRow 操作がない場合は、多次元インデックスの TTL を使用できます。詳細については、「ライフサイクル管理」をご参照ください。

特定の期間だけデータを保持する必要があり、時間フィールドの更新が不要な場合は、時間によるテーブルシャーディングで TTL を実装します。

ディメンション	時間によるテーブルシャーディング
原則	固定の間隔 (日、週、月、または年) でテーブルをシャーディングします。各テーブルに多次元インデックスを作成し、必要な期間データテーブルを保持します。たとえば、データを 6 か月間保持するには、各月のデータを個別のテーブル (table_1 から table_6) に保存し、それぞれに独自の多次元インデックスを作成します。毎月、6 か月前のテーブルを削除します。クエリを実行するとき、時間範囲が単一のテーブル内に収まる場合は、そのテーブルのみをクエリします。複数のテーブルにまたがる場合は、それぞれをクエリして結果をマージします。
ルール	単一のテーブル (単一のインデックス) は 500 億行を超えてはなりません。クエリのパフォーマンスは、行数が 200 億行未満の場合に最適です。
利点	保持するテーブルの数を管理することで、データの保持期間を制御します。クエリのパフォーマンスはデータ量に応じてスケールします。シャーディングによって各テーブルのサイズに上限が設けられるため、パフォーマンスが向上し、クエリのタイムアウトを回避できます。

データバージョン

多次元インデックスは複数のデータバージョンをサポートしていません。複数のバージョンが有効になっているデータテーブルに対して多次元インデックスを作成することはできません。

単一バージョンのテーブルで、書き込みごとにタイムスタンプをカスタマイズする場合、大きいバージョンの後に小さいバージョン番号のデータを書き込むと、大きいバージョンが上書きされる可能性があります。

Search および ParallelScan リクエストが返すデータには、必ずしもタイムスタンププロパティが含まれているとは限りません。

制限

多次元インデックスは、データテーブルから非同期でデータを同期するため、リアルタイムでのクエリはできません。通常のレイテンシーは 3 秒以内です。詳細については、「多次元インデックスの制限」をご参照ください。

課金

検索インデックスは、インデックスデータが占有するストレージスペースと、クエリおよび分析で消費されるコンピューティングリソースに対して課金されます。詳細については、「課金概要」をご参照ください。

開発と統合

API リファレンス

検索インデックスは、インデックス管理とデータクエリ用の API を提供します。データクエリには、汎用的な Search API とデータエクスポート用の ParallelScan API が含まれます。ParallelScan は、一部の機能 (ソート、集約) を犠牲にして、より高いパフォーマンスとスループットを実現します。

カテゴリ	API	説明
インデックス管理	CreateSearchIndex	検索インデックスを作成します。
	UpdateSearchIndex	検索インデックスの構成を更新します。生存時間 (TTL) やインデックススキーマなどが含まれます。
	DescribeSearchIndex	検索インデックスの詳細を取得します。
	ListSearchIndex	検索インデックスを一覧表示します。
	DeleteSearchIndex	検索インデックスを削除します。
データクエリ	Search	フル機能のクエリ API です。クエリ関数、ソート、統計的集計など、検索インデックスのすべての機能をサポートします。結果は指定された順序で返されます。クエリ関数：非プライマリキー列クエリ、列存在クエリ、あいまいクエリ、ブールクエリ、ネストされたクエリ、geo クエリ、全文検索、ベクトル検索折りたたみ (重複排除) ソート統計的集計総行数
データクエリ	ParallelScan	パラレルスキャンに対応したデータエクスポート API です。`Search` API と比較して、ベクトル検索、ソート、統計的集計はサポートされていませんが、一致したすべてのデータをより高速に返します。単一の同時実行の場合、ParallelScan のスループットは Search API の 5 倍です。クエリ関数：非プライマリキー列クエリ、列存在クエリ、あいまいクエリ、ブールクエリ、ネストされたクエリ、geo クエリ、全文検索単一のリクエストで複数の同時実行クエリをサポート複数の同時実行リクエストでデータをエクスポートする場合は、ComputeSplits API を使用して、単一の ParallelScan リクエストの最大同時実行数を取得してください。

統合方法

検索インデックスを使用するには、次の SDK または CLI ツールを使用できます。

よくある質問

付録：SQL マッピング

検索インデックスの一部の機能は、SQL 関数に対応しています。次の表に、そのマッピングを示します。

SQL	検索インデックス	検索インデックスのドキュメント
Show	DescribeSearchIndex	検索インデックス詳細の照会
Select	任意のクエリの ColumnsToGet パラメーター	基本クエリなどの任意の検索インデックスクエリ
From	任意のクエリの IndexName パラメーター重要単一のインデックスがサポートされています。複数のインデックスはまだサポートされていません。	基本クエリなどの任意の検索インデックスクエリ
Where	任意のクエリの条件	基本クエリなどの任意の検索インデックスクエリ
Order by	任意のクエリの sort パラメーター	ソートとページネーション
Limit	任意のクエリの limit パラメーター	ソートとページネーション
Delete	任意のクエリを使用して、行のプライマリキーを取得します。 DeleteRow API を実行します。	基本クエリなどの任意の検索インデックスクエリを使用して、行のプライマリキーを取得します。プライマリキーでデータを削除します。
Like	WildcardQuery	ワイルドカードクエリ
And	BoolQuery の演算子： and	ブールクエリ
Or	BoolQuery の演算子： or
Not	BoolQuery (mustNotQueries)
Between	RangeQuery	Range クエリ
Null	ExistsQuery	列存在クエリ
In	TermsQuery	Terms クエリ
Min	集約： min	統計的集計
Max	集約： max
Avg	集約： avg
Count	集約： count
Count (distinct)	集約： distinctCount
Sum	集約： sum
GROUP BY	GroupBy

Tablestore:多次元インデックス