すべてのプロダクト
Search
ドキュメントセンター

OpenSearch:AI Search Open Platform

最終更新日:Apr 02, 2026

AI Search Open Platform は、インテリジェント検索および検索拡張生成 (RAG) シナリオ向けに、コンポーネントベースのアルゴリズムサービスを提供します。ドキュメント解析、チャンキング、テキスト埋め込み、クエリ分析、取得、ソート、パフォーマンス評価、および大規模言語モデル (LLM) を活用した生成といった、検索・RAG パイプライン全体をカバーしており、各ステージが独立して呼び出し可能なサービスとして公開されています。ご利用のユースケースに必要なコンポーネントのみを選択してください。

アクティベーションは無料です。新規の Alibaba Cloud アカウントには、アカウント内のすべての RAM ユーザーで共有される 10 回分の無料サービス呼び出しが付与されます。無料呼び出し回数を使い切った後は、実際の LLM サービス呼び出し使用量に応じて課金されます。今すぐアクティベート

ユースケース

RAG および対話型検索

ナレッジベース、インテリジェントなカスタマーサポートシステム、対話型検索アプリケーションを構築できます。代表的なクエリ例:「X の設定手順は?」や「このドキュメントの要点を要約してください」などです。

  • インテリジェントカスタマーサポート

  • 対話型検索

  • ナレッジグラフの強化

  • パーソナライズドレコメンデーション

基于rag智能问答技术实现图-流程图.jpg

開発例については、「RAG を活用した対話型検索アプリケーションの構築」をご参照ください。

マルチモーダル検索

セマンティック理解および視覚認識を活用し、テキストと画像の両方のコンテンツを横断的に検索できます。代表的なクエリ例:画像を用いた検索、クロスモーダルなコンテンツ発見、OCR 活用型ドキュメント検索などです。

  • E コマースおよび小売業

  • ニュースコンテンツ

  • ゲーム

  • 医療

  • 金融

開発例については、「マルチモーダル検索のビジネス開発」をご参照ください。

仕組み

AI Search Open Platform は、モジュール式パイプラインを通じてデータを処理します。各ステージは独立して呼び出し可能なサービスとして提供されます:

  1. ドキュメントの解析 — PDF、DOC、HTML、TXT などの形式からテキスト、表、画像、コードを抽出します。解析速度は分単位です。

  2. コンテンツのチャンキング — ドキュメントをセマンティクスおよび段落構造に基づいて分割します。生成されたチャンクツリーは、取得時のコンテキスト補完をサポートします。

  3. テキストの埋め込み — 多言語対応の埋め込みモデルを用いて、チャンクを密ベクトルまたは疎ベクトルに変換します。ハイブリッド検索のために両者を併用できます。

  4. クエリの分析 — 大規模言語モデル (LLM) および Natural Language Processing (NLP) 機能を活用し、ユーザーの意図を理解したり、類似質問を展開したり、自然言語を SQL に変換したりします。

  5. 結果の取得 — インデックス化されたデータに対して、ベクター検索およびテキスト検索を実行します。

  6. ソートおよびランキング — クエリレベルおよびドキュメントレベルのソートを適用し、最も関連性の高いコンテンツを上位に表示します。

  7. 応答の生成 — 組み込みの LLM を用いて、取得されたコンテンツに基づいた回答を生成します。

機能

ドキュメントコンテンツの解析

PDF、DOC、HTML、TXT などの形式を分単位の高速度で解析します。レイアウトを判別し、論理構造(タイトル、段落)を抽出するとともに、テキスト、表、画像、コードなどのコンテンツ要素を特定します。ヘッダーおよびフッターを除去し、上付き文字および下付き文字を検出します。出力は構造化されています。

画像コンテンツの解析

アーキテクチャ図や分析チャートなどの画像コンテンツを、マルチモーダル LLM を用いて解析します。光学文字認識 (OCR) をサポートしており、画像から抽出したテキストを画像検索および画像ベースの質問応答に活用できます。

ドキュメントチャンキング

セマンティクス、段落構造、および設定可能なルールに基づいてドキュメントを分割します。取得時のコンテキスト補完を可能にするチャンクツリーを生成します。

多言語埋め込みモデル

  • テキスト埋め込み:テキストを密ベクトルに変換します。複数のモデルが異なる言語、入力長、出力次元に対応しており、検索、テキスト分類、関連性比較などに利用できます。

  • 疎埋め込み:テキストをストレージ使用量が少ない疎ベクトルに変換します。キーワードおよび高頻度語を捉えます。密ベクトルと併用することでハイブリッド検索を実現し、取得性能を向上させます。

  • 埋め込みモデルのチューニング:ベクトル次元を削減する次元削減モデルをトレーニングし、取得品質への影響を最小限に抑えながら次元を低減します。

クエリ分析

LLM および NLP を活用してクエリを分析し、ユーザーの意図を理解したり、類似質問を展開したり、自然言語を SQL に変換したりします。RAG シナリオにおける対話型検索の精度を向上させます。

検索エンジン

ベクター検索およびテキスト検索エンジンを提供します。ベクターおよびテキストを格納し、インデックスを構築した上で、オンラインでのベクターおよびテキスト検索を実行できます。AI Search Open Platform の API と併用することで、データの処理および取得をエンドツーエンドで実現できます。

ソート

RAG および検索シナリオにおいて、クエリレベルおよびドキュメントレベルのソートを適用し、最も関連性の高いコンテンツを上位に表示します。取得精度および LLM による応答生成の品質を向上させます。

LLM を活用したテキスト生成

Qwen3-235B-A22B、QwQ、DeepSeek 全モデル(DeepSeek R1、V3、および 7B/14B 蒸留版)、Qwen シリーズ(Qwen-TurboQwen-PlusQwen-Max)を含む幅広いモデルを提供します。組み込みの OpenSearch-Qwen-Turbo モデルは qwen-turbo を基に、教師ありファインチューニングにより RAG 機能を強化したものであり、ハルシネーション率を低減しています。

メリット

  • エンドツーエンドのパイプライン、個別統合不要 — すべてのサービスはアクティベーション直後にすぐに利用可能です。検索または RAG パイプラインの各ステージごとに個別のツールを統合する必要はなく、解析、埋め込み、取得、ランキング、生成を一貫してカバーする単一のプラットフォームをご利用いただけます。

  • 必要なものだけを呼び出し、不要なものはスキップ — 開発者、企業顧客、独立系ソフトウェアベンダー (ISV) は、個別の API オペレーションを呼び出すか、SDK を用いて任意のサブセットのサービスを統合できます。モジュラー設計により、アーキテクチャには実際に使用するコンポーネントのみが含まれます。

  • 検索最適化済みのモデルを即時利用可能 — AI Search Open Platform を用いると、主要な基盤モデルを基盤として専用の AI 検索モデルをトレーニングできます。組み込みの OpenSearch-Qwen-Turbo モデルは RAG に特化してファインチューニングされており、汎用モデルと比較してハルシネーションが低減されています。

  • 実績ある検索パターンに基づく設計 — パイプライン設計は、インテリジェント検索および RAG 分野における長年の経験を反映しています。ベストプラクティスが既に組み込まれているため、効果的な手法の習得に費やす時間は短縮され、開発に集中できます。