概要
単語解析は検索エンジンの基本的なコンポーネントであり、その有効性は検索結果に直接影響します。ビジネスシナリオはさまざまであるため、業界や顧客によって要件は異なります。最適な検索パフォーマンスを実現するには、アプリケーションレベルでのカスタム単語解析が不可欠です。
カスタマイズ検索機能は、このニーズに対応します。OpenSearch Industry Algorithm Edition は、業界固有のアナライザを豊富に提供します。これらのアナライザをベースとして使用し、簡単な設定で独自のカスタムアナライザをトレーニングできます。このプロセスでは、追加の Data Integration は必要ありません。トレーニング中、カスタマイズ検索モデルは既存のデータを自動的に抽出し、適応します。
カスタマイズ検索モデルの料金は、ストレージ容量、コンピューティングリソース、およびモデルトレーニングに基づいています。料金の詳細については、「課金の概要」をご参照ください。
クイックスタート
カスタマイズ検索モデルを作成して使用するには、次の 3 つのステップに従います。
-
モデルの作成とトレーニング
-
カスタムアナライザの作成
-
カスタムアナライザの設定
モデルの作成とトレーニング
-
検索アルゴリズムセンター > 検索設定 > カスタマイズ検索モデル に移動します。対象の専用アプリケーションを選択し、[作成] をクリックします。
-
[モデル名] を入力し、[モデルタイプ]、[基本アナライザ]、[トレーニングフィールド] を選択します。希望の [正規化] 設定を確認し、[送信] をクリックします。
利用可能な基本アナライザには、中国語 - 汎用分析、中国語 - E コマース分析、IT コンテンツ分析、業界 - 汎用ゲーム分析、業界 - 教育 Q&A 検索、業界 - IT コンテンツ分析、業界 - 汎用 E コマース分析が含まれます。
正規化では、大文字から小文字への変換、繁体字中国語から簡体字中国語への変換、全角文字から半角文字への変換の中から、1 つ以上のオプションを選択できます。これらの設定はクエリにのみ適用され、元のフィールドコンテンツには影響しません。
-
モデル名は作成後に変更できません。
-
トレーニングフィールドは、
short_textおよびtextデータ型のみをサポートします。
-
モデルを作成すると、そのステータスはデフォルトで [利用不可] になります。[カスタマイズ検索モデル] リストページで新しいモデルを見つけ、[操作] 列の [モデルのトレーニング] をクリックします。
-
モデルのトレーニングは、通常 1〜2 営業日で完了します。
-
モデルを再トレーニングできます。トレーニングが完了するたびに、新しいバージョンが連番で詳細ページの [トレーニング履歴] セクションに追加されます。
カスタムアナライザの作成
カスタマイズ検索モデルのトレーニングが正常に完了し、そのステータスが [利用可能] になると、カスタムアナライザを作成できます。
-
[検索アルゴリズムセンター] > [アナライザ管理] ページに移動します。[テキストアナライザ] タブを選択し、[作成] をクリックします。
-
名前を入力し、アナライザタイプとして [カスタマイズモデルアナライザ] を選択し、対応する [HA3 エンジンインスタンス] と [カスタマイズ検索モデル] を選択して、[保存] をクリックします。
-
カスタムアナライザを作成した後、それを使用して単語解析をテストしたり、「エントリ管理」などの機能にアクセスしたりできます。
カスタムアナライザの設定
カスタムアナライザを作成した後、「オフライン変更」を実行してインデックスに適用できます。
-
[インスタンス管理] > [HA3 エンジン] に移動します。対象のアプリケーションを見つけ、その詳細ページに移動し、[オフラインアプリケーションの変更] をクリックします。
-
インデックススキーマを設定するページで、対象のインデックスを見つけ、そのアナライザをカスタマイズ検索モデルで設定されたカスタムアナライザに置き換え、適用したいモデルバージョンを選択します。
インデックスの [分析方法] 列で、ドロップダウンメニューから [アナライザモデル] を選択します。表示されるサブメニューで、対象のモデル名とそのバージョン番号を選択します。
-
オフライン変更を完了し、インデックスの再構築を待ちます。
[オフラインアプリケーション] タブのステータス領域に [アプリケーションの初期化中] と表示され、インデックスの再構築が進行中であることを示します。このプロセスが完了するまでお待ちください。
-
インデックスの再構築が完了したら、「検索テスト」ページで結果をテストできます。
[検索テスト] ページで、[HA3 エンジン] とご利用のアプリケーションを選択します。カスタムアナライザの検索結果を検証するには、クエリボックスに vulcan_analyzer_2:'2' と入力し、config 句を start:0,hit:10,format:fulljson に設定して、[検索] をクリックします。
詳細ページ
カスタマイズ検索モデルのリストページ
[カスタマイズ検索モデル] リストには、モデル名、モデルタイプ、モデルステータス (利用可能または利用不可)、最終トレーニング開始時刻、最新バージョンのステータス、および操作 (詳細、モデルのトレーニング、削除) が含まれます。
-
インデックスによって参照されているカスタマイズ検索モデルは削除できません。
-
最新バージョンのステータスが [トレーニング中] の場合、[モデルのトレーニング] ボタンは無効になります。モデルが他のいずれかのステータスにあるときに、再度 [モデルのトレーニング] をクリックできます。
カスタマイズ検索モデルの詳細ページ
基本情報 (読み取り専用):作成時刻、モデルステータス、最終トレーニング開始時刻、最新バージョンのステータスが含まれます。
設定情報 (読み取り専用):モデル作成時に選択した基本アナライザ、トレーニングフィールド、および正規化設定が含まれます。
トレーニング履歴:モデルバージョン、設定情報、バージョンステータス、トレーニング開始/終了時刻、および参照インデックスが含まれます。このセクションからモデルのパフォーマンスをテストすることもできます。
テストページで、[テキストのテスト] ボックスにテキスト (例: roasted lamb chops) を入力し、[テスト] ボタンをクリックします。[分析結果] 領域には、単語解析の結果がタグとして表示されます (例: テキストが "roasted" と "lamb chops" に分割されます)。
代表的なユースケースの比較レポートをダウンロードして、パフォーマンスを評価できます。
制限事項
-
この機能は、Industry Algorithm Edition - 専用クラスター インスタンスのアプリケーションでのみ利用可能です。
-
インスタンスごとに最大 5 つのカスタマイズ検索モデルを作成できます。
-
特定のアプリケーション用に作成されたカスタマイズ検索モデルは、他のアプリケーションでは使用できません。
-
現在、カスタムアナライザはテキスト解析用にのみ作成できます。