オンライン教育シナリオにおけるテスト問題検索の特徴
質問ライブラリには多数のテスト問題が存在する可能性があり、テスト問題の数は増加し続けています。これはデータベースに高い負荷をかけます。
ほとんどの検索行動はピーク時に発生し、多数の同時検索が含まれます。この場合、検索結果が返されるまでに長い待ち時間が発生し、ユーザーエクスペリエンスに影響を与える可能性があります。
さまざまな学習段階が網羅されています。ますます多くのユーザーシナリオが関係しています。
科目分野はさまざまなカテゴリに分類されます。データはますます複雑になります。したがって、学際的なエラーが検索クエリで発生する可能性があります。
検索精度を向上させるには、強力なアルゴリズムが必要です。
画像とテキストを検索するには、マルチモーダル検索機能が必要です。
英語などの複数の言語で検索クエリを処理するには、多言語処理機能が必要です。
教育業界における OpenSearch のベストプラクティス
テスト問題のクエリ専用のアナライザ
クエリ処理フローチャート
2. クエリセマンティクスの理解
アナライザは、検索効果に影響を与える最も基本的なモジュールです。 OpenSearch は、テスト問題のクエリ専用のアナライザと統合されています。さらに、独自のクエリ用語をアップロードして、カスタムアナライザを作成できます。
例
クエリ
次の三角形の面積は何平方センチメートルですか?
スペル修正
次の三角形の面積は平方センチメートルでいくつですか?
分野カテゴリ予測
数学
トークン化
次の三角形の面積は平方センチメートルでいくつですか?
形態素の重み付け分析
1 7 1 7 1 4 7 7 1
同義語の書き換え
平方センチメートル -> (cm ^ 2)
テキストのベクトル化
-0.100582,-0.0540699,-0.0417337,0.0602,...
3. カテゴリ予測
カテゴリ予測とは?
検索クエリを入力すると、複数の商品が見つかります。システムは、検索クエリと各商品のカテゴリとの関連性を計算します。関連性が対応するソート式で参照されている場合、カテゴリが検索クエリとの関連性が高い商品は、ソートスコアが高くなります。この場合、商品は上位にランクされます。
オンライン教育シナリオでのカテゴリ予測の適用
クエリ内の画像情報と光学式文字認識 ( OCR ) の結果に基づいて、テスト問題が属する分野と問題の種類を予測します。
問題の説明や選択肢などのフィールドの種類を予測します。
4. 形態素の重み付け分析
説明:形態素の重み付け分析機能は、検索クエリ内の各形態素の重要性を評価し、評価された重要性を重みとして数値化します。 OpenSearch は、重要度の低い形態素を使用してドキュメントを取得しない場合があります。これは、取得されるドキュメントの数を増やすのに役立ちます。入力した検索クエリに重要度の低い形態素が含まれており、これらの形態素がドキュメント取得プロセスに関与している場合、検索クエリに基づいて取得されるドキュメントの数は少ない可能性があります。
目的:クエリから重要度の低い形態素を削除し、クエリを書き直し、テキストの関連性を分析します。
(1) ユーザーの行動に基づいてトレーニングデータを生成します。
(2) 形態素の重み付け分析のモデルをトレーニングします。
シーケンスラベリングモデル。
予測ラベル (7,4,1)。スコアが高いほど、形態素の重要性が高く、取得された結果がより正確になることを示します。
例
クエリ | 35 の約数は () で、100 以内の 24 の倍数は () です |
対応する形態素の重みスコア | 4 1 7 1 1 1 1 1 4 1 7 1 1 1 |
この質問では、「約数」と「倍数」の重みスコアは 7 ポイントで、これが最高です。 OpenSearch は、ドキュメントを取得するために優先的に「約数」と「倍数」を使用します。 「35」と「24」の重みスコアは 4 ポイントです。質問の他の要素の重みスコアは 1 ポイントです。 OpenSearch は、重みスコアが 1 ポイントの要素を使用してドキュメントを取得しません。
5. クエリの書き換え
さまざまなビジネス要件に対応するために、OpenSearch では、介入辞書、スペル修正、同義語、形態素の重み付け分析などの使用など、一度に複数の介入を実行できます。
例
(1) OCR 機能は、クエリ分析の結果を妨げるいくつかの非質問要素を識別する場合があります。この場合、形態素の重み付け分析を使用して、非質問要素フィールドに低い重みが付けられていることを確認できます。これにより、取得とソートの効果が向上します。
(2) 同義語拡張の介入辞書を作成して、取得範囲を広げることができます。たとえば、クエリに立方メートルが含まれている場合は、立方メートルの同義語としてトンを追加できます。
カスタムソート
OpenSearch は、基本ソートと高度ソートをサポートしています。基本ソートプロセスでは、取得されたすべてのドキュメントから上位 N 件の高品質ドキュメントが選択されます。次に、上位 N 件の高品質ドキュメントがスコアリングされ、高度ソートプロセスでソートされます。このようにして、要件に最も一致するドキュメントを取得できます。よりきめ細かいソート効果を実現するために、ソート式を作成し、アプリケーションで使用して検索結果のソートを制御できます。
効果比較
オンライン教育プラットフォームは、K12 教育ソリューションを提供しています。このプラットフォームには数千万人のユーザーがいます。彼らの質問ライブラリには約 8,000 万のテスト問題が含まれており、問題は継続的に増加しています。質問ライブラリは、独自の質問ライブラリとサードパーティの質問ライブラリの 2 つの部分で構成されています。プラットフォームが OpenSearch を使用する前は、プラットフォームは OCR 機能と独自の Elasticsearch ベースの検索サービスを使用して写真検索機能を実装していました。ただし、プラットフォームは、検索結果の精度が低い、検索待ち時間が長いなど、多くの問題に直面しています。
OpenSearch を使用して検索機能を実装した後:
検索精度の絶対値が 5% 向上しました。
検索待ち時間が 50 ミリ秒に短縮されました。元の待ち時間は 100 ミリ秒から 300 ミリ秒の範囲です。
4,000 トランザクション/秒 ( TPS ) を超えるスループットで、オフラインアプリケーションから OpenSearch にデータを同期できます。
サンプルクエリ:「張恵言は、宋代の宋詩のスタイルはおそらく楽府に似ていると言っています。」
レベル | OpenSearch を使用する前に取得された結果 | OpenSearch を使用した後に取得された結果 |
Top1 | 張恵は、歌劇団のソロ歌手です。彼女の賃金は月額 5,800 人民元です。 2006 年 6 月、張恵は上海での劇団の 3 つのパフォーマンスに参加し、3,800 人民元の報酬を受け取りました... | 張恵言は、宋代の宋詩のスタイルはおそらく楽府に似ていると言っています。 |
Top2 | 張恵言の音楽への愛情は...に由来します | 張恵言は、宋代の宋詩のスタイルはおそらく楽府に似ていると言っています。 () |
Top3 | 次のドキュメントのうち、張恵氏が中国の音楽雑誌に発表した記事で引用されているドキュメントはどれですか? | 次の選択肢のうち、張恵言が言った宋代の宋詩のスタイルに最も近いのはどれですか? |
サンプルクエリ:「次の図は、3 つの異なるビューからの幾何学体の異なる平面パターンを示しています。幾何学体は、いくつかの同一の小さな立方体で構成されています。幾何学体を構築するには、___ 個の同一の小さな立方体が必要です。左から右に、幾何学体の平面パターンは、正面図、左側面図、および上面図です。」