すべてのプロダクト
Search
ドキュメントセンター

OpenSearch:カスタムソートモデルの機能構成属性

最終更新日:Dec 28, 2024

このトピックでは、カスタムソートモデルの機能構成属性について説明します。機能構成によって制限が異なります。カスタムソートモデルを構成する前に、制限事項をお読みください。

概要

このトピックでは、カスタムソートモデルの機能構成属性について説明します。機能構成によって制限が異なります。カスタムソートモデルを構成する際は、以下のセクションを参照してください。

共通属性

フィールド

必須

説明

feature_name

はい

機能の名前。このフィールドの値は、出力機能のプレフィックスとして使用されます。

feature_type

はい

機能のタイプ。

id_feature (離散ID機能)

この機能はスパース機能であり、最も単純な離散機能です。ユーザーが指定した機能名とフィールドの値を組み合わせるために使用されます。この機能は、STRING型またはINTEGER型のデータに適用できます。

raw_feature (元の数値機能)

この機能はデンス機能であり、元の機能のフィールド値を機能の値として直接参照します。この機能は、浮動小数点型またはINTEGER型のデータに適用できます。

-Embeddingスキーマを使用する場合は、value_dimensionパラメーターを指定できます。値は文字列に連結され、印字不可ASCII文字29で区切られます。ASCII文字29は印字不可文字であり、Unicodeでは\u001Dと表現されます。

フィールド

必須

タイプ

説明

value_dimension

いいえ

int

128

出力フィールドの次元。デフォルト値:1。

combo_feature (組み合わせクロス機能)

STRING型またはINTEGER型のデータに適用可能な機能の組み合わせ。浮動小数点値の機能を入力として使用しないでください。

この機能は、複数のフィールドまたは式のデカルト積から生成される組み合わせです。 id_feature機能は、特別なcombo_feature機能と見なすことができます。つまり、1つのフィールドのみがクロスに関与します。ほとんどの場合、クロスに関与するフィールドは異なるテーブルからのものです。たとえば、ユーザー機能とアイテム機能がクロスに関与します。

lookup_feature (一致クエリ機能)

この機能は、マップフィールドとキーフィールドに依存します。マップフィールドはSTRING型の複数値フィールドであり、各文字列はk1:v2形式です。キーフィールドは任意の型にすることができます。この機能を生成するには、キーフィールドの値を抽出し、その値を文字列に変換します。次に、抽出された値を使用して、マップフィールドのキーと値のペアで一致させます。このようにして、最終的な機能が生成されます。アイテムの複数の値は、ASCII文字29で区切られます。ASCII文字29は印字不可文字であり、Unicodeでは\u001Dと表現されます。

フィールド

必須

タイプ

有効な値

説明

map

はい

string

system_query_ctr_decay(基本的な組み込み機能)

STRING型の複数値フィールド。各文字列はk1:v2形式です。

key

はい

string

system_raw_q_ultra(基本的な組み込み機能)

任意の型のフィールド。このフィールドの値は文字列に変換され、マップフィールドのキーと値のペアで一致するために使用されます。

combiner

いいえ

string

  • sum

  • mean

  • max

  • min

複数のキー値が同じである場合に、一致する値を結合するために使用されるフィールド。デフォルト値:sum。

overlap_feature (一致重複機能)

この機能は、用語の一致情報を照会するために使用されます。

フィールド

必須

タイプ

有効な値

説明

query

はい

string

"user:attr1"

STRING型の複数値フィールド。値はASCII文字29で区切られます。ASCII文字29は印字不可文字であり、Unicodeでは\u001Dと表現されます。

title

はい

string

"item:attr2"

STRING型の複数値フィールド。値はASCII文字29で区切られます。ASCII文字29は印字不可文字であり、Unicodeでは\u001Dと表現されます。

method

はい

string

  • common_word

  • diff_word

  • query_common_ratio

  • title_common_ratio

  • is_contain

  • is_equal

  • common_word:クエリとタイトルの間で重複する用語を計算します。

  • diff_word:クエリとタイトルの間で繰り返されない用語を計算します。

  • query_common_ratio:クエリとタイトルの間で重複する用語のクエリ内の用語に対する割合を計算します。

  • title_common_ratio:クエリとタイトルの間で重複する用語のタイトル内の用語に対する割合を計算します。

  • is_contain:クエリのコンテンツがタイトルに含まれているかどうかを計算します。

  • is_equal:クエリがタイトルと同じかどうかを計算します。

この例では、検索クエリ "high,high2,fiberglass,abc" と

タイトル "high,quality,fiberglass,tube,for,golf,bag" が使用されます。次の表は、一致重複機能のさまざまなメソッドを使用して生成される計算結果を示しています。

メソッド

区切り文字

計算結果

common_word

high_fiberglass

diff_word

" "

high2 abc

query_common_ratio

5

title_common_ratio

28

is_contain

0

is_equal

0

機能生成

実際のモデルトレーニングで使用される機能は、基本機能よりも複雑です。たとえば、複数の基本機能が交差して新しいトレーニング機能が生成されます。これは機能生成のプロセスです。ソートモデルの場合、機能生成ルールに従って構成し、必要なトレーニング機能を生成できます。次の図は、機能生成の仕組みを示しています。

image.png

機能生成ルール:

image.png