全部產品
Search
文件中心

OpenSearch:停用詞幹預詞典

更新時間:Jul 13, 2024

使用介紹

目前支援對系統內建的停用詞詞典進行人工幹預。使用者實現幹預操作的過程通常有以下四步:

  1. 建立停用詞幹預詞典。使用者通過搜尋演算法中心--->召回配置--->詞典管理,進入查詢分析幹預詞典頁後,點擊頁面右上方的“建立”。選擇了詞典類型後,為詞典命名,幹預詞典建立完成,詞典會出現在頁面的詞典列表中。

  2. 新增和管理幹預詞典內的幹預詞條。詞典建立完成後,在列表中點擊詞典名稱或點擊詞典對應的“詞條管理”,即可進入到幹預詞典的詳情頁。使用者可在詳情頁內進行幹預詞條的新增和管理。使用者可進行兩種類型的幹預,-添加停用詞:添加一個停用詞後,如果查詢的Query中分詞後有term為添加的這個停用詞,在召回時該term將不參與召回。-屏蔽停用詞:屏蔽一個停用詞後,如果查詢的Query中分詞後有term為屏蔽的這個停用詞,在召回時該term將正常參與召回。

  3. 使用幹預詞典。建立並填充完成停用詞幹預詞典後,可在任意應用的查詢規則內選擇使用。

  4. 幹預詞典效果測試和上線。查詢分析規則使用了幹預詞典後,應用到線上之前建議先進行搜尋效果測試,評估效果是否符合幹預預期。

實戰演練

業務情境:某電商導購類業務在OpenSearch的應用執行個體中配置使用了查詢分析規則,規則包含停用詞功能,但是線上上發現了badcase,於是決定使用幹預功能。

badcase:使用者搜尋Query“海南的香蕉”,返回的結果寥寥無幾,因為欄位內容只包含了“海南,香蕉”關鍵詞。

問題診斷:原因之一是Query中的“的”沒有被系統識別成停用詞。

解決方案:建立停用詞幹預詞典,在詞典中把“的”添加為停用詞,再將該停用詞幹預詞典應用線上上使用的查詢分析規則中。

操作步驟

1.在控制台—->搜尋演算法中心—->召回配置—->詞典管理,建立停用詞詞典:

image

填寫“名稱”,詞典類型選擇“停用詞”

222.在建立的停用詞幹預詞典裡新增幹預詞條,例:此處在停用詞欄填“的”,幹預類型選擇“添加”

33

3.在查詢分析介面把剛剛建立的“停用詞幹預詞典”先應用在一個未上線的查詢分析規則中,以便進行搜尋效果測試:

4

4.搜尋測試是否符合預期效果。發現搜尋“海南的香蕉”時,如預期召回了“海南香蕉”結果:

6

注意事項

  • 詞典類型和名稱在建立後均不可修改。

  • 新增幹預詞條時,填寫的停用詞不應與幹預列表內已幹預過的停用詞重複。

  • 同一幹預詞典可以被多個查詢分析規則使用。

  • 由於目前的幹預詞典是基於系統內建詞典的補丁式幹預,所以詞典使用時會預設勾選使用系統內建詞典。

  • 被任一查詢規則(不論是否上線)使用的幹預詞典不能被刪除,想要刪除需要首先解除使用。

功能限制

  • 停用詞幹預詞典一共可以建立20個。

  • 每次新增停用詞幹預詞條時,只支援填寫一個停用詞。

  • 每個停用詞詞典最多建立500個幹預詞條。

  • 停用詞幹預詞條按照分詞後的item進行匹配生效。例如,將“呢”幹預添加成為停用詞,那麼查詢“什麼面霜好呢”時,“呢”不會參與召回。

  • 添加的幹預內容均會進行大小寫和全半形歸一化處理,其中大寫字母會歸一化為小寫,全形會歸一化為半形。