全部產品
Search
文件中心

OpenSearch:Object Storage Service

更新時間:Nov 23, 2024

開通OSS服務

image.png

  1. 開通OSS服務

  2. 控制台建立儲存空間

  3. 控制台上傳檔案

添加OSS資料來源

  1. 進入OpenSearch控制台,在左上方切換到OpenSearch-召回引擎版,在執行個體管理頁面對應的列表中找到所屬執行個體,點擊操作欄中的管理:image.png

  2. 配置資料來源。

    在左側導覽列,選擇配置中心>資料來源,點擊添加資料來源,選擇Object Storage Service,輸入資料來源名稱OSS路徑儲存空間,然後點擊校正即可:

image.png

參數說明

  • 資料來源名稱:可自訂資料來源名稱(需字母開頭,支援字母數字底線)

  • OSS路徑:訪問OSS檔案的路徑

  • 儲存空間(Bucket):OSS的Bucket名稱

說明
  • 目錄名必須包含opensearch,否則將無法讀到資料,且不可包含 = & ?等特殊符號

  • OSS路徑來源:在建立好的Bucket名稱點擊進入後-建立目錄-選擇建立好的目錄路徑,此處樣本路徑為/opensearch_index_data/:

image.png

  • 儲存空間(Bucket) :OSS的Bucket名稱(來源:在開通的OSS服務Bucket裡使用建立好的Bucket名稱-如下圖所示)

image.png

  1. 添加索引表

    1. OSS資料來源建立好後,在配置中心>索引結構添加索引表image.png

    2. 配置索引表,索引表名稱可自訂,資料來源選擇配置好的OSS資料來源:

image.png

案例中配置了2個欄位pk、embeddings,範例資料可參考(樣本資料:oss_test.txt

CMD=add
pk=999000
embeddings=0.00.0039257140.0098142860.0039257140.00
pk=999000
embeddings=0.00.0039257140

HA schema的資料格式可參考下方HA檔案格式。

  1. 索引重建,在營運中心>營運管理>索引重建頁面中觸發索引重建:

image.png

索引重建完成後,即可進行查詢測試。

HA檔案格式

檔案是建立索引的資料來源(注意:需要是utf-8的編碼),有著固定的格式,下面介紹標準的輸入格式。

  • 首先看一個完整的資料檔案standard_sample.data的內容

CMD=add^_
PK=12345321^_
url=http://www.aliyun.com/index.html^_
title=阿里雲計算有限公司^_
body=xxxxxx xxx^_
time=3123423421^_
multi_value_field=1234^]324^]342^_
bidwords=mp3^\price=35.8^Ptime=13867236221^]mp4^\price=32.8^Ptime=13867236221^_
^^
CMD=delete^_
PK=12345321^_CMD=add^_
PK=12345321^_
url=http://www.aliyun.com/index.html^_
title=阿里雲計算有限公司^_
body=xxxxxx xxx^_
time=3123423421^_
multi_value_field=1234^]324^]342^_
bidwords=mp3^\price=35.8^Ptime=13867236221^]mp4^\price=32.8^Ptime=13867236221^_
^^
CMD=delete^_
PK=12345321^_

可以看到上面的資料檔案中總共有兩個命令,分別是add、delete每個命令由多行組成,每行都是一個key-value對。 命令與命令之間用'^^\n'分隔,每一對key-value之間以'^_\n'分隔,多值之間以'^]'分隔。下面詳細介紹。

  • 檔案分隔字元定義

C++編碼

ASCII

16進位

描述

(emacs/vi)中的顯示形態

emacs中輸入方法

vi中輸入方法

"\x1F\n"

1F0A

key value分隔字元

^_(接換行)

C-q C-7

C-v C-7

"\x1E\n"

1E0A

命令分隔字元

^^(接換行)

C-q C-6

C-v C-6

"\x1D"

1D

multi value 分隔字元

^]

C-q C-5

C-v C-5

"\x1C"

1C

section weight標誌符

^\

C-q C-4

C-v C-4

"\x1D"

1D

section 分隔字元

^]

C-q C-5

C-v C-5

"\x03"

03

sub doc 欄位分隔符號

^C

C-q C-c

C-v C-c

  • 命令格式定義

    • Add command format

      add命令表示往索引中增加新的內容。

      add命令第一行必須為CMD=add,後面是該文檔的field,field順序可以與schema中fields順序一致,所有出現的field必須是fields中指定的。

CMD=add^_
PK=12345321^_
url=http://www.aliyun.com/index.html^_
title=阿里雲計算有限公司^_
body=xxxxxx xxx^_
time=3123423421^_
multi_value_field=1234^]324^]342^_
bidwords=mp3^\price=35.8^Ptime=13867236221^]mp4^\price=32.8^Ptime=13867236221^_
^^CMD=add^_
PK=12345321^_
url=http://www.aliyun.com/index.html^_
title=阿里雲計算有限公司^_
body=xxxxxx xxx^_
time=3123423421^_
multi_value_field=1234^]324^]342^_
bidwords=mp3^\price=35.8^Ptime=13867236221^]mp4^\price=32.8^Ptime=13867236221^_
^^

  • Delete command format

    delete命令表示從索引中刪除指定的內容。

    delete命令第一"行"必須為CMD=delete,接下來的"行"為index schema中定義屬性為primary key 的field,以及用於

    partition hash的field,如果兩個field相同,則只需要出現一個field。

CMD=delete^_
PK=12345321^_
^^CMD=delete^_
PK=12345321^_
^^

刪除OSS資料來源

資料來源配置頁面,找到需要刪除的資料來源,點擊刪除即可:

image.png

注意

  • 資料來源刪除後將無法恢複,請謹慎操作:

image.png

  • 如果OSS資料來源已經配置了索引表,需先刪除索引表,才能刪除該OSS資料來源。

注意事項

  • 開通的OSS服務,需要和已購買的OpenSearch服務在同一個地區

  • 召回引擎版不支援無地區屬性的OSS的bucket

  • 執行新增OSS資料來源操作時,將會自動建立一個服務關聯角色(如已經建立,則不會重複建立)AliyunServiceRoleForSearchEngine,OpenSearch使用此角色來訪問您在其他雲產品中的資源已完成相應功能。