すべてのプロダクト
Search
ドキュメントセンター

:CreateIndex

最終更新日:Aug 13, 2025

非構造化ナレッジベースを作成し、1 つ以上の解析済みドキュメントをインポートします。この操作では、構造化ナレッジベースの作成はサポートされていません。構造化ナレッジベースを作成するには、コンソールを使用する必要があります。

操作説明

  • RAM ユーザーは、この操作を呼び出す前に、Alibaba Cloud Model Studio の必要な API 権限を取得し (必要な API 権限を取得する)、ワークスペースに参加する (ワークスペースに参加する) 必要があります。必要な権限には、sfm:CreateIndex 権限を含む AliyunBailianDataFullAccess が含まれます。Alibaba Cloud アカウントは、認証なしでこの操作を呼び出すことができます。この操作は、Alibaba Cloud Model Studio SDK の最新バージョンを使用して呼び出してください。

  • ソースドキュメントを Alibaba Cloud Model Studio の アプリケーションデータ ページにアップロードし、対応する FileId を取得します。この FileId は、ナレッジベースの初期ナレッジソースです。ドキュメントをアップロードするには、AddFile 操作を呼び出します。詳細については、「ナレッジベース API ガイド」をご参照ください。

  • この操作は、ナレッジベースの作成ジョブを初期化するだけです。その後、[SubmitIndexJob] 操作を呼び出して作成を完了します。そうしないと、空のナレッジベースが作成されます。

  • この操作はべき等ではありません。

スロットリング この操作の呼び出しはスロットリングされます。1 秒あたり 10 回の呼び出しの頻度を超えないでください。呼び出しがスロットリングされた場合は、後でもう一度試してください。

今すぐお試しください

この API を OpenAPI Explorer でお試しください。手作業による署名は必要ありません。呼び出しに成功すると、入力したパラメーターに基づき、資格情報が組み込まれた SDK コードが自動的に生成されます。このコードをダウンロードしてローカルで使用できます。

テスト

RAM 認証

下表に、この API を呼び出すために必要な認証情報を示します。認証情報は、RAM (Resource Access Management) ポリシーを使用して定義できます。以下で各列名について説明します。

  • アクション:特定のリソースに対して実行可能な操作。ポリシー構文ではAction要素として指定します。

  • API:アクションを具体的に実行するための API。

  • アクセスレベル:各 API に対して事前定義されているアクセスの種類。有効な値:create、list、get、update、delete。

  • リソースタイプ:アクションが作用するリソースの種類。リソースレベルでの権限をサポートするかどうかを示すことができます。ポリシーの有効性を確保するため、アクションの対象として適切なリソースを指定してください。

    • リソースレベルの権限を持つ API の場合、必要なリソースタイプはアスタリスク (*) でマークされます。ポリシーのResource要素で対応する ARN を指定してください。

    • リソースレベルの権限を持たない API の場合、「すべてのリソース」と表示され、ポリシーのResource要素でアスタリスク (*) でマークされます。

  • 条件キー:サービスによって定義された条件のキー。このキーにより、きめ細やかなアクセス制御が可能になります。この制御は、アクション単体に適用することも、特定のリソースに対するアクションに適用することもできます。Alibaba Cloud は、サービス固有の条件キーに加えて、すべての RAM 統合サービスに適用可能な一連の共通条件キーを提供しています。

  • 依存アクション:ある特定のアクションを実行するために、前提として実行が必要となる他のアクション。依存アクションの権限も RAM ユーザーまたは RAM ロールに付与する必要があります。

アクション

アクセスレベル

リソースタイプ

条件キー

依存アクション

sfm:CreateIndex

作成

*すべてのリソース

*

なし なし

リクエスト構文

POST /{WorkspaceId}/index/create HTTP/1.1

リクエストパラメーター

パラメーター

タイプ

必須 / 任意

説明

WorkspaceId

文字列

必須

ナレッジベースが作成されるワークスペースの ID。ワークスペース ID の取得方法については、「ワークスペースの使用方法」をご参照ください。

llm-3z7uw7fwz0vexxxx

Name

文字列

必須

ナレッジベースの名前。名前は 1 ~ 20 文字で、Unicode 標準の文字 (英字、漢字、数字を含む) を使用できます。コロン (:)、アンダースコア (_)、ピリオド (.)、またはハイフン (-) も使用できます。

企業ヘルプドキュメントライブラリ

StructureType

文字列

必須

ナレッジベースのデータ型。詳細については、「ナレッジベース」をご参照ください。有効な値:

  • unstructured

説明

ナレッジベースのデータ型は、作成後に変更することはできません。API を呼び出して、構造化ドキュメントを管理するナレッジベースを作成することはできません。このタイプのナレッジベースを作成するには、コンソールを使用します。

unstructured

EmbeddingModelName

文字列

任意

  • 埋め込みモデルの名前。埋め込みモデルは、元の入力プロンプトとナレッジテキストを数値ベクトルに変換して、類似性を比較します。デフォルトの text-embedding-v2 モデルは変更できません。このモデルは、中国語や英語など、複数の言語をサポートし、ベクトル結果を正規化します。詳細については、「ナレッジベース」をご参照ください。有効な値:

  • text-embedding-v2: text-embedding-v2 モデル。

デフォルト値は null で、これはサービスが text-embedding-v2 モデルを使用することを意味します。

text-embedding-v2

RerankModelName

文字列

任意

ランクモデルの名前。ランクモデルは、ナレッジベースの外部スコアリングシステムです。ユーザーの質問とナレッジベースの各テキストセグメント間の類似性スコアを計算し、スコアの高い順にセグメントをソートし、スコアの高い上位 K 個のセグメントを返します。詳細については、「ナレッジベース」をご参照ください。有効な値:

  • gte-rerank-hybrid: 公式のソート方法。

  • gte-rerank: gte-rerank ソート方法。

このパラメーターを指定しない場合、システムはデフォルトで gte-rerank-hybrid を使用します。

説明

意味的ソートのみが必要な場合は、gte-rerank メソッドを使用します。関連性を確保するために意味的ソートとテキストマッチング機能の両方必要な場合は、gte-rerank-hybrid メソッドを使用します。

gte-rerank-hybrid

RerankMinScore

数値

任意

類似度のしきい値。このしきい値は、テキストセグメントがリコールされるための最小類似性スコアを指定します。ランクモデルによって返されるテキストセグメントをフィルタリングするために使用されます。この値を超えるスコアを持つセグメントのみがリコールされます。詳細については、「ナレッジベース」をご参照ください。値は [0.01, 1.00] の範囲内である必要があります。

デフォルト値は 0.20 です。

0.20

ChunkSize

整数

任意

セグメントの長さは、各テキストセグメントの最大文字数を指定します。この長さを超えるテキストは、チャンキングモードに従って処理されます。

値は 1 ~ 6,000 の整数である必要があります。このパラメーターを指定しない場合、デフォルト値は 500 です。

詳細については、「ナレッジベース」をご参照ください。

説明

ChunkSize パラメーターを 100 未満の値に設定する場合は、OverlapSize パラメーターも指定する必要があります。両方のパラメーターを指定しないままにして、デフォルト値を使用することもできます。

128

OverlapSize

整数

任意

セグメントの重複の長さ。現在のテキストセグメントと前のテキストセグメントの重複文字数を表します。詳細については、「ナレッジベース」をご参照ください。値は 0 ~ 1,024 の範囲内である必要があります。

このパラメーターを指定しない場合、デフォルト値の 100 が使用されます。

説明

OverlapSize の値は、ChunkSize の値よりも小さい必要があります。そうでない場合、チャンキングエラーが発生する可能性があります。

16

Separator

文字列

任意

説明

このパラメーターはまだ使用できません。指定しないでください。

(?<=。)

SourceType

文字列

任意

アプリケーションデータ のデータ型。 詳細については、「ナレッジベース」をご参照ください。有効な値:

  • DATA_CENTER_CATEGORY: アプリケーションデータ の指定されたカテゴリ以下のすべてのドキュメントをインポートします。複数のカテゴリをインポートできます。

  • DATA_CENTER_FILE: アプリケーションデータ から指定されたドキュメントをインポートします。複数のドキュメントをインポートできます。

説明

このパラメーターを DATA_CENTER_CATEGORY に設定する場合は、CategoryIds パラメーターを指定する必要があります。このパラメーターを DATA_CENTER_FILE に設定する場合は、DocumentIds パラメーターを指定する必要があります。

説明

空のナレッジベースを作成するには、ファイルを含まない空のカテゴリを使用できます。このパラメーターを DATA_CENTER_CATEGORY に設定し、CategoryIds に空のカテゴリの ID を指定します。

DATA_CENTER_FILE

DocumentIds

配列

任意

ナレッジベースにインポートされるドキュメントの ID のリスト。

文字列

任意

ドキュメント ID。これは、[AddFile] 操作によって返される FileId です。アプリケーションデータ ページで、ファイル名の横にある ID アイコンをクリックして ID を取得することもできます。

file_9a65732555b54d5ea10796ca5742ba22_xxxxxxxx

CategoryIds

配列

任意

ナレッジベースにインポートされるカテゴリの ID のリスト。

文字列

任意

カテゴリ ID。これは、[AddCategory] 操作によって返される CategoryId です。アプリケーションデータ ページで、カテゴリの横にあるアイコンをクリックして ID を取得することもできます。指定されたカテゴリ ID の下のドキュメントは、ナレッジベースにインポートされます。

ca_hiu2383nfxxxx

TableIds

配列

任意

文字列

任意

DataSource

オブジェクト

任意

説明

このパラメーターはまだ使用できません。指定しないでください。

CredentialId

文字列

任意

説明

このパラメーターはまだ使用できません。指定しないでください。

CredentialKey

文字列

任意

説明

このパラメーターはまだ使用できません。指定しないでください。

Database

文字列

任意

説明

このパラメーターはまだ使用できません。指定しないでください。

Endpoint

文字列

任意

説明

このパラメーターはまだ使用できません。指定しないでください。

Region

文字列

任意

説明

このパラメーターはまだ使用できません。指定しないでください。

SubPath

文字列

任意

説明

このパラメーターはまだ使用できません。指定しないでください。

SubType

文字列

任意

説明

このパラメーターはまだ使用できません。指定しないでください。

Table

文字列

任意

説明

このパラメーターはまだ使用できません。指定しないでください。

Type

文字列

任意

説明

このパラメーターはまだ使用できません。指定しないでください。

SinkType

文字列

必須

ナレッジベースのベクトルデータベースのストレージタイプ。詳細については、「ナレッジベース」をご参照ください。有効な値:

  • BUILT_IN: 組み込みベクトルデータベース。

  • ADB: AnalyticDB for PostgreSQL データベース。データベース管理、監査、監視などの高度な機能が必要な場合は、ADB を選択することをお勧めします。

説明

Alibaba Cloud Model Studio で ADB ストレージを使用したことがない場合は、ナレッジベースの作成 ページに移動し、ベクトルストレージタイプを ADB-PG に設定し、プロンプトに従って認証を完了します。このパラメーターを ADB に設定する場合は、SinkInstanceId パラメーターと SinkRegion パラメーターを指定する必要があります。

BUILT_IN

SinkInstanceId

文字列

任意

ナレッジベースのベクトルデータベースのインスタンス ID。ベクトルストレージタイプが ADB の場合にのみ、このパラメーターを指定します。この ID は、AnalyticDB for PostgreSQL インスタンス ページから取得できます。

gp-bp32109xxxx

SinkRegion

文字列

任意

ベクトルデータベースのインスタンスのリージョン。ベクトルストレージタイプが ADB の場合にのみ、このパラメーターを指定します。DescribeRegions 操作を呼び出して、Alibaba Cloud リージョンの最新リストを表示できます。

cn-hangzhou

Columns

オブジェクトの配列

任意

説明

このパラメーターはまだ使用できません。指定しないでください。

オブジェクト

任意

Column

文字列

任意

説明

このパラメーターはまだ使用できません。指定しないでください。

school

IsRecall

ブール値

任意

説明

このパラメーターはまだ使用できません。指定しないでください。

true

IsSearch

ブール値

任意

説明

このパラメーターはまだ使用できません。指定しないでください。

true

Name

文字列

任意

説明

このパラメーターはまだ使用できません。指定しないでください。

学校

Type

文字列

任意

説明

このパラメーターはまだ使用できません。指定しないでください。

string

Description

文字列

任意

ナレッジベースの説明。説明は最大 1,000 文字まで入力できます。 デフォルト値は空です。

企業ヘルプドキュメントライブラリには、会社制度、製品リストなどの重要な資料が含まれています。

metaExtractColumns

オブジェクトの配列

任意

メタデータ。メタデータは、非構造化ドキュメントのコンテンツに関連する一連の追加属性です。これらの属性は、キーと値のペアとしてテキストセグメントに統合されます。詳細については、「ナレッジベース」をご参照ください。

オブジェクト

任意

Key

文字列

任意

メタデータフィールド。フィールド名は 1 ~ 50 文字で、英字またはアンダースコア (_) で構成する必要があります。このパラメーターを指定する場合は、Value パラメーターと Type パラメーターも指定する必要があります。

author

Value

文字列

任意

メタデータフィールドの値。

Tim

Type

文字列

任意

メタデータフィールドの値を取得する方法。有効な値:

  • constant

  • variable

  • custom_prompt: 大規模言語モデル

  • regular: 正規表現

  • keywords: キーワード検索

constant

Desc

文字列

任意

メタデータフィールドの日本語の説明。説明は最大 1,000 文字まで入力でき、Unicode 標準の文字 (英字、漢字、数字を含む) を使用できます。コロン (:)、アンダースコア (_)、ピリオド (.)、またはハイフン (-) も使用できます。デフォルト値は空です。

作者名

EnableLlm

ブール値

任意

この機能を有効にすると、メタデータフィールドとその値は、大規模言語モデルの応答生成プロセスでテキストセグメントのコンテンツとともに使用されます。有効な値:

  • true: 有効。

  • false: 無効。

デフォルト値は false です。

false

EnableSearch

ブール値

任意

この機能を有効にすると、メタデータフィールドとその値は、ナレッジベースの取得プロセスでテキストセグメントのコンテンツとともに使用されます。有効な値:

  • true: 有効。

  • false: 無効。

デフォルト値は false です。

false

enableHeaders

ブール値

任意

非構造化ナレッジベースで Excel ドキュメントのテーブルヘッダーを処理するかどうかを指定します。この機能を有効にすると、ナレッジベースはすべての XLSX および XLS ドキュメントの最初の行をテーブルヘッダーとして扱い、後続の各データ行 (テキストセグメント) に自動的に追加します。これにより、大規模言語モデルがテーブルヘッダーを通常のデータ行として扱うことを防ぎます。

説明

インポートされたすべてのドキュメントが XLSX または XLS 形式で、テーブルヘッダーが含まれている場合にのみ、この機能を有効にすることをお勧めします。

有効な値:

  • true: 有効。

  • false: 無効。

デフォルト値は false です。

false

chunkMode

文字列

任意

説明

このパラメーターはまだ使用できません。このパラメーターを指定しないでください。

regex

EnableRewrite

ブール値

任意

複数ターンのセッション書き換えを有効にするかどうかを指定します。詳細については、「ナレッジベース」をご参照ください。有効な値:

  • true: 有効。

  • false: 無効。

デフォルト値は false です。

true

CreateIndexType

文字列

任意

説明

このパラメーターはまだ使用できません。指定しないでください。

レスポンスパラメーター

パラメーター

タイプ

説明

オブジェクト

レスポンス本文。

Code

文字列

エラーコード。

Index.Forbidden

Data

オブジェクト

操作に対して返されるデータ。

Id

文字列

ナレッジベースの ID (IndexId とも呼ばれます)。

説明

この ID を保存してください。このナレッジベースに関連する後続のすべての API 操作で必要になります。

jkurxhxxxx

Message

文字列

エラーメッセージ。

無効な入力です。変数名がありません。

RequestId

文字列

リクエスト ID。

17204B98-xxxx-4F9A--2446A84821CA

Status

文字列

レスポンスの状態コード。

200

Success

ブール値

リクエストが成功したかどうかを示します。有効な値:

  • true: リクエストは成功しました。

  • false: リクエストは失敗しました。

true

成功レスポンス

JSONJSON

{
  "Code": "Index.Forbidden", // エラーコード
  "Data": {
    "Id": "jkurxhxxxx" // ナレッジベースID
  },
  "Message": "Invalid input, variable name is missing", // エラーメッセージ。無効な入力です。変数名がありません。
  "RequestId": "17204B98-xxxx-4F9A--2446A84821CA", // リクエストID
  "Status": "200", // ステータスコード
  "Success": true // 成功かどうか
}

エラーコード

完全なリストについては、「エラーコード」をご参照ください。

変更履歴

完全なリストについては、「変更履歴」をご参照ください。