在构建知识库前,请先将知识数据导入阿里云百炼,作为知识库的初始知识来源。
操作指南
导入本地文件
进入文件页签。
在左侧类目下,选择一个现有类目,或点击
图标新建类目。阿里云百炼通过类目管理导入的文件。
点击导入数据,进入导入数据界面。导入方式选择本地上传。
目前平台不支持直接导入JSON、CSV、YAML格式文件。请自行用相应工具将其转换为XLSX或XLS格式再导入。
解析方式可选默认设置或自定义设置(自定义设置可针对不同格式配置解析规则,以提升解析效果)。
为文件配置标签(可选)。
通过API调用应用时,可以在请求参数
tags中指定标签。应用在检索知识库时,会先根据标签筛选相关文件,从而提高检索效率。对于智能体应用,可在控制台调试知识库时设置标签。点击确认,系统将开始解析和导入,可在页面查看任务进度。
文件将被转换成阿里云百炼可处理的格式。在请求高峰时段,该过程可能需要数小时,请耐心等待。
导入完成后,点击相应文件右侧的详情即可查看导入的文件。
文件导入阿里云百炼后,将作为独立副本(与原始数据没有关联)存储在平台提供的免费空间中,当前无容量限制。
仅支持查看最近90天内导入的文件。超过此时间范围后,导入的文件将无法查看,但不会被删除。
导入的文件仅供当前业务空间的用户使用。阿里云百炼不会将其用于任何商业用途或对外公开。
导入本地表格
进入表格页签。
在左侧数据表下,选择一个现有数据表,或点击
图标新建数据表。阿里云百炼通过数据表管理导入的数据。
导入到新数据表
输入数据表名称。并配置数据表,选择可直接上传Excel或自定义表头。
直接上传Excel:阿里云百炼将自动识别上传文件中的表头,并据此来创建数据表结构,并将其余内容作为数据记录导入该表。
自定义表头:列名为必填参数,描述为选填参数,类型为必填参数。
重要数据表的结构(列名、描述以及类型)一旦确定,无法修改。
上传文件的表结构必须与待导入数据文件的结构(列数、列名)完全一致,否则导入会失败。例如,待导入的数据表有2列,这里的表结构必须配置2个字段,且列名需一一对应。可通过点击新增字段或操作列的删除,来增加或删减字段。
为帮助模型理解各字段含义(如
age表示年龄),请在“描述”中提供清晰的自然语言说明。若字段类型设为
image_url,请确保链接是公开可访问的图片URL。知识库会用此链接抓取图片并为其生成向量索引,用于以图搜图等场景。image_url格式示例:https://example.com/downloads/pic.jpg
创建知识库时,image_url类型字段用于生成图片索引。阿里云百炼会访问目标图片并提取其特征,然后通过图片Embedding转换为向量并保存。知识库检索时,会用该向量与用户上传图片的向量进行相似度比对。
点击
图标选择并上传文件(XLSX或XLS格式)。文件必须包含表头,否则会导入失败。
目前平台不支持直接导入JSON、CSV、YAML格式文件。请自行用相应工具将其转换为XLSX或XLS格式再导入。
点击确定,开始导入。完成后,左侧的数据表导航树中将出现新数据表。
导入到现有数据表
在左侧的数据表列表中选择相应的数据表,然后点击导入数据。
导入类型选择覆盖上传或增量上传。
点击界面上的下载模板,可获取一个仅包含表头的空白文件。您可直接在该文件中插入新数据,然后将其用于覆盖上传或增量上传。
点击
图标选择并上传文件(XLSX或XLS格式)。文件必须包含表头,且与当前数据表的表头结构一致,否则会导入失败。
目前平台不支持直接导入JSON、CSV、YAML格式文件。请自行用相应工具将其转换为XLSX或XLS格式再导入。
导入OSS文件
进入文件页签。
在左侧类目下,选择一个现有类目,或点击
图标新建类目。阿里云百炼通过类目管理导入的文件。
点击导入数据,进入导入数据界面。导入方式选择OSS。
首次从 OSS 向阿里云百炼导入数据,需按界面提示完成授权,并为目标 Bucket 添加
bailian-datahub-access标签以供阿里云百炼访问。操作指南请参见从OSS导入文件配置说明。不支持归档、冷归档或深度冷归档存储类型的 Bucket。
不支持访问 Bucket 根目录下的文件,请选择已有的子目录或新建一个子目录供阿里云百炼访问。
支持内容加密的 Bucket。支持私有的 Bucket。
如需使用开启Referer防盗链的Bucket,须参考仅允许受信任的网站访问将域名
*.console.aliyun.com添加到白名单Referer中。解析方式可选默认设置或自定义设置(自定义设置可针对不同格式配置解析规则,以提升解析效果)。
为文件配置标签(可选)。
通过API调用应用时,可以在请求参数
tags中指定标签。应用在检索知识库时,会先根据标签筛选相关文件,从而提高检索效率。对于智能体应用,可在控制台编辑应用时直接设置标签(启用)。点击确认,系统将开始解析和导入,可在页面查看任务进度。
文件将被转换成阿里云百炼可处理的格式。在请求高峰时段,该过程可能需要数小时,请耐心等待。
导入完成后,点击相应文件右侧的详情即可查看导入的文件。
文件导入阿里云百炼后,将作为独立副本(与原始数据没有关联)存储在平台提供的免费空间中,当前无容量限制。
导入的文件仅供当前业务空间的用户使用。阿里云百炼不会将其用于任何商业用途或对外公开。
下一步
更多
从OSS导入文件配置说明
首次从OSS导入文件时,需要授权阿里云百炼访问OSS资源。主账号与子账号的授权流程不同。
主账号授权
如下图所示,点击前往授权。

在弹出的对话框中,点击确认授权,系统将自动创建OSS服务关联角色,允许阿里云百炼访问OSS资源。
通常秒级生效,服务高峰期可能会稍有延迟。
遇到“本次请求失败,尝试重新提交试试或联系管理员,错误码:10041495”怎么办

为目标 OSS Bucket 添加
bailian-datahub-access标签。该标签用于标记阿里云百炼可访问的 Bucket,未标记的 Bucket 阿里云百炼无法访问。
访问OSS管理控制台,点击左侧导航栏中的Bucket 列表,找到目标 Bucket。
悬停鼠标在其
图标上,点击编辑(若未设置过标签)或前往编辑。在Bucket标签页面,点击创建标签(若未设置过标签)或设置。
点击标签,添加标签名为
bailian-datahub-access,标签值为read的标签,然后点击保存。
返回导入数据页面,重新选择目标 Bucket 再尝试导入。
注意:阿里云百炼不支持访问 Bucket 根目录下的文件,请选择已有的子目录或新建一个子目录供阿里云百炼访问。
子账号授权
如下图所示,点击前往授权。

在弹出的对话框中,点击确认授权。若界面提示授权失败、当前用户没有创建服务关联角色的权限,需先授予子账号创建服务关联角色的权限。
需主账号登录RAM控制台,在左侧导航栏,选择,然后点击页面上的创建权限策略。
点击脚本编辑,将下方提供的完整JSON策略复制并粘贴至编辑框,点击确定。
{ "Action": [ "ram:CreateServiceLinkedRole" ], "Resource": "*", "Effect": "Allow", "Condition": { "StringEquals": { "ram:ServiceName": "datahub.sfm.aliyuncs.com" } } }
输入权限策略名称后,点击确定。

在左侧导航栏,选择。在页面列表中找到待授权的子账号,然后点击子账号操作列的添加权限。
在权限策略中选择刚才创建的权限策略(自定义策略),点击确认新增授权。至此,子账号拥有了创建服务关联角色的权限。

授权子账号通过阿里云百炼访问OSS。
返回导入数据页面,点击前往授权。

在弹出的对话框中,点击确认授权,系统将自动创建OSS服务关联角色(必要条件)。
通常秒级生效,服务高峰期可能会稍有延迟。
遇到“本次请求失败,尝试重新提交试试或联系管理员,错误码:10041495”怎么办

为目标 OSS Bucket 添加
bailian-datahub-access标签。该标签用于标记阿里云百炼可访问的 Bucket,未标记的 Bucket 阿里云百炼无法访问。
访问OSS管理控制台,点击左侧导航栏中的Bucket 列表,找到目标Bucket。
悬停鼠标在其
图标上,点击编辑(若未设置过标签)或前往编辑。在Bucket标签页面,点击创建标签(若未设置过标签)或设置。
点击标签,添加标签名为
bailian-datahub-access,标签值为read的标签,然后点击保存。
返回导入数据页面,重新选择目标 Bucket 再尝试导入。
注意:阿里云百炼不支持访问 Bucket 根目录下的文件,请选择已有的子目录或新建一个子目录供阿里云百炼访问。
配额与限制
关于支持的数据格式与容量,请参见知识库配额与限制。


