全部产品
Search
文档中心

大模型服务平台百炼:数据导入

更新时间:Dec 25, 2025

在构建知识库前,请先将知识数据导入阿里云百炼,作为知识库的初始知识来源。

重要

操作指南

导入本地文件

  1. 进入文件页签。

  2. 在左侧类目下,选择一个现有类目,或点击image图标新建类目。

    阿里云百炼通过类目管理导入的文件。
  3. 点击导入数据,进入导入数据界面导入方式选择本地上传

    目前平台不支持直接导入JSON、CSV、YAML格式文件。请自行用相应工具将其转换为XLSX或XLS格式再导入。
  4. 解析方式可选默认设置自定义设置自定义设置可针对不同格式配置解析规则,以提升解析效果)。

    解析方式说明

    请根据实际需求配置解析策略,如不确定建议保持默认设置。

    • 电子文档解析:不支持解析文件中的插图与图表。

    • 文档智能解析:对于文件中的插图,解析器会识别并提取图中的文本,并生成文本摘要。这些摘要将与文件中其它非图片内容一起被切分并转换为向量,参与知识库的检索。

    • 大模型文档解析:使用通义千问VL模型的智能体应用支持用户对文件中插图和图表的内容进行提问。如需识别和理解文件中的插图与图表,请选择大模型文档解析

    • Qwen VL解析:仅支持解析图片格式。可自主选择通义千问VL模型,并通过传入Prompt指定模型需要识别的版面、元素及内容,其余功能与大模型文档解析一致。

    image

    image

    如何让阿里云百炼应用在回答中正常展示文件中的插图

  5. 为文件配置标签(可选)。

    通过API调用应用时,可以在请求参数tags中指定标签。应用在检索知识库时,会先根据标签筛选相关文件,从而提高检索效率。对于智能体应用,可在控制台调试知识库时设置标签。
  6. 点击确认,系统将开始解析和导入,可在页面查看任务进度。

    文件将被转换成阿里云百炼可处理的格式。在请求高峰时段,该过程可能需要数小时,请耐心等待。
  7. 导入完成后,点击相应文件右侧的详情即可查看导入的文件。

    文件导入阿里云百炼后,将作为独立副本(与原始数据没有关联)存储在平台提供的免费空间中,当前无容量限制。
    仅支持查看最近90天内导入的文件。超过此时间范围后,导入的文件将无法查看,但不会被删除。
    导入的文件仅供当前业务空间的用户使用。阿里云百炼不会将其用于任何商业用途或对外公开。

导入本地表格

  1. 进入表格页签。

  2. 在左侧数据表下,选择一个现有数据表,或点击image图标新建数据表。

    阿里云百炼通过数据表管理导入的数据。

    导入到新数据表

    1. 输入数据表名称。并配置数据表,选择可直接上传Excel自定义表头

      • 直接上传Excel:阿里云百炼将自动识别上传文件中的表头,并据此来创建数据表结构,并将其余内容作为数据记录导入该表。

      • 自定义表头:列名为必填参数,描述为选填参数,类型为必填参数。

        重要
        • 数据表的结构(列名、描述以及类型)一旦确定,无法修改。

        • 上传文件的表结构必须与待导入数据文件的结构(列数、列名)完全一致,否则导入会失败。例如,待导入的数据表有2列,这里的表结构必须配置2个字段,且列名需一一对应。可通过点击新增字段操作列的删除,来增加或删减字段。

        • 为帮助模型理解各字段含义(如 age 表示年龄),请在“描述”中提供清晰的自然语言说明。

        • 若字段类型设为 image_url,请确保链接是公开可访问的图片URL。知识库会用此链接抓取图片并为其生成向量索引,用于以图搜图等场景。

          image_url格式示例:https://example.com/downloads/pic.jpg
          创建知识库时,image_url类型字段用于生成图片索引。阿里云百炼会访问目标图片并提取其特征,然后通过图片Embedding转换为向量并保存。知识库检索时,会用该向量与用户上传图片的向量进行相似度比对。
    2. 点击image图标选择并上传文件(XLSX或XLS格式)。

      文件必须包含表头,否则会导入失败。
      目前平台不支持直接导入JSON、CSV、YAML格式文件。请自行用相应工具将其转换为XLSX或XLS格式再导入。
    3. 点击确定,开始导入。完成后,左侧的数据表导航树中将出现新数据表。

    导入到现有数据表

    1. 在左侧的数据表列表中选择相应的数据表,然后点击导入数据

    2. 导入类型选择覆盖上传增量上传

      点击界面上的下载模板,可获取一个仅包含表头的空白文件。您可直接在该文件中插入新数据,然后将其用于覆盖上传或增量上传。
    3. 点击image图标选择并上传文件(XLSX或XLS格式)。

      文件必须包含表头,且与当前数据表的表头结构一致,否则会导入失败。
      目前平台不支持直接导入JSON、CSV、YAML格式文件。请自行用相应工具将其转换为XLSX或XLS格式再导入。

导入OSS文件

  1. 进入文件页签。

  2. 在左侧类目下,选择一个现有类目,或点击image图标新建类目。

    阿里云百炼通过类目管理导入的文件。
  3. 点击导入数据,进入导入数据界面导入方式选择OSS

    首次从 OSS 向阿里云百炼导入数据,需按界面提示完成授权,并为目标 Bucket 添加bailian-datahub-access标签以供阿里云百炼访问。操作指南请参见从OSS导入文件配置说明
    不支持归档、冷归档或深度冷归档存储类型的 Bucket。
    不支持访问 Bucket 根目录下的文件,请选择已有的子目录或新建一个子目录供阿里云百炼访问。
    支持内容加密的 Bucket。支持私有的 Bucket。
    如需使用开启Referer防盗链的Bucket,须参考仅允许受信任的网站访问将域名*.console.aliyun.com添加到白名单Referer中。
  4. 解析方式可选默认设置自定义设置自定义设置可针对不同格式配置解析规则,以提升解析效果)。

    解析方式说明

    请根据实际需求配置解析策略,如不确定建议保持默认设置。

    • 电子文档解析:不支持解析文件中的插图与图表。

    • 文档智能解析:对于文件中的插图,解析器会识别并提取图中的文本,并生成文本摘要。这些摘要将与文件中其它非图片内容一起被切分并转换为向量,参与知识库的检索。

    • 大模型文档解析:使用通义千问VL模型的智能体应用支持用户对文件中插图和图表的内容进行提问。如需识别和理解文件中的插图与图表,请选择大模型文档解析

    • Qwen VL解析:仅支持解析图片格式。可自主选择通义千问VL模型,并通过传入Prompt指定模型需要识别的版面、元素及内容,其余功能与大模型文档解析一致。

    image

    image

    如何让阿里云百炼应用在回答中正常展示文件中的插图

  5. 为文件配置标签(可选)。

    通过API调用应用时,可以在请求参数tags中指定标签。应用在检索知识库时,会先根据标签筛选相关文件,从而提高检索效率。对于智能体应用,可在控制台编辑应用时直接设置标签(启用知识库 > +知识库 > 知识库高级配置 > 标签过滤)。
  6. 点击确认,系统将开始解析和导入,可在页面查看任务进度。

    文件将被转换成阿里云百炼可处理的格式。在请求高峰时段,该过程可能需要数小时,请耐心等待。
  7. 导入完成后,点击相应文件右侧的详情即可查看导入的文件。

    文件导入阿里云百炼后,将作为独立副本(与原始数据没有关联)存储在平台提供的免费空间中,当前无容量限制。
    导入的文件仅供当前业务空间的用户使用。阿里云百炼不会将其用于任何商业用途或对外公开。

下一步

创建知识库

更多

从OSS导入文件配置说明

首次从OSS导入文件时,需要授权阿里云百炼访问OSS资源。主账号与子账号的授权流程不同。

主账号授权

  1. 如下图所示,点击前往授权

    image

  2. 在弹出的对话框中,点击确认授权,系统将自动创建OSS服务关联角色,允许阿里云百炼访问OSS资源。

    通常秒级生效,服务高峰期可能会稍有延迟。
    遇到“本次请求失败,尝试重新提交试试或联系管理员,错误码:10041495”怎么办

    image

  3. 为目标 OSS Bucket 添加bailian-datahub-access标签。

    该标签用于标记阿里云百炼可访问的 Bucket,未标记的 Bucket 阿里云百炼无法访问。
    1. 访问OSS管理控制台,点击左侧导航栏中的Bucket 列表,找到目标 Bucket。

    2. 悬停鼠标在其image图标上,点击编辑(若未设置过标签)或前往编辑

    3. 在Bucket标签页面,点击创建标签(若未设置过标签)或设置

    4. 点击标签,添加标签名为bailian-datahub-access,标签值为read的标签,然后点击保存

      image

  4. 返回导入数据页面,重新选择目标 Bucket 再尝试导入。

    注意:阿里云百炼不支持访问 Bucket 根目录下的文件,请选择已有的子目录或新建一个子目录供阿里云百炼访问。

子账号授权

  1. 如下图所示,点击前往授权

    image

  2. 在弹出的对话框中,点击确认授权。若界面提示授权失败当前用户没有创建服务关联角色的权限,需先授予子账号创建服务关联角色的权限。

    1. 需主账号登录RAM控制台,在左侧导航栏,选择权限管理 > 权限策略,然后点击页面上的创建权限策略

    2. 点击脚本编辑,将下方提供的完整JSON策略复制并粘贴至编辑框,点击确定

      {
          "Action": [
              "ram:CreateServiceLinkedRole"
          ],
          "Resource": "*",
          "Effect": "Allow",
          "Condition": {
              "StringEquals": {
                  "ram:ServiceName": "datahub.sfm.aliyuncs.com"
              }
          }
      }

      image

    3. 输入权限策略名称后,点击确定

      image

    4. 在左侧导航栏,选择身份管理 > 用户。在页面列表中找到待授权的子账号,然后点击子账号操作列的添加权限

    5. 在权限策略中选择刚才创建的权限策略(自定义策略),点击确认新增授权。至此,子账号拥有了创建服务关联角色的权限。

      image

  3. 授权子账号通过阿里云百炼访问OSS。

    1. 返回导入数据页面,点击前往授权

      image

    2. 在弹出的对话框中,点击确认授权,系统将自动创建OSS服务关联角色(必要条件)。

      通常秒级生效,服务高峰期可能会稍有延迟。
      遇到“本次请求失败,尝试重新提交试试或联系管理员,错误码:10041495”怎么办

      image

  4. 为目标 OSS Bucket 添加bailian-datahub-access标签。

    该标签用于标记阿里云百炼可访问的 Bucket,未标记的 Bucket 阿里云百炼无法访问。
    1. 访问OSS管理控制台,点击左侧导航栏中的Bucket 列表,找到目标Bucket。

    2. 悬停鼠标在其image图标上,点击编辑(若未设置过标签)或前往编辑

    3. 在Bucket标签页面,点击创建标签(若未设置过标签)或设置

    4. 点击标签,添加标签名为bailian-datahub-access,标签值为read的标签,然后点击保存

      image

  5. 返回导入数据页面,重新选择目标 Bucket 再尝试导入。

    注意:阿里云百炼不支持访问 Bucket 根目录下的文件,请选择已有的子目录或新建一个子目录供阿里云百炼访问。

配额与限制

关于支持的数据格式与容量,请参见知识库配额与限制

常见问题

权限与安全

  • 数据导入时,遇到报错“缺少该模块的权限”,应如何处理?

    RAM用户(子账号)默认无法执行数据导入、创建知识库等写入类操作,需阿里云账号(主账号)为其授予管理员(或至少包含应用数据-操作知识库-操作页面权限

导入OSS文件

  • 导入OSS文件遇到“10041495”报错,应如何处理?

    一般是由于主账号尚未开通对象存储服务 OSS,处理步骤:

    1. 需主账号前往OSS管理控制台,按界面指引开通 OSS。

    2. 返回阿里云百炼导入数据页面,再尝试授权。