全部產品
Search
文件中心

Alibaba Cloud Model Studio:資料匯入

更新時間:Dec 26, 2025

在構建知識庫前,請先將知識資料匯入阿里雲百鍊,作為知識庫的初始知識來源。

重要

操作指南

匯入本地檔案

  1. 進入檔案頁簽。

  2. 在左側類目下,選擇一個現有類目,或點擊image表徵圖建立類目。

    阿里雲百鍊通過類目管理匯入的檔案。
  3. 點擊匯入資料,進入匯入資料介面匯入方式選擇本地上傳

    目前平台不支援直接匯入JSON、CSV、YAML格式檔案。請自行用相應工具將其轉換為XLSX或XLS格式再匯入。
  4. 解析方式可選預設設定自訂設定自訂設定可針對不同格式配置解析規則,以提升解析效果)。

    解析方式說明

    請根據實際需求配置解析策略,如不確定建議保持預設設定。

    • 電子文檔解析:不支援解析檔案中的插圖與圖表。

    • 文檔智能解析:對於檔案中的插圖,解析器會識別並提取圖中的文本,並產生文本摘要。這些摘要將與檔案中其它非圖片內容一起被切分並轉換為向量,參與知識庫的檢索。

    • 大模型文檔解析:使用通義千問VL模型的智能體應用支援使用者對檔案中插圖和圖表的內容進行提問。如需識別和理解檔案中的插圖與圖表,請選擇大模型文檔解析

    • Qwen VL解析:僅支援解析圖片格式。可自主選擇通義千問VL模型,並通過傳入Prompt指定模型需要識別的版面、元素及內容,其餘功能與大模型文檔解析一致。

    image

    image

    如何讓阿里雲百鍊應用在回答中正常展示檔案中的插圖

  5. 為檔案配置標籤(可選)。

    通過API調用應用時,可以在請求參數tags中指定標籤。應用在檢索知識庫時,會先根據標籤篩選相關檔案,從而提高檢索效率。對於智能體應用,可在控制台調試知識庫時設定標籤。
  6. 點擊確認,系統將開始解析和匯入,可在頁面查看任務進度。

    檔案將被轉換成阿里雲百鍊可處理的格式。在請求高峰時段,該過程可能需要數小時,請耐心等待。
  7. 匯入完成後,點擊相應檔案右側的詳情即可查看匯入的檔案。

    檔案匯入阿里雲百鍊後,將作為獨立副本(與未經處理資料沒有關聯)儲存在平台提供的免費空間中,當前無容量限制。
    僅支援查看最近90天內匯入的檔案。超過此時間範圍後,匯入的檔案將無法查看,但不會被刪除。
    匯入的檔案僅供當前業務空間的使用者使用。阿里雲百鍊不會將其用於任何商業用途或對外公開。

匯入本地表格

  1. 進入表格頁簽。

  2. 在左側資料表下,選擇一個現有資料表,或點擊image表徵圖建立資料表。

    阿里雲百鍊通過資料表管理匯入的資料。

    匯入到新資料表

    1. 輸入資料表名稱。並配置資料表,選擇可直接上傳Excel自訂表格頭

      • 直接上傳Excel:阿里雲百鍊將自動識別上傳檔案中的表頭,並據此來建立資料表結構,並將其餘內容作為資料記錄匯入該表。

      • 自訂表格頭:列名為必填參數,描述為選填參數,類型為必填參數。

        重要
        • 資料表的結構(列名、描述以及類型)一旦確定,無法修改。

        • 上傳檔案的表結構必須與待匯入資料檔案的結構(列數、列名)完全一致,否則匯入會失敗。例如,待匯入的資料表有2列,這裡的表結構必須配置2個欄位,且列名需一一對應。可通過點擊新增欄位操作列的刪除,來增加或刪減欄位。

        • 為協助模型理解各欄位含義(如 age 表示年齡),請在“描述”中提供清晰的自然語言說明。

        • 若欄位類型設為 image_url,請確保連結是公開可訪問的圖片URL。知識庫會用此連結抓取圖片並為其產生向量索引,用於以圖搜圖等情境。

          image_url格式樣本:https://example.com/downloads/pic.jpg
          建立知識庫時,image_url類型欄位用於產生圖片索引。阿里雲百鍊會訪問靶心圖表片並提取其特徵,然後通過圖片Embedding轉換為向量並儲存。知識庫檢索時,會用該向量與使用者上傳圖片的向量進行相似性比對。
    2. 點擊image表徵圖選擇並上傳檔案(XLSX或XLS格式)。

      檔案必須包含表頭,否則會匯入失敗。
      目前平台不支援直接匯入JSON、CSV、YAML格式檔案。請自行用相應工具將其轉換為XLSX或XLS格式再匯入。
    3. 點擊確定,開始匯入。完成後,左側的資料表導航樹中將出現新資料表。

    匯入到現有資料表

    1. 在左側的資料表列表中選擇相應的資料表,然後點擊匯入資料

    2. 匯入類型選擇覆蓋上傳增量上傳

      點擊介面上的下載模板,可擷取一個僅包含表頭的空白檔案。您可直接在該檔案中插入新資料,然後將其用於覆蓋上傳或增量上傳。
    3. 點擊image表徵圖選擇並上傳檔案(XLSX或XLS格式)。

      檔案必須包含表頭,且與當前資料表的表頭結構一致,否則會匯入失敗。
      目前平台不支援直接匯入JSON、CSV、YAML格式檔案。請自行用相應工具將其轉換為XLSX或XLS格式再匯入。

匯入OSS檔案

  1. 進入檔案頁簽。

  2. 在左側類目下,選擇一個現有類目,或點擊image表徵圖建立類目。

    阿里雲百鍊通過類目管理匯入的檔案。
  3. 點擊匯入資料,進入匯入資料介面匯入方式選擇OSS

    首次從 OSS 向阿里雲百鍊匯入資料,需按介面提示完成授權,並為目標 Bucket 添加bailian-datahub-access標籤以供阿里雲百鍊訪問。操作指南請參見從OSS匯入檔案配置說明
    不支援歸檔、冷歸檔或深度冷Archive Storage類型的 Bucket。
    不支援訪問 Bucket 根目錄下的檔案,請選擇已有的子目錄或建立一個子目錄供阿里雲百鍊訪問。
    支援內容加密的 Bucket。支援私人的 Bucket。
    如需使用開啟Referer防盜鏈的Bucket,須參考僅允許受信任的網站訪問將網域名稱*.console.aliyun.com添加到白名單Referer中。
  4. 解析方式可選預設設定自訂設定自訂設定可針對不同格式配置解析規則,以提升解析效果)。

    解析方式說明

    請根據實際需求配置解析策略,如不確定建議保持預設設定。

    • 電子文檔解析:不支援解析檔案中的插圖與圖表。

    • 文檔智能解析:對於檔案中的插圖,解析器會識別並提取圖中的文本,並產生文本摘要。這些摘要將與檔案中其它非圖片內容一起被切分並轉換為向量,參與知識庫的檢索。

    • 大模型文檔解析:使用通義千問VL模型的智能體應用支援使用者對檔案中插圖和圖表的內容進行提問。如需識別和理解檔案中的插圖與圖表,請選擇大模型文檔解析

    • Qwen VL解析:僅支援解析圖片格式。可自主選擇通義千問VL模型,並通過傳入Prompt指定模型需要識別的版面、元素及內容,其餘功能與大模型文檔解析一致。

    image

    image

    如何讓阿里雲百鍊應用在回答中正常展示檔案中的插圖

  5. 為檔案配置標籤(可選)。

    通過API調用應用時,可以在請求參數tags中指定標籤。應用在檢索知識庫時,會先根據標籤篩選相關檔案,從而提高檢索效率。對於智能體應用,可在控制台編輯應用時直接設定標籤(啟用知識庫 > +知識庫 > 知識庫進階配置 > 標籤過濾)。
  6. 點擊確認,系統將開始解析和匯入,可在頁面查看任務進度。

    檔案將被轉換成阿里雲百鍊可處理的格式。在請求高峰時段,該過程可能需要數小時,請耐心等待。
  7. 匯入完成後,點擊相應檔案右側的詳情即可查看匯入的檔案。

    檔案匯入阿里雲百鍊後,將作為獨立副本(與未經處理資料沒有關聯)儲存在平台提供的免費空間中,當前無容量限制。
    匯入的檔案僅供當前業務空間的使用者使用。阿里雲百鍊不會將其用於任何商業用途或對外公開。

下一步

建立知識庫

更多

從OSS匯入檔案配置說明

首次從OSS匯入檔案時,需要授權阿里雲百鍊訪問OSS資源。主帳號與子帳號的授權流程不同。

主帳號授權

  1. 如下圖所示,點擊前往授權

    image

  2. 在彈出的對話方塊中,點擊確認授權,系統將自動建立OSS服務關聯角色,允許阿里雲百鍊訪問OSS資源。

    通常秒級生效,服務高峰期可能會稍有延遲。
    遇到“本次請求失敗,嘗試重新提交試試或聯絡管理員,錯誤碼:10041495”怎麼辦

    image

  3. 為目標 OSS Bucket 添加bailian-datahub-access標籤。

    該標籤用於標記阿里雲百鍊可訪問的 Bucket,未標記的 Bucket 阿里雲百鍊無法訪問。
    1. 訪問OSS管理主控台,點擊左側導覽列中的Bucket 列表,找到目標 Bucket。

    2. 懸停滑鼠在其image表徵圖上,點擊編輯(若未設定過標籤)或前往編輯

    3. 在Bucket標籤頁面,點擊建立標籤(若未設定過標籤)或設定

    4. 點擊標籤,添加標籤名為bailian-datahub-access,標籤值為read的標籤,然後點擊儲存

      image

  4. 返回匯入資料頁面,重新選擇目標 Bucket 再嘗試匯入。

    注意:阿里雲百鍊不支援訪問 Bucket 根目錄下的檔案,請選擇已有的子目錄或建立一個子目錄供阿里雲百鍊訪問。

子帳號授權

  1. 如下圖所示,點擊前往授權

    image

  2. 在彈出的對話方塊中,點擊確認授權。若介面提示授權失敗目前使用者沒有建立服務關聯角色的許可權,需先授予子帳號建立服務關聯角色的許可權。

    1. 需主帳號登入RAM控制台,在左側導覽列,選擇許可權管理 > 權限原則,然後點擊頁面上的建立權限原則

    2. 點擊指令碼編輯,將下方提供的完整JSON策略複製並粘貼至編輯框,點擊確定

      {
          "Action": [
              "ram:CreateServiceLinkedRole"
          ],
          "Resource": "*",
          "Effect": "Allow",
          "Condition": {
              "StringEquals": {
                  "ram:ServiceName": "datahub.sfm.aliyuncs.com"
              }
          }
      }

      image

    3. 輸入權限原則名稱後,點擊確定

      image

    4. 在左側導覽列,選擇身份管理 > 使用者。在頁面列表中找到待授權的子帳號,然後點擊子帳號操作列的添加許可權

    5. 在權限原則中選擇剛才建立的權限原則(自訂策略),點擊確認新增授權。至此,子帳號擁有了建立服務關聯角色的許可權。

      image

  3. 授權子帳號通過阿里雲百鍊訪問OSS。

    1. 返回匯入資料頁面,點擊前往授權

      image

    2. 在彈出的對話方塊中,點擊確認授權,系統將自動建立OSS服務關聯角色(必要條件)。

      通常秒級生效,服務高峰期可能會稍有延遲。
      遇到“本次請求失敗,嘗試重新提交試試或聯絡管理員,錯誤碼:10041495”怎麼辦

      image

  4. 為目標 OSS Bucket 添加bailian-datahub-access標籤。

    該標籤用於標記阿里雲百鍊可訪問的 Bucket,未標記的 Bucket 阿里雲百鍊無法訪問。
    1. 訪問OSS管理主控台,點擊左側導覽列中的Bucket 列表,找到目標Bucket。

    2. 懸停滑鼠在其image表徵圖上,點擊編輯(若未設定過標籤)或前往編輯

    3. 在Bucket標籤頁面,點擊建立標籤(若未設定過標籤)或設定

    4. 點擊標籤,添加標籤名為bailian-datahub-access,標籤值為read的標籤,然後點擊儲存

      image

  5. 返回匯入資料頁面,重新選擇目標 Bucket 再嘗試匯入。

    注意:阿里雲百鍊不支援訪問 Bucket 根目錄下的檔案,請選擇已有的子目錄或建立一個子目錄供阿里雲百鍊訪問。

配額與限制

關於支援的資料格式與容量,請參見知識庫配額與限制

常見問題

許可權與安全

  • 資料匯入時,遇到報錯“缺少該模組的許可權”,應如何處理?

    RAM使用者(子帳號)預設無法執行資料匯入、建立知識庫等寫入類操作,需阿里雲帳號(主帳號)為其授予管理員(或至少包含應用資料-操作知識庫-操作頁面許可權

匯入OSS檔案

  • 匯入OSS檔案遇到“10041495”報錯,應如何處理?

    一般是由於主帳號尚未開通Object Storage Service服務 OSS,處理步驟:

    1. 需主帳號前往OSS管理主控台,按介面指引開通 OSS。

    2. 返回阿里雲百鍊匯入資料頁面,再嘗試授權。