本文為您介紹使用Python指令碼讀取已上傳的資源檔(如.xlsx、.csv等),並通過pip安裝第三方庫(如openpyxl)實現檔案解析。
前提條件
添加訪問地址mirrors.aliyun.com和連接埠*至專案空間的沙箱白名單,詳情請參見通過命令列、用戶端串連RDS MySQL執行個體。
已準備Python支援讀取的檔案,例如TXT、CSV、XLS、XLSX或PDF等格式檔案。
步驟一:上傳檔案
在Dataphin首頁的頂部功能表列,選擇研發 > 資料研發。
在左側導覽列選擇資料處理 > 資源,在資源頁面,單擊
表徵圖。在建立資源對話方塊中,配置參數。

參數
描述
類型
選擇others。
名稱
上傳檔案的名稱需要以檔案類型結尾。例如test.xlsx。
描述
填寫資源的描述。
上傳檔案
選擇本地的檔案,例如test.xlsx。
計算類型
選擇無歸屬引擎。
重要檔案資源儲存至Dataphin系統,因此僅支援選擇無歸屬引擎。
選擇目錄
預設為資源管理。
單擊提交,完成資源的提交。
在提交備忘對話方塊,填寫備忘資訊後,單擊確定並提交。
步驟二:安裝Python三方包
在Dataphin首頁的頂部功能表列,選擇管理中心 > 系統設定。
在左側導覽列選擇三方庫管理 > Python三方包,在Python Module頁簽,單擊安裝Python Module按鈕。
在安裝Python Module對話方塊中,配置參數。

參數
描述
Module名稱
填寫Python Module的名稱。例如openpyxl。
Module版本
輸入Module版本。例如1.0.0。
Python版本
選擇Python版本。選擇Python 3.7。
安裝方式
選擇線上安裝。
單擊確定,即可完成安裝Python Module操作。
步驟三:建立Python任務
在左側導覽列選擇資料處理 > 計算任務。
在計算任務頁面,單擊
表徵圖,選擇Python。在建立Python任務對話方塊中,配置參數。

參數
描述
任務名稱
填寫計算任務的名稱,例如Python讀取檔案。
調度類型
選擇任務的調度類型為周期任務。
選擇目錄
預設選擇為代碼管理。
使用模板
預設關閉。
Python版本
選擇Python3.7(或更高版本)。
Python三方包
選擇步驟二安裝的openpyxl。
描述
填寫對任務的簡單描述。
單擊確定,完成任務建立。
步驟四:編寫並運行Python任務代碼
在代碼編寫頁面,編寫代碼,其中,
test.xlsx參數需要替換為您已上傳的檔案。# -*- coding:utf-*- import os import sys import openpyxl print ('========= python execute ok ==========') print("start===============") @resource_reference{"test.xlsx"} # 開啟excel檔案,擷取sheet名 wb = openpyxl.load_workbook("test.xlsx") # wb.get_sheet_names 這個方法已淘汰 會有一個警告 print(wb.worksheets[0])單擊頁面上方的運行,即可運行任務代碼。
運行結果的狀態為SUCCESS,表示讀取檔案成功。
