您可以自行編寫並構建包含商務邏輯的Python指令碼,上傳該指令碼後,即可便捷地進行PySpark開發。本文通過一個樣本,為您示範如何進行PySpark開發。
前提條件
操作步驟
步驟一:準備測試檔案
在EMR Serverless Spark中,支援使用本地或獨立的開發平台完成Python檔案的開發,並將任務提交至EMR Serverless Spark中運行。本快速入門為了帶您快速熟悉PySpark任務,為您提供了測試檔案,您可以直接下載以供後續步驟使用。
單擊DataFrame.py和employee.csv,直接下載測試檔案。
DataFrame.py檔案是一段使用Apache Spark架構進行OSS上資料處理的代碼。
employee.csv檔案中定義了一個包含員工姓名、部門和薪水的資料列表。
步驟二:上傳測試檔案
上傳Python檔案到EMR Serverless Spark。
進入資源上傳頁面。
在左側導覽列,選擇。
在Spark頁面,單擊目標工作空間名稱。
在EMR Serverless Spark頁面,單擊左側導覽列中的檔案管理。
在檔案管理頁面,單擊上傳檔案。
在上傳檔案對話方塊中,單擊待上傳檔案地區選取項目Python檔案,或直接拖拽Python檔案到待上傳檔案地區。
本文樣本是上傳DataFrame.py。
上傳資料檔案(employee.csv)到阿里雲Object Storage Service控制台,詳情請參見檔案上傳。
步驟三:開發並運行任務
在EMR Serverless Spark頁面,單擊左側的資料開發。
在開發目錄頁簽下,單擊
表徵圖。在彈出的對話方塊中,輸入名稱,類型使用,單擊確定。
在右上方選擇隊列。
添加隊列的具體操作,請參見管理資源隊列。
在建立的開發頁簽中,配置以下資訊,其餘參數無需配置,然後單擊運行。
參數
說明
主Python資源
選擇前一個步驟中在檔案管理頁面上傳的Python檔案。本文樣本是DataFrame.py。
運行參數
填寫資料檔案(employee.csv)上傳到OSS的路徑。例如,oss://<yourBucketName>/employee.csv。
運行任務後,在下方的運行記錄地區,單擊任務操作列的日誌探查。
在日誌探查頁簽,您可以查看相關的日誌資訊。

步驟四:發布任務
發行的任務可以作為工作流程節點的任務。
任務運行完成後,單擊右側的發布。
在任務發布對話方塊中,您可以輸入發布資訊,然後單擊確定。
步驟五:查看Spark UI
任務正常運行後,您可以在Spark UI上查看任務的運行情況。
在左側導覽列,單擊任務歷史。
在Application頁面,單擊目標任務操作列的Spark UI。
在Spark Jobs頁面,您可以查看任務詳情。

相關文檔
任務發布完成後,您可以在工作流程調度中使用,詳情請參見管理工作流程。任務編排完整的開發流程樣本,請參見SparkSQL開發快速入門。
PySpark流任務的開發流程樣本,請參見通過Serverless Spark提交PySpark流任務。