全部產品
Search
文件中心

E-MapReduce:PySpark開發快速入門

更新時間:Jul 31, 2025

您可以自行編寫並構建包含商務邏輯的Python指令碼,上傳該指令碼後,即可便捷地進行PySpark開發。本文通過一個樣本,為您示範如何進行PySpark開發。

前提條件

操作步驟

步驟一:準備測試檔案

在EMR Serverless Spark中,支援使用本地或獨立的開發平台完成Python檔案的開發,並將任務提交至EMR Serverless Spark中運行。本快速入門為了帶您快速熟悉PySpark任務,為您提供了測試檔案,您可以直接下載以供後續步驟使用。

單擊DataFrame.pyemployee.csv,直接下載測試檔案。

說明
  • DataFrame.py檔案是一段使用Apache Spark架構進行OSS上資料處理的代碼。

  • employee.csv檔案中定義了一個包含員工姓名、部門和薪水的資料列表。

步驟二:上傳測試檔案

  1. 上傳Python檔案到EMR Serverless Spark。

    1. 進入資源上傳頁面。

      1. 登入E-MapReduce控制台

      2. 在左側導覽列,選擇EMR Serverless > Spark

      3. Spark頁面,單擊目標工作空間名稱。

      4. 在EMR Serverless Spark頁面,單擊左側導覽列中的檔案管理

    2. 檔案管理頁面,單擊上傳檔案

    3. 上傳檔案對話方塊中,單擊待上傳檔案地區選取項目Python檔案,或直接拖拽Python檔案到待上傳檔案地區。

      本文樣本是上傳DataFrame.py。

  2. 上傳資料檔案(employee.csv)到阿里雲Object Storage Service控制台,詳情請參見檔案上傳

步驟三:開發並運行任務

  1. 在EMR Serverless Spark頁面,單擊左側的資料開發

  2. 開發目錄頁簽下,單擊image表徵圖。

  3. 在彈出的對話方塊中,輸入名稱,類型使用批任務 > PySpark,單擊確定

  4. 在右上方選擇隊列。

    添加隊列的具體操作,請參見管理資源隊列

  5. 在建立的開發頁簽中,配置以下資訊,其餘參數無需配置,然後單擊運行

    參數

    說明

    主Python資源

    選擇前一個步驟中在檔案管理頁面上傳的Python檔案。本文樣本是DataFrame.py。

    運行參數

    填寫資料檔案(employee.csv)上傳到OSS的路徑。例如,oss://<yourBucketName>/employee.csv。

  6. 運行任務後,在下方的運行記錄地區,單擊任務操作列的日誌探查

  7. 日誌探查頁簽,您可以查看相關的日誌資訊。

    image

步驟四:發布任務

重要

發行的任務可以作為工作流程節點的任務。

  1. 任務運行完成後,單擊右側的發布

  2. 在任務發布對話方塊中,您可以輸入發布資訊,然後單擊確定

步驟五:查看Spark UI

任務正常運行後,您可以在Spark UI上查看任務的運行情況。

  1. 在左側導覽列,單擊任務歷史

  2. Application頁面,單擊目標任務操作列的Spark UI

  3. 在Spark Jobs頁面,您可以查看任務詳情。

    image

相關文檔