全部产品
Search
文档中心

E-MapReduce:Memulai pengembangan notebook

更新时间:Nov 10, 2025

EMR Serverless Spark mendukung pengembangan interaktif menggunakan notebook. Topik ini menjelaskan cara membuat dan menjalankan notebook.

Prasyarat

Prosedur

Langkah 1: Siapkan file uji

Topik ini menyediakan file uji untuk membantu Anda memahami pekerjaan notebook. Anda dapat mengunduh file tersebut untuk digunakan dalam langkah-langkah berikut.

Klik employee.csv untuk mengunduh file uji.

Catatan

File employee.csv berisi data nama karyawan, departemen, dan gaji.

Langkah 2: Unggah file uji coba

Unggah file data (employee.csv) ke Konsol Object Storage Service (OSS). Untuk informasi selengkapnya, lihat Mengunggah file.

Langkah 3: Kembangkan dan jalankan notebook

  1. Pada halaman EMR Serverless Spark, klik Data Development di panel navigasi sebelah kiri.

  2. Buat notebook.

    1. Pada tab Development, klik ikon image.

    2. Pada kotak dialog yang muncul, masukkan nama, pilih Interactive Development > Notebook sebagai Jenis, lalu klik OK.

  3. Di pojok kanan atas, pilih instans sesi notebook yang sedang berjalan.

    Anda juga dapat memilih Create Notebook Session dari daftar drop-down untuk membuat instans sesi notebook baru. Untuk informasi selengkapnya tentang sesi notebook, lihat Mengelola sesi notebook.

    Catatan

    Beberapa notebook dapat berbagi satu instans sesi notebook. Hal ini memungkinkan Anda mengakses dan menggunakan sumber daya sesi yang sama dari beberapa notebook secara bersamaan tanpa perlu membuat instans sesi baru untuk setiap notebook.

  4. Proses dan visualisasikan data.

    Jalankan pekerjaan PySpark

    1. Salin kode berikut ke sel Python pada notebook baru.

      # Buat DataFrame sederhana. Ganti path OSS dengan path file yang Anda unggah di Langkah 2.
      df = spark.read.option("delimiter", ",").option("header", True).csv("oss://path/to/file")
      # Tampilkan beberapa baris pertama dari DataFrame.
      df.show(5)
      # Lakukan operasi agregasi sederhana untuk menghitung total gaji tiap departemen.
      sum_salary_per_department = df.groupBy("department").agg({"salary": "sum"}).show()
    2. Klik Run All Cells untuk menjalankan notebook.

      Anda juga dapat menjalankan sel tertentu dengan mengklik ikon image di depan sel tersebut.

      image

    3. (Opsional) Lihat Spark UI.

      Pada daftar drop-down sesi, arahkan kursor ke ikon image untuk sesi notebook saat ini dan klik Spark UI. Anda akan diarahkan ke halaman Spark Jobs, tempat Anda dapat melihat informasi pekerjaan Spark.

      image

    Lakukan analitik visual menggunakan pustaka pihak ketiga

    Catatan

    Sesi notebook telah dilengkapi pustaka matplotlib, numpy, dan pandas secara pra-instal. Untuk informasi selengkapnya tentang cara menggunakan pustaka pihak ketiga lainnya, lihat Menggunakan pustaka Python pihak ketiga dalam notebook.

    1. Gunakan pustaka matplotlib untuk memvisualisasikan data.

      import matplotlib.pyplot as plt
      
      l = sc.parallelize(range(20)).collect()
      plt.plot(l)
      plt.ylabel('some numbers')
      plt.show()
    2. Klik Run All Cells untuk menjalankan notebook.

      Anda juga dapat menjalankan sel tertentu dengan mengklik ikon image di depan sel tersebut.

      image

Langkah 4: Publikasikan notebook

  1. Setelah notebook selesai dijalankan, klik Publish di pojok kanan atas.

  2. Pada kotak dialog Publish, konfigurasikan parameter dan klik OK untuk menyimpan notebook sebagai versi baru.