Memulai pengembangan notebook - E-MapReduce

EMR Serverless Spark mendukung pengembangan interaktif menggunakan notebook. Topik ini menjelaskan cara membuat dan menjalankan notebook.

Prasyarat

Anda memiliki Akun Alibaba Cloud. Untuk informasi selengkapnya, lihat Pendaftaran Akun Alibaba Cloud.
Peran yang diperlukan telah diberikan. Untuk informasi selengkapnya, lihat Memberikan peran ke Akun Alibaba Cloud.
Ruang kerja dan instans sesi notebook telah dibuat. Untuk informasi selengkapnya, lihat Membuat ruang kerja dan Mengelola sesi notebook.

Prosedur

Langkah 1: Siapkan file uji

Topik ini menyediakan file uji untuk membantu Anda memahami pekerjaan notebook. Anda dapat mengunduh file tersebut untuk digunakan dalam langkah-langkah berikut.

Klik employee.csv untuk mengunduh file uji.

Catatan

File employee.csv berisi data nama karyawan, departemen, dan gaji.

Langkah 2: Unggah file uji coba

Unggah file data (employee.csv) ke Konsol Object Storage Service (OSS). Untuk informasi selengkapnya, lihat Mengunggah file.

Langkah 3: Kembangkan dan jalankan notebook

Pada halaman EMR Serverless Spark, klik Data Development di panel navigasi sebelah kiri.
Buat notebook.
1. Pada tab Development, klik ikon .
2. Pada kotak dialog yang muncul, masukkan nama, pilih Interactive Development > Notebook sebagai Jenis, lalu klik OK.
Di pojok kanan atas, pilih instans sesi notebook yang sedang berjalan.
Anda juga dapat memilih Create Notebook Session dari daftar drop-down untuk membuat instans sesi notebook baru. Untuk informasi selengkapnya tentang sesi notebook, lihat Mengelola sesi notebook.
Catatan
Beberapa notebook dapat berbagi satu instans sesi notebook. Hal ini memungkinkan Anda mengakses dan menggunakan sumber daya sesi yang sama dari beberapa notebook secara bersamaan tanpa perlu membuat instans sesi baru untuk setiap notebook.
Proses dan visualisasikan data.
Jalankan pekerjaan PySpark
1. Salin kode berikut ke sel Python pada notebook baru.
```
# Buat DataFrame sederhana. Ganti path OSS dengan path file yang Anda unggah di Langkah 2.
df = spark.read.option("delimiter", ",").option("header", True).csv("oss://path/to/file")
# Tampilkan beberapa baris pertama dari DataFrame.
df.show(5)
# Lakukan operasi agregasi sederhana untuk menghitung total gaji tiap departemen.
sum_salary_per_department = df.groupBy("department").agg({"salary": "sum"}).show()
```
2. Klik Run All Cells untuk menjalankan notebook.
  Anda juga dapat menjalankan sel tertentu dengan mengklik ikon di depan sel tersebut.
3. (Opsional) Lihat Spark UI.
  Pada daftar drop-down sesi, arahkan kursor ke ikon untuk sesi notebook saat ini dan klik Spark UI. Anda akan diarahkan ke halaman Spark Jobs, tempat Anda dapat melihat informasi pekerjaan Spark.
Lakukan analitik visual menggunakan pustaka pihak ketiga
Catatan
Sesi notebook telah dilengkapi pustaka matplotlib, numpy, dan pandas secara pra-instal. Untuk informasi selengkapnya tentang cara menggunakan pustaka pihak ketiga lainnya, lihat Menggunakan pustaka Python pihak ketiga dalam notebook.
1. Gunakan pustaka matplotlib untuk memvisualisasikan data.
```
import matplotlib.pyplot as plt

l = sc.parallelize(range(20)).collect()
plt.plot(l)
plt.ylabel('some numbers')
plt.show()
```
2. Klik Run All Cells untuk menjalankan notebook.
  Anda juga dapat menjalankan sel tertentu dengan mengklik ikon di depan sel tersebut.

Langkah 4: Publikasikan notebook

Setelah notebook selesai dijalankan, klik Publish di pojok kanan atas.
Pada kotak dialog Publish, konfigurasikan parameter dan klik OK untuk menyimpan notebook sebagai versi baru.