Jalankan Job PySpark Interaktif via Serverless Spark di Notebook - OpenLake

Notebook DataWorks mendukung berbagai jenis sel dan menyediakan lingkungan analisis interaktif serta modular untuk pemrosesan data, analisis, visualisasi, dan pembuatan model yang efisien. Topik ini menjelaskan cara menyambungkan ke Serverless Spark menggunakan Notebook DataWorks.

Batasan

Ruang kerja Serverless Spark telah dibuat. Untuk informasi selengkapnya, lihat Create a workspace.
Hanya ruang kerja yang menggunakan versi baru DataWorks Data Studio yang didukung.
Hanya kelompok sumber daya Serverless yang didukung. Untuk informasi selengkapnya, lihat Use a Serverless resource group.

Catatan

Satu tugas dalam kelompok sumber daya Serverless mendukung maksimal 64 CU. Kami menyarankan agar Anda tidak melebihi 16 CU untuk mencegah kekurangan sumber daya dan kegagalan startup tugas.

Prasyarat

Menyambungkan sumber daya komputasi Serverless Spark di ruang kerja DataWorks

Untuk informasi selengkapnya, lihat Attach EMR Serverless Spark compute resources.

Membuat Livy Gateway Serverless Spark

Livy Gateway adalah layanan berbasis REST yang menyederhanakan interaksi dengan Apache Spark. Layanan ini mendukung pengiriman tugas dan kueri hasil melalui HTTP serta kompatibel dengan berbagai bahasa pemrograman. Notebook DataWorks menggunakan Livy Gateway untuk mengirimkan tugas ke Serverless Spark dan menerima pembaruan status.

Buka ruang kerja Serverless Spark dan buat Livy Gateway. Untuk informasi selengkapnya, lihat Create a Livy Gateway.

Membuat instans lingkungan pengembangan pribadi DataWorks

Untuk informasi selengkapnya, lihat Create a personal development environment instance.

Membuat node Notebook

Buka halaman Data Studio (New).
Buka workspace list page DataWorks. Di bilah navigasi atas, alihkan ke Wilayah tujuan. Temukan ruang kerja yang telah Anda buat, lalu klik Quick Access > Data Studio pada kolom Actions.
Buat Notebook.
Di DataWorks, Anda dapat membuat Notebook di Project Folder, Personal Folder, atau di bawah One-time Tasks.
- Di panel navigasi kiri, klik ikon untuk membuka halaman Pengembangan Data. Anda dapat membuat Notebook di Project Folder atau Personal Folder.
  - Untuk membuat Notebook di folder proyek, klik ikon dan pilih Notebook.
  - Untuk membuat Notebook di folder pribadi, klik ikon untuk membuat file Notebook baru.
- Di panel navigasi kiri, klik ikon untuk membuka halaman manual. Di bawah One-time Tasks, klik ikon dan pilih New Node > Notebook untuk membuat Notebook.

Menggunakan Notebook

Menyambungkan ke sumber daya komputasi Serverless Spark

Saat mengembangkan Notebook, Anda dapat menggunakan Magic Command di sel Python untuk menyambungkan ke layanan Livy yang sudah ada. Hal ini memungkinkan Anda terhubung ke EMR Serverless Spark guna pengembangan dan debugging yang efisien.

Lingkup:
- Anda dapat menyambungkan ke sumber daya komputasi EMR Serverless Spark menggunakan Python.
- Instans lingkungan pengembangan pribadi yang dibuat sebelum 2025-12-01 tidak mendukung fitur ini. Untuk menggunakan fitur ini, Anda harus membuat personal development environment baru.
- Instans lingkungan pengembangan pribadi harus ditingkatkan ke versi 0.5.69 atau lebih baru. Untuk memeriksa versi saat ini, buka lingkungan pengembangan pribadi, tekan CMD+SHIFT+P, lalu masukkan `ABOUT`. Anda dapat melakukan peningkatan satu klik dari prompt peningkatan yang muncul di antarmuka.
Catatan: Saat Anda menyambungkan ke Serverless Spark, token Livy Gateway dibuat menggunakan identitas pelaksana kode. Saat Anda mengakses data DLF, otentikasi dilakukan berdasarkan identitas tersebut.

Magic Command	Ikhtisar Magic Command	Catatan
`%emr_serverless_Spark`	Perintah ini melakukan operasi berikut: Menyambungkan ke Livy Gateway. Jika Livy Gateway berhenti, layanan tersebut akan dimulai secara otomatis. Membuat Spark Session. Catatan Jika berhasil dieksekusi, Anda dapat melihat informasi Spark Session di Spark UI pada area output.	Penggunaan: Masukkan perintah berikut di sel Python dan tentukan sumber daya komputasi serta Livy Gateway di pojok kanan bawah sel . Anda dapat meneruskan parameter Spark yang diperlukan menggunakan `Spark_conf`. Penting Prioritas akhir parameter Spark bergantung pada opsi Global Configuration First di Management Center > Serverless Spark > Spark. Jika Anda memilih opsi ini, konfigurasi di Management Center memiliki prioritas tertinggi dan akan menimpa semua parameter dengan nama yang sama di Notebook. Jika Anda tidak memilih opsi ini, parameter yang ditetapkan dengan `Spark-conf` di sel Notebook akan mengambil prioritas dibandingkan konfigurasi global di Management Center. `## Execute directly %emr_serverless_Spark ## Execute with parameters %%emr_serverless_Spark { "Spark_conf": { "Spark.emr.serverless.environmentId": "<EMR Serverless Spark runtime environment ID>", "Spark.emr.serverless.network.service.name": "<EMR Serverless Spark network connectivity ID>", "Spark.driver.cores": "1", "Spark.driver.memory": "8g", "Spark.executor.cores": "1", "Spark.executor.memory": "2g", "Spark.driver.maxResultSize": "32g" } }` Pola Perilaku Lingkungan pengembangan (Data Studio): Koneksi disambungkan ke instans lingkungan pengembangan pribadi yang Anda pilih. Saat pertama kali mengeksekusi perintah, Spark Session dibuat. Eksekusi berikutnya dari perintah ini dalam tugas Notebook yang sama akan menggunakan kembali sesi tersebut. Lingkungan produksi: Instans tugas Notebook yang dikirimkan ke Operation Center untuk penjadwalan otomatis dikirimkan ke sumber daya komputasi tujuan sebagai pekerjaan batch menggunakan perintah spark-submit. Lingkungan produksi tidak menggunakan Livy Gateway. Batasan Setelah Anda memasukkan Magic Command ini, Notebook saat ini diatur untuk menggunakan Serverless Spark sebagai sumber daya komputasi. Sel-sel berikutnya yang Anda tambahkan hanya dibatasi pada jenis berikut: Python, Markdown, dan EMR Spark SQL. Pemilih sumber daya komputasi akan muncul secara otomatis di pojok kanan bawah sel. Di kotak dialog yang muncul, lakukan pemilihan berurutan pada nama sumber daya komputasi Serverless Spark dan nama Livy Gateway.
`%emr_serverless_Spark info`	Menampilkan detail Livy Gateway.	Setelah Anda berhasil mengeksekusi `%emr_serverless_Spark`, Anda dapat menjalankan perintah ini untuk melihat informasi Livy Gateway. Klik tautan Web UI untuk melihat detailnya.
`%emr_serverless_Spark stop`	Perintah ini membersihkan Spark Session dan menghentikan Livy Gateway.	Jika beberapa pengguna berbagi Livy Gateway ini, jalankan perintah ini dengan hati-hati agar tidak mengganggu tugas pengguna lain.
`%emr_serverless_Spark delete`	Perintah ini menghapus Livy.	Jika beberapa pengguna berbagi Livy Gateway ini, jalankan perintah ini dengan hati-hati agar tidak mengganggu tugas pengguna lain.
`%emr_serverless_Spark refresh_token`	Perintah ini membuat token Livy baru.	Jika administrator secara tidak sengaja menghapus token di halaman Livy Gateway, Anda dapat menjalankan perintah ini untuk membuat ulang token tersebut.

Mengirimkan dan mengeksekusi kode SQL pada sumber daya komputasi menggunakan sel EMR Spark SQL

Setelah koneksi berhasil dibuat menggunakan %emr_serverless_Spark, Anda dapat langsung menulis Pernyataan SQL di sel EMR Spark SQL. Anda tidak perlu memilih sumber daya komputasi di dalam sel tersebut.

Sel EMR Spark SQL menggunakan kembali sesi dari %emr_serverless_Spark dan mengirimkan kode ke sumber daya komputasi tujuan untuk dieksekusi.

Mengirimkan dan mengeksekusi kode PySpark pada sumber daya komputasi menggunakan sel Python

Setelah koneksi berhasil dibuat menggunakan %emr_serverless_Spark, Anda dapat mengirimkan dan mengeksekusi kode PySpark di sel Python baru. Anda tidak perlu menambahkan awalan `%%Spark` di dalam sel tersebut.

Contoh:

Langkah selanjutnya: Publikasikan ke lingkungan produksi untuk eksekusi

Instans tugas Notebook yang berisi perintah %emr_serverless_Spark dikirimkan ke sumber daya komputasi tujuan sebagai pekerjaan batch. Lingkungan produksi tidak menggunakan Livy Gateway.

Node scheduling configuration: Untuk menjadwalkan Notebook dari Project Folder agar berjalan secara berkala di lingkungan produksi, Anda harus mengonfigurasi properti penjadwalannya, seperti menentukan waktu terjadwal.

Secara default, Notebook di Project Folder, Personal Folder, atau di bawah One-time Tasks berjalan pada kernel lingkungan pengembangan pribadi. Saat Anda mempublikasikan Notebook ke lingkungan produksi, sistem menggunakan lingkungan Citra runtime yang Anda pilih dalam Konfigurasi Penjadwalan. Oleh karena itu, sebelum mempublikasikan Notebook, pastikan Citra runtime yang dipilih dalam Konfigurasi Penjadwalan berisi dependensi yang diperlukan untuk menjalankan node Notebook tersebut. Anda dapat create a DataWorks image based on a personal development environment untuk digunakan dalam penjadwalan.

Publish a node or workflow: Node Notebook hanya akan berjalan sesuai item konfigurasi dalam Konfigurasi Penjadwalannya setelah dipublikasikan ke lingkungan produksi. Anda dapat mempublikasikan node ke lingkungan produksi dengan cara berikut:
- Untuk mempublikasikan Notebook dari folder proyek, simpan Notebook tersebut lalu klik ikon untuk mempublikasikannya. Setelah dipublikasikan, Anda dapat melihat tugas Notebook di halaman Task O&M > Auto Triggered Task O&M > Auto Triggered Task di Operation Center.
- Untuk mempublikasikan Notebook dari folder pribadi, simpan Notebook tersebut. Klik ikon untuk mengirimkan Notebook dari folder pribadi ke folder proyek. Lalu, klik ikon untuk mempublikasikannya. Setelah dipublikasikan, Anda dapat melihat tugas Notebook di halaman Task O&M > Auto Triggered Task O&M > Auto Triggered Task di Operation Center.
- Untuk mempublikasikan Notebook dari tugas satu kali, simpan Notebook tersebut lalu klik ikon untuk mempublikasikannya. Setelah dipublikasikan, Anda dapat melihat tugas Notebook di halaman Task O&M > One-time Task O&M > One-time Task di Operation Center.
Unpublish a task: Untuk membatalkan publikasi Notebook, klik kanan node tersebut, pilih Delete, lalu ikuti petunjuk di layar untuk membatalkan publikasi atau menghapus Notebook tersebut.