Lingkungan Python untuk EMR Serverless Spark mencakup pustaka pra-instal seperti matplotlib, numpy, dan pandas. Untuk menggunakan pustaka pihak ketiga lainnya, Anda harus membuat lingkungan runtime.
Prasyarat
Ruang kerja harus dibuat terlebih dahulu. Untuk informasi selengkapnya, lihat Mengelola ruang kerja.
Membuat lingkungan runtime
Buka halaman Manajemen Lingkungan Runtime.
Masuk ke Konsol E-MapReduce.
Pada panel navigasi di sebelah kiri, pilih .
Pada halaman Spark, klik nama ruang kerja yang dituju.
Pada halaman EMR Serverless Spark, pilih Runtime Environment Management pada panel navigasi di sebelah kiri.
Klik Create Runtime Environment.
Pada halaman Create Runtime Environment, konfigurasikan parameter berikut.
Parameter
Wajib
Deskripsi
Name
Ya
Masukkan nama untuk lingkungan runtime.
Description
Tidak
Masukkan deskripsi untuk lingkungan tersebut.
Init Environment Queue
Ya
Pilih antrian untuk inisialisasi lingkungan. Saat Anda membuat lingkungan runtime, 1 Core dan 4 GB sumber daya dari antrian ini digunakan untuk inisialisasi. Sumber daya tersebut akan dilepas secara otomatis setelah inisialisasi selesai.
Network Connectivity
Tidak
Untuk menambahkan pustaka PyPI dari sumber selain sumber Alibaba Cloud, pilih koneksi jaringan yang sesuai. Koneksi jaringan ini digunakan untuk mengakses alamat sumber saat lingkungan runtime dibuat.
Untuk informasi selengkapnya tentang cara membuat koneksi jaringan, lihat Menetapkan koneksi jaringan antara EMR Serverless Spark dan VPC lainnya.
Python Version
Ya
Python 3.8 digunakan secara default. Anda dapat memilih versi lain sesuai kebutuhan.
Pastikan versi Python yang dipilih kompatibel dengan pustaka Python yang dituju. Hal ini mencegah kegagalan pengemasan atau error saat runtime akibat ketidakcocokan versi.
Tambahkan informasi pustaka.
Klik Add Library.
Pada kotak dialog Add Library, pilih Source Type, konfigurasikan parameter terkait, lalu klik OK.
Parameter
Deskripsi
PyPI
PyPI Package: Masukkan nama dan versi pustaka PyPI. Jika Anda tidak menentukan versi, versi terbaru akan diinstal secara default. Sumber Alibaba Cloud digunakan secara default.
Contohnya,
PlotlyatauPlotly==4.9.0.Package Source: Tentukan alamat sumber untuk paket PyPI. Jika Anda biarkan kosong, sumber Alibaba Cloud digunakan secara default. Jika Anda menggunakan alamat sumber kustom, pastikan Anda telah memilih koneksi jaringan yang sesuai.
Workspace Resource
Dari daftar drop-down Workspace Resource, pilih sumber daya file dari ruang kerja saat ini. Jika tidak tersedia sumber daya, unggah file pada halaman File Management.
Jenis file yang didukung:
.zip,.tar,.whl,.tar.gz,.jar, dan.txt.CatatanJika jenis file-nya adalah
.txt, sistem akan menginstal pustaka Python dan versi yang ditentukan berdasarkan isi file tersebut, mirip dengan file requirements.txt.OSS Resource
Untuk OSS Resource, masukkan path file yang disimpan di Alibaba Cloud OSS.
Jenis file yang didukung:
.zip,.tar,.whl,.tar.gz,.jar, dan.txt.CatatanJika jenis file-nya adalah
.txt, sistem akan menginstal pustaka Python dan versi yang ditentukan berdasarkan isi file tersebut, mirip dengan file requirements.txt.
Klik Create.
Setelah Anda mengklik Create, inisialisasi lingkungan dimulai.
Mengedit lingkungan runtime
Anda dapat mengedit lingkungan runtime untuk memperbarui pustaka yang dikandungnya.
Pada halaman Runtime Environment Management, temukan lingkungan runtime yang dituju dan klik Edit pada kolom Tindakan.
Pada halaman Edit Runtime Environment, perbarui konfigurasi lingkungan.
Klik Save Changes.
Setelah Anda menyimpan perubahan, lingkungan akan diinisialisasi ulang berdasarkan konfigurasi yang diperbarui.
CatatanSetelah lingkungan diinisialisasi ulang, perubahan tersebut tidak langsung berlaku pada sesi Notebook aktif. Untuk menggunakan lingkungan runtime terbaru dalam sesi Notebook, Anda harus me-restart sumber daya sesi tersebut.
Menggunakan lingkungan runtime
Saat lingkungan runtime berada dalam status Ready, Anda dapat menggunakannya untuk pengembangan data atau dalam sesi yang sesuai.
Pekerjaan batch PySpark: Saat pekerjaan dimulai, sistem akan menginstal pustaka pra-instal yang diperlukan berdasarkan lingkungan runtime yang dipilih.
Orkestrasi pekerjaan: Saat menambahkan node Notebook ke alur kerja, pilih lingkungan runtime yang sesuai.
Sesi Notebook: Saat sesi Notebook dimulai, pustaka diinstal sebelumnya sesuai dengan lingkungan yang dipilih.
Livy Gateway: Saat Anda mengirimkan pekerjaan melalui Livy Gateway, sumber daya yang diperlukan untuk pekerjaan tersebut telah dikonfigurasi sebelumnya berdasarkan lingkungan yang dipilih.
Saat Anda mengirimkan pekerjaan menggunakan Spark Submit, Apache Airflow, atau Livy, tentukan lingkungan runtime dengan mengonfigurasi parameter
--conf spark.emr.serverless.environmentId=<runtime_environment_id>.