Notebook DataWorks mendukung berbagai jenis sel dan menyediakan lingkungan analisis interaktif serta modular untuk membantu Anda memproses dan menganalisis data secara efisien, membuat visualisasi, serta membangun model.
Pengenalan Fungsi
Di DataWorks, Anda dapat menggunakan node Notebook untuk membangun lingkungan analisis yang interaktif, modular, dan dapat digunakan kembali.
Pengembangan multi-mesin: Notebook DataWorks mencakup fitur SQL Cell yang mendukung pengembangan dan analisis SQL pada berbagai mesin data besar.
Analisis interaktif:
Kueri SQL interaktif: Anda dapat menulis widget dalam Python untuk memilih atau mengatur nilai parameter secara visual, lalu mereferensikan parameter tersebut beserta nilainya dalam SQL guna mengaktifkan kueri interaktif antara Python dan SQL.
Menulis hasil kueri SQL ke dalam DataFrame: Hasil kueri SQL dapat disimpan langsung ke objek Pandas DataFrame atau MaxFrame DataFrame dan diteruskan sebagai variabel ke sel-sel berikutnya.
Membuat grafik visual: Anda dapat membaca variabel DataFrame dalam sel Python untuk membuat grafik berdasarkan data tersebut, sehingga menciptakan interaksi efisien antara Python dan SQL.
Pengembangan terintegrasi data besar dan AI: Di Notebook DataWorks, Anda dapat menggunakan pustaka seperti Pandas untuk membersihkan dan menyiapkan data agar memenuhi persyaratan input model algoritma. Data yang telah dibersihkan tersebut kemudian dapat digunakan untuk mengembangkan, melatih, dan mengevaluasi model secara mudah, sehingga menciptakan koneksi mulus antara data besar dan AI.
Pembuatan kode cerdas: Notebook DataWorks dilengkapi asisten pemrograman cerdas bawaan yang mendukung pembuatan kode SQL dan Python dengan DataWorks Copilot untuk meningkatkan efisiensi pengembangan.
Menyambungkan set data: Di Notebook DataWorks, pada tab , Anda dapat menambahkan set data ke Notebook. Hal ini memungkinkan node membaca data dari OSS atau NAS, atau menulis file ke OSS atau NAS selama waktu proses.
Prasyarat
Buat ruang kerja dan Use Data Studio (New Version). Anda dapat membuat ruang kerja untuk versi baru Data Studio.
Tersedia kelompok sumber daya Serverless. Untuk informasi lebih lanjut, lihat Gunakan kelompok sumber daya Serverless.
Instans lingkungan pengembangan pribadi telah dibuat. Menjalankan Notebook di DataStudio memerlukan instans lingkungan pengembangan pribadi. Untuk informasi lebih lanjut, lihat Buat instans lingkungan pengembangan pribadi.
Catatan
Saat menjalankan tugas ini menggunakan kelompok sumber daya Serverless, konfigurasi maksimum yang didukung untuk satu tugas adalah 64 CU. Namun, kami menyarankan agar Anda tidak melebihi 16 CU untuk mencegah kekurangan sumber daya akibat CU berlebihan yang dapat memengaruhi startup tugas.
Jenis sel yang didukung
Sel SQL:
Jenis sel yang didukung:
MaxCompute SQL,Hologres SQL,EMR SPARK SQL,StarRocks SQL,Flink SQL Batch, danFlink SQL Streaming.Sumber daya komputasi yang didukung:
MaxCompute,Hologres,EMR Serverless Spark,EMR Serverless StarRocks, danFully Managed Flink.
Sel Python.
Sel Markdown.
Buat instans lingkungan pengembangan pribadi
Notebook berjalan pada instans lingkungan pengembangan pribadi. Sebelum memulai, Anda harus membuat dan beralih ke instans target. Dependensi untuk pengembangan node Notebook, seperti pustaka Python pihak ketiga, dapat diinstal di instans lingkungan pengembangan pribadi.
Buat node Notebook
Buka halaman Data Studio (New Version).
Buka halaman Ruang Kerja di konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Temukan ruang kerja yang diinginkan dan pilih di kolom Actions.
Buat Notebook.
Di DataWorks, Anda dapat membuat Notebook di Project Folder, My Folder, atau di bawah One-Time Tasks.
Di panel navigasi sebelah kiri, klik ikon
untuk membuka halaman Pengembangan Data. Buat Notebook di Project Folder atau My Folder.Buat Notebook di Folder Proyek:
Klik ikon
dan pilih Notebook untuk membuat Notebook baru.Jika Anda telah membuat direktori kerja, arahkan kursor ke nama direktori tersebut, klik kanan, lalu pilih untuk membuat Notebook baru.
Jika Anda telah membuat alur kerja, Anda dapat menambahkan node Notebook saat mengedit alur kerja tersebut.
Buat Notebook di Folder Saya:
Klik ikon
untuk membuat file Notebook baru.Klik ikon
dan tambahkan file dalam format .ipynbuntuk membuat Notebook baru.Jika Anda telah membuat folder, arahkan kursor ke nama folder tersebut, klik kanan, lalu pilih Baru Notebook untuk membuat Notebook baru.
Di panel navigasi sebelah kiri, klik ikon
untuk membuka halaman Sekali Pakai. Di bawah One-Time Tasks, klik ikon
dan pilih untuk membuat Notebook baru.
Kembangkan node Notebook

1. Tambahkan sel
Di bilah alat node Notebook, Anda dapat mengklik tombol SQL, Python, atau Markdown untuk membuat jenis sel yang sesuai secara cepat. Anda juga dapat menambahkan sel baru di atas atau di bawah sel tertentu di editor kode.
Tambahkan sel di atas sel saat ini: Arahkan kursor ke tepi atas sel untuk menampilkan tombol tambah, lalu klik tombol tersebut untuk menyisipkan sel baru di atas sel saat ini.
Tambahkan sel di bawah sel saat ini: Arahkan kursor ke tepi bawah sel untuk menampilkan tombol tambah, lalu klik tombol tersebut untuk menyisipkan sel baru di bawah sel saat ini.
Untuk mengubah urutan sel, arahkan kursor ke garis biru di depan sel, lalu seret ke posisi baru.
2. (Opsional) Ganti jenis sel
Di dalam sel, Anda dapat mengklik tombol Jenis Sel di pojok kanan bawah untuk beralih antar jenis sel. Untuk informasi lebih lanjut tentang jenis sel, lihat Jenis sel yang didukung.
Anda dapat mengubah sel SQL dari MaxCompute SQL menjadi Hologres SQL atau jenis sel SQL lainnya.
Anda dapat mengubah sel SQL menjadi sel Python atau Markdown, atau sebaliknya.
Saat mengganti jenis sel, kontennya tetap dipertahankan. Anda harus menyesuaikan kode di dalam sel secara manual agar sesuai dengan jenis yang baru.
3. Kembangkan kode sel
Anda dapat mengedit kode SQL, Python, dan Markdown di sel yang sesuai. Saat mengembangkan kode di sel SQL, pastikan sintaks SQL sesuai dengan jenis sel SQL yang dipilih, yaitu jenis sumber daya komputasi. Anda dapat menggunakan DataWorks Copilot Ask untuk bantuan pemrograman. Asisten cerdas dapat diakses dengan cara berikut:
Dari bilah alat sel: Klik ikon
di pojok kanan atas sel untuk membuka kotak obrolan Copilot di editor guna mendapatkan bantuan pemrograman.Dari menu konteks sel: Klik kanan sel dan pilih untuk bantuan pemrograman.
Menggunakan pintasan keyboard:
macOS: Tekan
Command+Iuntuk membuka kotak obrolan asisten cerdas.Windows: Tekan
Ctrl+Iuntuk membuka kotak obrolan asisten cerdas.
Jalankan Notebook
1. Pilih lingkungan pengembangan pribadi
Saat menjalankan Notebook langsung di DataStudio, sel Python di dalam Notebook berjalan berdasarkan lingkungan pengembangan pribadi. Oleh karena itu, Anda harus memilih instans lingkungan pengembangan pribadi yang telah dibuat di bagian atas halaman sebagai lingkungan runtime untuk Notebook.
2. Konfirmasi atau ganti kernel Python
Konfirmasi atau ganti kernel Python: Klik ikon
di pojok kanan atas node Notebook untuk mengonfirmasi versi kernel Python untuk sel Python saat ini, atau beralih ke versi kernel Python lainnya.
3. (Opsional) Pilih sumber daya komputasi
Sel SQL: Klik ikon
di pojok kanan bawah sel SQL. Anda harus menentukan sumber daya komputasi yang telah disambungkan. Saat menjalankan sel tersebut, pernyataan SQL akan dieksekusi menggunakan sumber daya komputasi yang ditentukan.Sel Python: Secara default, sel Python menggunakan kernel dari instans lingkungan pengembangan pribadi untuk menjalankan kode. Untuk mengakses layanan sumber daya komputasi tertentu, Anda juga dapat menggunakan Perintah Magic bawaan untuk menyambungkan ke sumber daya komputasi MaxCompute.
4. Jalankan sel Notebook
Setelah selesai mengembangkan sel Notebook, Anda dapat menguji semua sel atau menjalankan satu sel saja.
Jalankan semua sel: Setelah mengedit Notebook, klik ikon
di bagian atas untuk menguji dan menjalankan semua sel di node Notebook.Jalankan satu sel: Setelah mengedit sel di dalam Notebook, klik ikon
di sebelah kiri sel untuk menguji dan menjalankannya.
5. Lihat hasilnya
Sel SQL
Anda dapat menulis berbagai jenis skrip SQL di dalam sel. Setelah menjalankan skrip SQL, hasilnya akan ditampilkan di bawah sel tersebut.
Skenario 1: Jika SQL tidak mengandung pernyataan SELECT, hanya log eksekusi yang ditampilkan secara default setelah sel dijalankan.
CREATE TABLE IF NOT EXISTS product ( product_id BIGINT, product_name STRING, product_type STRING, price DECIMAL(10, 2) ) LIFECYCLE 30; -- Siklus hidup data adalah 30 hari. Data akan dihapus secara otomatis setelah periode ini. Pengaturan ini bersifat opsional.Skenario 2: Jika SQL mengandung pernyataan SELECT, log eksekusi akan ditampilkan, dan hasilnya dapat dilihat dalam dua cara: sebagai tabel atau sebagai grafik visual. Sistem juga secara otomatis membuat variabel DataFrame dari hasil kueri.
SELECT product_id, product_name, product_type, price FROM product;Buat objek data DataFrame:
Sel SQL secara otomatis menghasilkan variabel return. Anda dapat mengklik nama variabel
df_*di pojok kiri bawah sel SQL untuk mengganti nama variabel DataFrame yang dihasilkan.
Lihat tabel hasil kueri SQL: Setelah kueri SQL dijalankan, hasilnya ditampilkan dalam bentuk tabel secara default di area log.
Hasil kueri SQL ditampilkan dalam bentuk tabel di area log secara default.

Lihat grafik visual untuk kueri SQL
Setelah kueri SQL dijalankan, klik ikon
di sebelah kiri area log untuk melihat grafik visual dari data yang dihasilkan oleh kueri tersebut.
Sel Python
Anda dapat menulis skrip Python di dalam sel. Setelah menjalankan skrip Python, hasilnya akan dicetak di bawah sel tersebut.
Skenario 1: Cetak hanya keluaran teks.
print("Hello World")Skenario 2: Gunakan Pandas DataFrame.
import pandas as pd # Definisikan data produk, termasuk detail: nama produk, wilayah, dan frekuensi login. product_data = { 'Product_Name': ['DataWorks', 'RDS MySQL', 'EMR Spark', 'MaxCompute'], 'Product_Region': ['Tiongkok Timur 2 (Shanghai)', 'Tiongkok Utara 2 (Beijing)', 'Tiongkok Selatan 1 (Shenzhen)', 'Hong Kong'], 'Login_Frequency': [33, 22, 11, 44] } # Buat DataFrame dari data yang diberikan. df_products = pd.DataFrame(product_data) # Cetak DataFrame untuk menampilkan informasi produk. print(df_products)
Skenario 3: Buat grafik.
import matplotlib.pyplot as plt # Data categories = ['DataWorks', 'RDS MySQL', 'MaxCompute', 'EMR Spark', 'Hologres'] values = [23, 45, 56, 78, 30] # Buat grafik batang plt.figure(figsize=(10, 6)) plt.bar(categories, values, color=['blue', 'green', 'red', 'purple', 'orange']) # Tambahkan judul dan label plt.title('Contoh Grafik Batang') plt.xlabel('kategori') plt.ylabel('nilai') # Tampilkan grafik plt.show()
Sel Markdown
Setelah selesai menulis, klik ikon
untuk menampilkan teks Markdown yang telah diformat.# Notebook DataWorks
Di sel Markdown yang sudah menampilkan teks terformat, klik ikon
untuk melanjutkan pengeditan sel tersebut.
Langkah selanjutnya: Publikasikan node
Konfigurasi penjadwalan: Jika Notebook di Project Folder perlu dijalankan secara berkala di lingkungan produksi, Anda harus mengonfigurasi properti penjadwalannya, misalnya dengan menentukan waktu penjadwalan berulang.
Secara default, Notebook di Project Folder, My Folder, atau di bawah One-Time Tasks dijalankan pada kernel lingkungan pengembangan pribadi Anda. Saat memublikasikan Notebook ke lingkungan produksi, sistem menggunakan lingkungan citra yang Anda pilih dalam konfigurasi penjadwalan. Sebelum memublikasikan Notebook, pastikan citra yang dipilih berisi dependensi yang diperlukan agar node Notebook dapat berjalan. Anda dapat membuat citra DataWorks dari lingkungan pengembangan pribadi untuk digunakan dalam penjadwalan.
Publikasikan node: Node Notebook hanya akan berjalan sesuai konfigurasi penjadwalannya setelah dipublikasikan ke lingkungan produksi. Anda dapat memublikasikan node ke lingkungan produksi dengan cara berikut.
Publikasikan Notebook dari Folder Proyek: Simpan Notebook, lalu klik
untuk memublikasikannya. Setelah dipublikasikan, Anda dapat melihat tugas Notebook di halaman di Pusat Operasi.Publikasikan Notebook dari Folder Saya: Simpan Notebook. Klik ikon
untuk mengirimkan Notebook dari Folder Saya ke Folder Proyek. Kemudian, klik
untuk memublikasikan Notebook tersebut. Setelah dipublikasikan, Anda dapat melihat tugas Notebook di halaman di Pusat Operasi.Publikasikan Notebook dari Tugas Sekali Pakai: Simpan Notebook, lalu klik
untuk memublikasikannya. Setelah dipublikasikan, Anda dapat melihat tugas Notebook di halaman di Pusat Operasi.
Batalkan publikasi tugas: Untuk membatalkan publikasi Notebook, klik kanan node tersebut, pilih Delete, lalu ikuti petunjuk di layar untuk membatalkan publikasi atau menghapus Notebook.
Skenario dan praktik
Gunakan Perintah Magic bawaan untuk menyambungkan ke sumber daya komputasi MaxCompute
Di sel Python, Anda dapat menggunakan Perintah Magic bawaan untuk menyambungkan ke sumber daya komputasi MaxCompute. Hal ini menghindari kebutuhan untuk berulang kali mendefinisikan informasi koneksi dan Informasi AccessKey teks biasa dalam Python.
Sebelum menyambungkan ke sumber daya komputasi MaxCompute, pastikan Anda telah menyambungkan sumber daya komputasi MaxCompute (ODPS).
Skenario 1: Membuat koneksi Sesi MaxCompute MaxFrame
Saat mengembangkan di sel Python, Anda dapat menggunakan Perintah Magic bawaan berikut untuk membuka pemilih sumber daya komputasi MaxCompute dan mengakses layanan MaxCompute MaxFrame.
Gunakan Perintah Magic untuk menyambungkan dan mengakses Sesi MaxCompute MaxFrame.
mf_session = %maxframeGunakan Perintah Magic di sel Python untuk melepaskan koneksi MaxCompute MaxFrame:
mf_session.destroy()
Skenario 2: Menyambungkan ke sumber daya komputasi MaxCompute
Saat mengembangkan di sel Python, Anda dapat menggunakan Perintah Magic bawaan berikut untuk membuka pemilih sumber daya komputasi MaxCompute. Hal ini memungkinkan Anda berinteraksi dengan MaxCompute menggunakan Python untuk operasi seperti pemuatan data, kueri, dan operasi DDL.
Gunakan Perintah Magic untuk membuat koneksi MaxCompute.
Memasukkan perintah berikut di dalam sel akan membuka pemilih sumber daya komputasi MaxCompute.
o=%odpsGunakan sumber daya komputasi MaxCompute yang diperoleh untuk menjalankan skrip PyODPS.
Sebagai contoh, untuk mengambil semua tabel di proyek saat ini:
with o.execute_sql('show tables').open_reader() as reader: print(reader.raw)
Menulis data dari set data ke tabel MaxCompute
DataWorks mendukung pembuatan set data bertipe NAS. Anda kemudian dapat menggunakan set data tersebut dalam pengembangan Notebook untuk membaca dan menulis data di penyimpanan NAS.
Contoh berikut menunjukkan cara menulis data uji (testfile.csv) dari set data yang disambungkan ke instans lingkungan pengembangan pribadi (jalur pemasangan: /mnt/data/dataset02) ke tabel MaxCompute (mc_testtb).

Meneruskan hasil sel SQL ke sel Python
Saat sel SQL menghasilkan keluaran, variabel DataFrame akan dibuat secara otomatis. Variabel ini dapat diakses oleh sel Python, sehingga memungkinkan interaksi antara sel SQL dan Python.
Jalankan sel SQL untuk menghasilkan DataFrame.
Jika sel SQL berisi satu kueri, hasil kueri tersebut akan secara otomatis ditangkap sebagai variabel DataFrame.
Jika sel SQL berisi beberapa kueri, variabel DataFrame akan berisi hasil dari kueri terakhir.
CatatanNama variabel DataFrame secara default adalah
df_**. Anda dapat mengklik nama variabel di pojok kiri bawah sel untuk menyesuaikannya.Jika sel berisi beberapa kueri SQL, variabel DataFrame hanya akan menyimpan hasil dari kueri terakhir yang dieksekusi.
Ambil variabel DataFrame di sel Python.
Di sel Python, Anda dapat mengambil variabel DataFrame dengan langsung mereferensikan namanya.

Referensikan sumber daya Python di Notebook
Selama pengembangan Notebook, Anda dapat mereferensikan sumber daya MaxCompute menggunakan format ##@resource_reference{"custom_name.py"}. Berikut adalah contoh sederhana cara mereferensikan sumber daya Python:
Mereferensikan sumber daya Python di Notebook hanya berfungsi di lingkungan produksi. Hal ini tidak berfungsi di lingkungan pengembangan. Anda harus memublikasikan Notebook ke lingkungan produksi dan mengeksekusinya di Pusat Operasi.
Buat sumber daya Python baru
Tambahkan file sumber daya Python.
Buka halaman Ruang Kerja DataWorks. Di bilah navigasi atas, alihkan ke wilayah tujuan. Temukan ruang kerja yang telah dibuat dan klik di kolom Actions untuk membuka DataStudio.
Di panel navigasi sebelah kiri, klik
untuk membuka Manajemen Sumber Daya.Di halaman Resource Management, klik tombol New atau
. Anda juga dapat terlebih dahulu Create a Folder untuk mengorganisasi sumber daya Anda, lalu klik kanan folder tersebut dan pilih New untuk memilih jenis sumber daya atau fungsi spesifik yang akan dibuat.Buat sumber daya Python MaxCompute.
Dalam contoh ini, sumber daya Python diberi nama
hello.py.
Edit konten file sumber daya Python. Berikut adalah contoh kodenya:
# your_script.py def greet(name): print(f"Hello, {name}!")Setelah mengedit, klik Save untuk menyimpan kode Python.
Setelah mengedit dan menyimpan kode, klik ikon
untuk meng-commit sumber daya hello.py.Setelah sumber daya di-commit, klik ikon
untuk mempublikasikan sumber daya hello.pyke lingkungan pengembangan dan produksi.
Referensikan sumber daya Python
Tambahkan node Notebook. Untuk informasi lebih lanjut, lihat Buat node Notebook.
Tambahkan sel Python ke Notebook. Untuk informasi lebih lanjut, lihat Tambahkan sel.
Di sel Python, tulis
##@resource_reference{"hello.py"}untuk mereferensikan sumber daya Python MaxCompute baru. Berikut adalah contoh kodenya:# Komentar ini mereferensikan sumber daya Python bernama hello.py selama penjadwalan. ##@resource_reference{"hello.py"} import sys import os # Tambahkan direktori kerja saat ini ke path. sys.path.append(os.path.abspath('./hello.py')) # Atau gunakan path relatif, sesuaikan jika diperlukan. from hello import greet # Ganti dengan nama fungsi yang sebenarnya. greet('DataWorks')Setelah menulis kode di sel Python dan mengonfigurasi penjadwalan node, simpan dan publikasikan node Notebook.
Buka Operation Center (Workflow). Di halaman , temukan node Notebook yang telah dipublikasikan. Di kolom Aksi, klik Isi Ulang Data untuk melakukan pengisian ulang data untuk node Notebook tersebut. Untuk informasi lebih lanjut tentang pengisian ulang data, lihat Lakukan pengisian ulang data dan lihat instans pengisian ulang data (versi baru).
Setelah pengisian ulang data selesai, Anda dapat melihat log eksekusi node Notebook untuk memastikan apakah sel Python berhasil dieksekusi.
Referensikan parameter ruang kerja di Notebook
Selama pengembangan Notebook, Anda dapat mereferensikan parameter ruang kerja di sel SQL dan Python menggunakan format ${workspace.param}. Berikut adalah contoh sederhana cara mereferensikan parameter ruang kerja.
Sebelum mereferensikan parameter ruang kerja di sel, Anda harus membuat parameter ruang kerja tersebut.
Dalam contoh ini,
paramadalah nama parameter ruang kerja yang Anda buat. Gantilah dengan nama parameter ruang kerja yang diinginkan selama pengembangan.
Referensikan parameter ruang kerja di sel SQL.
SELECT '${workspace.param}';Hal ini mengkueri parameter ruang kerja. Setelah eksekusi berhasil, nilai spesifik dari parameter ruang kerja akan dicetak.
Referensikan parameter ruang kerja di sel Python.
print('${workspace.param}')Hal ini menampilkan parameter ruang kerja. Setelah eksekusi berhasil, nilai spesifik dari parameter ruang kerja akan dicetak.
Gunakan PySpark dengan Perintah Magic
Selama pengembangan Notebook, Anda dapat menggunakan Perintah Magic di sel Python untuk membuat dan memulai layanan Livy secara cepat. Hal ini menyambungkan ke sumber daya komputasi MaxCompute Spark dan EMR Serverless Spark untuk pengembangan dan debugging yang efisien.
Cakupan:
Sumber daya komputasi MaxCompute dan sumber daya komputasi EMR Serverless Spark.
Instans lingkungan pengembangan pribadi yang dibuat sebelum
2025-08-01tidak mendukung fitur ini. Untuk menggunakan fitur ini, Anda perlu membuat lingkungan pengembangan pribadi baru.
Prasyarat: Anda telah menyambungkan sumber daya komputasi MaxCompute atau sumber daya komputasi EMR Serverless Spark ke ruang kerja Anda.
Menyambungkan ke sumber daya komputasi menggunakan Python
Di sel Python Notebook, Anda dapat menggunakan perintah berikut untuk membuat, menyambungkan, atau melepaskan layanan Livy pada sumber daya komputasi target secara cepat.
Perintah MaxCompute
Magic command | Deskripsi | Catatan |
| Menjalankan perintah ini melakukan operasi berikut:
Catatan Anda tidak dapat melihat informasi Livy dan Sesi Spark di konsol MaxCompute. | Menjalankan Notebook di DataStudio: Saat menjalankan Notebook di DataStudio, Anda harus memilih nama instans lingkungan pengembangan pribadi. Pertama kali menjalankan perintah ini di Notebook dalam instans yang dipilih, layanan Livy baru akan dibuat. Jika layanan Livy tidak dihapus, eksekusi berikutnya dari perintah Menjalankan Notebook setelah dipublikasikan ke produksi: Saat Notebook dijalankan di lingkungan produksi, setiap instans tugas membuat layanan Livy baru. Layanan Livy akan dihentikan dan dihapus secara otomatis saat instans tugas selesai dijalankan. |
| Menjalankan perintah ini membersihkan Sesi Spark dan menghentikan layanan Livy. | Untuk mempublikasikan tugas Notebook ke lingkungan produksi, kode tugas tidak perlu menyertakan Perintah Magic ini. |
| Menjalankan perintah ini menghapus layanan Livy. | Saat instans tugas Notebook dijalankan di lingkungan produksi, sistem secara otomatis menambahkan perintah Catatan Perintah |
Perintah EMR Serverless Spark
Magic command | Deskripsi | Catatan |
| Menjalankan perintah ini melakukan operasi berikut:
Catatan: Catatan Setelah menjalankan perintah, Anda dapat membuka konsol E-MapReduce untuk melihat dan mengelola Gateway Livy dan Sesi Spark mesin EMR Serverless Spark. Layanan Livy yang dibuat melalui Notebook DataWorks memiliki nama dengan awalan | Menjalankan Notebook di DataStudio: Saat menjalankan Notebook di DataStudio, Anda harus memilih nama instans lingkungan pengembangan pribadi. Pertama kali menjalankan perintah ini di Notebook dalam instans yang dipilih, layanan Livy baru akan dibuat. Jika layanan Livy tidak dihapus, eksekusi berikutnya dari perintah Menjalankan Notebook setelah dipublikasikan ke produksi: Saat Notebook dijalankan di lingkungan produksi, setiap instans tugas membuat layanan Livy baru. Layanan Livy akan dihentikan dan dihapus secara otomatis saat instans tugas selesai dijalankan. |
| Menjalankan perintah ini membersihkan Sesi Spark dan menghentikan layanan Livy. | Untuk mempublikasikan tugas Notebook ke lingkungan produksi, kode tugas tidak perlu menyertakan Perintah Magic ini. |
| Menjalankan perintah ini menghapus layanan Livy. | Saat instans tugas Notebook dijalankan di lingkungan produksi, sistem secara otomatis menambahkan perintah Catatan Perintah |
Kirim dan eksekusi kode Spark menggunakan Python
Anda dapat menambahkan sel Python di Notebook untuk mengedit dan mengeksekusi kode PySpark.
Pastikan Anda telah tersambung ke sumber daya komputasi target. Di sel Python sebelumnya, Anda harus telah menggunakan Perintah Magic (seperti
%emr_serverless_sparkatau%maxcompute_spark) untuk menyambungkan ke sumber daya komputasi target. Untuk informasi lebih lanjut, lihat Menyambungkan ke sumber daya komputasi menggunakan Python.Tulis kode PySpark.
Di sel Python baru, tambahkan perintah
%%sparkuntuk menggunakan sumber daya komputasi Spark yang telah disambungkan pada langkah sebelumnya, lalu edit kode PySpark Anda. Contohnya:%%spark spark.sql("DROP TABLE IF EXISTS dwd_user_info_d") spark.sql("CREATE TABLE dwd_user_info_d(id STRING, name STRING, age BIGINT, city STRING)") spark.sql("INSERT INTO dwd_user_info_d SELECT '001', 'Jack', 30, 'Beijing'") spark.sql("SELECT * FROM dwd_user_info_d").show() spark.sql("SELECT COUNT(*) FROM dwd_user_info_d").show()CatatanJika sel Python menyertakan perintah
%%spark, sel tersebut dapat tersambung dan berjalan pada mesin Spark sumber daya komputasi target.Jika sel Python tidak menyertakan perintah
%%spark, sel tersebut hanya dapat berjalan di lingkungan lokal.
Lampiran: Operasi umum
Operasi Notebook DataWorks didasarkan pada Jupyter Notebook VSCode. Berikut adalah beberapa operasi umum untuk sel:

di bawah sel untuk menambahkan lebih banyak tag dengan cepat.
untuk melihat semua parameter variabel di Notebook. Ini mencakup Name, Type, Size, dan Value variabel.