全部产品
Search
文档中心

DataWorks:Kembangkan dengan Notebook

更新时间:Nov 10, 2025

Notebook DataWorks mendukung berbagai jenis sel dan menyediakan lingkungan analisis interaktif serta modular untuk membantu Anda memproses dan menganalisis data secara efisien, membuat visualisasi, serta membangun model.

Pengenalan Fungsi

Di DataWorks, Anda dapat menggunakan node Notebook untuk membangun lingkungan analisis yang interaktif, modular, dan dapat digunakan kembali.

  • Pengembangan multi-mesin: Notebook DataWorks mencakup fitur SQL Cell yang mendukung pengembangan dan analisis SQL pada berbagai mesin data besar.

  • Analisis interaktif:

    • Kueri SQL interaktif: Anda dapat menulis widget dalam Python untuk memilih atau mengatur nilai parameter secara visual, lalu mereferensikan parameter tersebut beserta nilainya dalam SQL guna mengaktifkan kueri interaktif antara Python dan SQL.

    • Menulis hasil kueri SQL ke dalam DataFrame: Hasil kueri SQL dapat disimpan langsung ke objek Pandas DataFrame atau MaxFrame DataFrame dan diteruskan sebagai variabel ke sel-sel berikutnya.

    • Membuat grafik visual: Anda dapat membaca variabel DataFrame dalam sel Python untuk membuat grafik berdasarkan data tersebut, sehingga menciptakan interaksi efisien antara Python dan SQL.

  • Pengembangan terintegrasi data besar dan AI: Di Notebook DataWorks, Anda dapat menggunakan pustaka seperti Pandas untuk membersihkan dan menyiapkan data agar memenuhi persyaratan input model algoritma. Data yang telah dibersihkan tersebut kemudian dapat digunakan untuk mengembangkan, melatih, dan mengevaluasi model secara mudah, sehingga menciptakan koneksi mulus antara data besar dan AI.

  • Pembuatan kode cerdas: Notebook DataWorks dilengkapi asisten pemrograman cerdas bawaan yang mendukung pembuatan kode SQL dan Python dengan DataWorks Copilot untuk meningkatkan efisiensi pengembangan.

  • Menyambungkan set data: Di Notebook DataWorks, pada tab Scheduling Configuration > Scheduling Policy, Anda dapat menambahkan set data ke Notebook. Hal ini memungkinkan node membaca data dari OSS atau NAS, atau menulis file ke OSS atau NAS selama waktu proses.

Prasyarat

Catatan

Saat menjalankan tugas ini menggunakan kelompok sumber daya Serverless, konfigurasi maksimum yang didukung untuk satu tugas adalah 64 CU. Namun, kami menyarankan agar Anda tidak melebihi 16 CU untuk mencegah kekurangan sumber daya akibat CU berlebihan yang dapat memengaruhi startup tugas.

Jenis sel yang didukung

  • Sel SQL:

    • Jenis sel yang didukung: MaxCompute SQL, Hologres SQL, EMR SPARK SQL, StarRocks SQL, Flink SQL Batch, dan Flink SQL Streaming.

    • Sumber daya komputasi yang didukung: MaxCompute, Hologres, EMR Serverless Spark, EMR Serverless StarRocks, dan Fully Managed Flink.

  • Sel Python.

  • Sel Markdown.

Buat instans lingkungan pengembangan pribadi

Notebook berjalan pada instans lingkungan pengembangan pribadi. Sebelum memulai, Anda harus membuat dan beralih ke instans target. Dependensi untuk pengembangan node Notebook, seperti pustaka Python pihak ketiga, dapat diinstal di instans lingkungan pengembangan pribadi.

Buat node Notebook

  1. Buka halaman Data Studio (New Version).

    Buka halaman Ruang Kerja di konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Temukan ruang kerja yang diinginkan dan pilih Shortcuts > Data Studio di kolom Actions.

  2. Buat Notebook.

    Di DataWorks, Anda dapat membuat Notebook di Project Folder, My Folder, atau di bawah One-Time Tasks.

    • Di panel navigasi sebelah kiri, klik ikon image untuk membuka halaman Pengembangan Data. Buat Notebook di Project Folder atau My Folder.

      • Buat Notebook di Folder Proyek:

        • Klik ikon image dan pilih Notebook untuk membuat Notebook baru.

        • Jika Anda telah membuat direktori kerja, arahkan kursor ke nama direktori tersebut, klik kanan, lalu pilih New > New Node > Notebook untuk membuat Notebook baru.

        • Jika Anda telah membuat alur kerja, Anda dapat menambahkan node Notebook saat mengedit alur kerja tersebut.

      • Buat Notebook di Folder Saya:

        • Klik ikon image untuk membuat file Notebook baru.

        • Klik ikon image dan tambahkan file dalam format .ipynb untuk membuat Notebook baru.

        • Jika Anda telah membuat folder, arahkan kursor ke nama folder tersebut, klik kanan, lalu pilih Baru Notebook untuk membuat Notebook baru.

    • Di panel navigasi sebelah kiri, klik ikon image untuk membuka halaman Sekali Pakai. Di bawah One-Time Tasks, klik ikon image dan pilih New Node > Notebook untuk membuat Notebook baru.

Kembangkan node Notebook

image

1. Tambahkan sel

Di bilah alat node Notebook, Anda dapat mengklik tombol SQL, Python, atau Markdown untuk membuat jenis sel yang sesuai secara cepat. Anda juga dapat menambahkan sel baru di atas atau di bawah sel tertentu di editor kode.

  • Tambahkan sel di atas sel saat ini: Arahkan kursor ke tepi atas sel untuk menampilkan tombol tambah, lalu klik tombol tersebut untuk menyisipkan sel baru di atas sel saat ini.

  • Tambahkan sel di bawah sel saat ini: Arahkan kursor ke tepi bawah sel untuk menampilkan tombol tambah, lalu klik tombol tersebut untuk menyisipkan sel baru di bawah sel saat ini.

Catatan

Untuk mengubah urutan sel, arahkan kursor ke garis biru di depan sel, lalu seret ke posisi baru.

2. (Opsional) Ganti jenis sel

Di dalam sel, Anda dapat mengklik tombol Jenis Sel di pojok kanan bawah untuk beralih antar jenis sel. Untuk informasi lebih lanjut tentang jenis sel, lihat Jenis sel yang didukung.

  • Anda dapat mengubah sel SQL dari MaxCompute SQL menjadi Hologres SQL atau jenis sel SQL lainnya.

  • Anda dapat mengubah sel SQL menjadi sel Python atau Markdown, atau sebaliknya.

Catatan

Saat mengganti jenis sel, kontennya tetap dipertahankan. Anda harus menyesuaikan kode di dalam sel secara manual agar sesuai dengan jenis yang baru.

3. Kembangkan kode sel

Anda dapat mengedit kode SQL, Python, dan Markdown di sel yang sesuai. Saat mengembangkan kode di sel SQL, pastikan sintaks SQL sesuai dengan jenis sel SQL yang dipilih, yaitu jenis sumber daya komputasi. Anda dapat menggunakan DataWorks Copilot Ask untuk bantuan pemrograman. Asisten cerdas dapat diakses dengan cara berikut:

  • Dari bilah alat sel: Klik ikon image di pojok kanan atas sel untuk membuka kotak obrolan Copilot di editor guna mendapatkan bantuan pemrograman.

  • Dari menu konteks sel: Klik kanan sel dan pilih Copilot > Chat In Editor untuk bantuan pemrograman.

  • Menggunakan pintasan keyboard:

    • macOS: Tekan Command+I untuk membuka kotak obrolan asisten cerdas.

    • Windows: Tekan Ctrl+I untuk membuka kotak obrolan asisten cerdas.

Jalankan Notebook

1. Pilih lingkungan pengembangan pribadi

Saat menjalankan Notebook langsung di DataStudio, sel Python di dalam Notebook berjalan berdasarkan lingkungan pengembangan pribadi. Oleh karena itu, Anda harus memilih instans lingkungan pengembangan pribadi yang telah dibuat di bagian atas halaman sebagai lingkungan runtime untuk Notebook.

2. Konfirmasi atau ganti kernel Python

Konfirmasi atau ganti kernel Python: Klik ikon image di pojok kanan atas node Notebook untuk mengonfirmasi versi kernel Python untuk sel Python saat ini, atau beralih ke versi kernel Python lainnya.

3. (Opsional) Pilih sumber daya komputasi

4. Jalankan sel Notebook

Setelah selesai mengembangkan sel Notebook, Anda dapat menguji semua sel atau menjalankan satu sel saja.

  • Jalankan semua sel: Setelah mengedit Notebook, klik ikon image di bagian atas untuk menguji dan menjalankan semua sel di node Notebook.

  • Jalankan satu sel: Setelah mengedit sel di dalam Notebook, klik ikon image di sebelah kiri sel untuk menguji dan menjalankannya.

5. Lihat hasilnya

Sel SQL

Anda dapat menulis berbagai jenis skrip SQL di dalam sel. Setelah menjalankan skrip SQL, hasilnya akan ditampilkan di bawah sel tersebut.

  • Skenario 1: Jika SQL tidak mengandung pernyataan SELECT, hanya log eksekusi yang ditampilkan secara default setelah sel dijalankan.

    CREATE TABLE IF NOT EXISTS product (
        product_id BIGINT,
        product_name STRING,
        product_type STRING,
        price DECIMAL(10, 2)
    )
    LIFECYCLE 30; -- Siklus hidup data adalah 30 hari. Data akan dihapus secara otomatis setelah periode ini. Pengaturan ini bersifat opsional.
  • Skenario 2: Jika SQL mengandung pernyataan SELECT, log eksekusi akan ditampilkan, dan hasilnya dapat dilihat dalam dua cara: sebagai tabel atau sebagai grafik visual. Sistem juga secara otomatis membuat variabel DataFrame dari hasil kueri.

    SELECT 
    product_id,
    product_name,
    product_type,
    price 
    FROM product;
    • Buat objek data DataFrame:

      Sel SQL secara otomatis menghasilkan variabel return. Anda dapat mengklik nama variabel df_* di pojok kiri bawah sel SQL untuk mengganti nama variabel DataFrame yang dihasilkan.

      image

    • Lihat tabel hasil kueri SQL: Setelah kueri SQL dijalankan, hasilnya ditampilkan dalam bentuk tabel secara default di area log.

      Hasil kueri SQL ditampilkan dalam bentuk tabel di area log secara default.

      image

    • Lihat grafik visual untuk kueri SQL

      Setelah kueri SQL dijalankan, klik ikon image di sebelah kiri area log untuk melihat grafik visual dari data yang dihasilkan oleh kueri tersebut.

      image

Sel Python

Anda dapat menulis skrip Python di dalam sel. Setelah menjalankan skrip Python, hasilnya akan dicetak di bawah sel tersebut.

  • Skenario 1: Cetak hanya keluaran teks.

    print("Hello World")
  • Skenario 2: Gunakan Pandas DataFrame.

    import pandas as pd
    
    # Definisikan data produk, termasuk detail: nama produk, wilayah, dan frekuensi login.
    product_data = {
        'Product_Name': ['DataWorks', 'RDS MySQL', 'EMR Spark', 'MaxCompute'],
        'Product_Region': ['Tiongkok Timur 2 (Shanghai)', 'Tiongkok Utara 2 (Beijing)', 'Tiongkok Selatan 1 (Shenzhen)', 'Hong Kong'],
        'Login_Frequency': [33, 22, 11, 44]
    }
    
    # Buat DataFrame dari data yang diberikan.
    df_products = pd.DataFrame(product_data)
    
    # Cetak DataFrame untuk menampilkan informasi produk.
    print(df_products)

    image

  • Skenario 3: Buat grafik.

    import matplotlib.pyplot as plt
    
    # Data
    categories = ['DataWorks', 'RDS MySQL', 'MaxCompute', 'EMR Spark', 'Hologres']
    values = [23, 45, 56, 78, 30]
    
    # Buat grafik batang
    plt.figure(figsize=(10, 6))
    plt.bar(categories, values, color=['blue', 'green', 'red', 'purple', 'orange'])
    
    # Tambahkan judul dan label
    plt.title('Contoh Grafik Batang')
    plt.xlabel('kategori')
    plt.ylabel('nilai')
    
    # Tampilkan grafik
    plt.show()

    image

Sel Markdown

  • Setelah selesai menulis, klik ikon image untuk menampilkan teks Markdown yang telah diformat.

    # Notebook DataWorks
Catatan

Di sel Markdown yang sudah menampilkan teks terformat, klik ikon image untuk melanjutkan pengeditan sel tersebut.

Langkah selanjutnya: Publikasikan node

  • Konfigurasi penjadwalan: Jika Notebook di Project Folder perlu dijalankan secara berkala di lingkungan produksi, Anda harus mengonfigurasi properti penjadwalannya, misalnya dengan menentukan waktu penjadwalan berulang.

    Secara default, Notebook di Project Folder, My Folder, atau di bawah One-Time Tasks dijalankan pada kernel lingkungan pengembangan pribadi Anda. Saat memublikasikan Notebook ke lingkungan produksi, sistem menggunakan lingkungan citra yang Anda pilih dalam konfigurasi penjadwalan. Sebelum memublikasikan Notebook, pastikan citra yang dipilih berisi dependensi yang diperlukan agar node Notebook dapat berjalan. Anda dapat membuat citra DataWorks dari lingkungan pengembangan pribadi untuk digunakan dalam penjadwalan.

  • Publikasikan node: Node Notebook hanya akan berjalan sesuai konfigurasi penjadwalannya setelah dipublikasikan ke lingkungan produksi. Anda dapat memublikasikan node ke lingkungan produksi dengan cara berikut.

    • Publikasikan Notebook dari Folder Proyek: Simpan Notebook, lalu klik image untuk memublikasikannya. Setelah dipublikasikan, Anda dapat melihat tugas Notebook di halaman Task O&M > Recurring Task O&M > Auto Triggered Tasks di Pusat Operasi.

    • Publikasikan Notebook dari Folder Saya: Simpan Notebook. Klik ikon image untuk mengirimkan Notebook dari Folder Saya ke Folder Proyek. Kemudian, klik image untuk memublikasikan Notebook tersebut. Setelah dipublikasikan, Anda dapat melihat tugas Notebook di halaman Task O&M > Recurring Task O&M > Auto Triggered Tasks di Pusat Operasi.

    • Publikasikan Notebook dari Tugas Sekali Pakai: Simpan Notebook, lalu klik image untuk memublikasikannya. Setelah dipublikasikan, Anda dapat melihat tugas Notebook di halaman Task O&M > One-time Task O&M > One-time Tasks di Pusat Operasi.

  • Batalkan publikasi tugas: Untuk membatalkan publikasi Notebook, klik kanan node tersebut, pilih Delete, lalu ikuti petunjuk di layar untuk membatalkan publikasi atau menghapus Notebook.

Skenario dan praktik

Gunakan Perintah Magic bawaan untuk menyambungkan ke sumber daya komputasi MaxCompute

Di sel Python, Anda dapat menggunakan Perintah Magic bawaan untuk menyambungkan ke sumber daya komputasi MaxCompute. Hal ini menghindari kebutuhan untuk berulang kali mendefinisikan informasi koneksi dan Informasi AccessKey teks biasa dalam Python.

Catatan

Sebelum menyambungkan ke sumber daya komputasi MaxCompute, pastikan Anda telah menyambungkan sumber daya komputasi MaxCompute (ODPS).

Skenario 1: Membuat koneksi Sesi MaxCompute MaxFrame

Saat mengembangkan di sel Python, Anda dapat menggunakan Perintah Magic bawaan berikut untuk membuka pemilih sumber daya komputasi MaxCompute dan mengakses layanan MaxCompute MaxFrame.

  • Gunakan Perintah Magic untuk menyambungkan dan mengakses Sesi MaxCompute MaxFrame.

    mf_session = %maxframe
  • Gunakan Perintah Magic di sel Python untuk melepaskan koneksi MaxCompute MaxFrame:

    mf_session.destroy()

Skenario 2: Menyambungkan ke sumber daya komputasi MaxCompute

Saat mengembangkan di sel Python, Anda dapat menggunakan Perintah Magic bawaan berikut untuk membuka pemilih sumber daya komputasi MaxCompute. Hal ini memungkinkan Anda berinteraksi dengan MaxCompute menggunakan Python untuk operasi seperti pemuatan data, kueri, dan operasi DDL.

  1. Gunakan Perintah Magic untuk membuat koneksi MaxCompute.

    Memasukkan perintah berikut di dalam sel akan membuka pemilih sumber daya komputasi MaxCompute.

    o=%odps 
  2. Gunakan sumber daya komputasi MaxCompute yang diperoleh untuk menjalankan skrip PyODPS.

    Sebagai contoh, untuk mengambil semua tabel di proyek saat ini:

    with o.execute_sql('show tables').open_reader() as reader:
        print(reader.raw)

Menulis data dari set data ke tabel MaxCompute

DataWorks mendukung pembuatan set data bertipe NAS. Anda kemudian dapat menggunakan set data tersebut dalam pengembangan Notebook untuk membaca dan menulis data di penyimpanan NAS.

Contoh berikut menunjukkan cara menulis data uji (testfile.csv) dari set data yang disambungkan ke instans lingkungan pengembangan pribadi (jalur pemasangan: /mnt/data/dataset02) ke tabel MaxCompute (mc_testtb).

image

Meneruskan hasil sel SQL ke sel Python

Saat sel SQL menghasilkan keluaran, variabel DataFrame akan dibuat secara otomatis. Variabel ini dapat diakses oleh sel Python, sehingga memungkinkan interaksi antara sel SQL dan Python.

  1. Jalankan sel SQL untuk menghasilkan DataFrame.

    • Jika sel SQL berisi satu kueri, hasil kueri tersebut akan secara otomatis ditangkap sebagai variabel DataFrame.

    • Jika sel SQL berisi beberapa kueri, variabel DataFrame akan berisi hasil dari kueri terakhir.

    Catatan
    • Nama variabel DataFrame secara default adalah df_**. Anda dapat mengklik nama variabel di pojok kiri bawah sel untuk menyesuaikannya.

    • Jika sel berisi beberapa kueri SQL, variabel DataFrame hanya akan menyimpan hasil dari kueri terakhir yang dieksekusi.

  2. Ambil variabel DataFrame di sel Python.

    Di sel Python, Anda dapat mengambil variabel DataFrame dengan langsung mereferensikan namanya.

image

Referensikan sumber daya Python di Notebook

Selama pengembangan Notebook, Anda dapat mereferensikan sumber daya MaxCompute menggunakan format ##@resource_reference{"custom_name.py"}. Berikut adalah contoh sederhana cara mereferensikan sumber daya Python:

Catatan

Mereferensikan sumber daya Python di Notebook hanya berfungsi di lingkungan produksi. Hal ini tidak berfungsi di lingkungan pengembangan. Anda harus memublikasikan Notebook ke lingkungan produksi dan mengeksekusinya di Pusat Operasi.

Buat sumber daya Python baru

  1. Tambahkan file sumber daya Python.

    1. Buka halaman Ruang Kerja DataWorks. Di bilah navigasi atas, alihkan ke wilayah tujuan. Temukan ruang kerja yang telah dibuat dan klik Quick Access > Data Studio di kolom Actions untuk membuka DataStudio.

    2. Di panel navigasi sebelah kiri, klik image untuk membuka Manajemen Sumber Daya.

    3. Di halaman Resource Management, klik tombol New atau image. Anda juga dapat terlebih dahulu Create a Folder untuk mengorganisasi sumber daya Anda, lalu klik kanan folder tersebut dan pilih New untuk memilih jenis sumber daya atau fungsi spesifik yang akan dibuat.

    4. Buat sumber daya Python MaxCompute.

      Dalam contoh ini, sumber daya Python diberi nama hello.py.

  2. Edit konten file sumber daya Python. Berikut adalah contoh kodenya:

    # your_script.py
    def greet(name):
        print(f"Hello, {name}!")

    Setelah mengedit, klik Save untuk menyimpan kode Python.

  3. Setelah mengedit dan menyimpan kode, klik ikon image untuk meng-commit sumber daya hello.py.

  4. Setelah sumber daya di-commit, klik ikon image untuk mempublikasikan sumber daya hello.py ke lingkungan pengembangan dan produksi.

Referensikan sumber daya Python

  1. Tambahkan node Notebook. Untuk informasi lebih lanjut, lihat Buat node Notebook.

  2. Tambahkan sel Python ke Notebook. Untuk informasi lebih lanjut, lihat Tambahkan sel.

    Di sel Python, tulis ##@resource_reference{"hello.py"} untuk mereferensikan sumber daya Python MaxCompute baru. Berikut adalah contoh kodenya:

    # Komentar ini mereferensikan sumber daya Python bernama hello.py selama penjadwalan.
    ##@resource_reference{"hello.py"}
    
    import sys
    import os
    
    # Tambahkan direktori kerja saat ini ke path.
    sys.path.append(os.path.abspath('./hello.py'))  # Atau gunakan path relatif, sesuaikan jika diperlukan.
    from hello import greet  # Ganti dengan nama fungsi yang sebenarnya.
    greet('DataWorks')
    
  3. Setelah menulis kode di sel Python dan mengonfigurasi penjadwalan node, simpan dan publikasikan node Notebook.

  4. Buka Operation Center (Workflow). Di halaman Recurring Task O&M > Auto Triggered Tasks, temukan node Notebook yang telah dipublikasikan. Di kolom Aksi, klik Isi Ulang Data untuk melakukan pengisian ulang data untuk node Notebook tersebut. Untuk informasi lebih lanjut tentang pengisian ulang data, lihat Lakukan pengisian ulang data dan lihat instans pengisian ulang data (versi baru).

  5. Setelah pengisian ulang data selesai, Anda dapat melihat log eksekusi node Notebook untuk memastikan apakah sel Python berhasil dieksekusi.

Referensikan parameter ruang kerja di Notebook

Selama pengembangan Notebook, Anda dapat mereferensikan parameter ruang kerja di sel SQL dan Python menggunakan format ${workspace.param}. Berikut adalah contoh sederhana cara mereferensikan parameter ruang kerja.

Catatan
  • Sebelum mereferensikan parameter ruang kerja di sel, Anda harus membuat parameter ruang kerja tersebut.

  • Dalam contoh ini, param adalah nama parameter ruang kerja yang Anda buat. Gantilah dengan nama parameter ruang kerja yang diinginkan selama pengembangan.

  • Referensikan parameter ruang kerja di sel SQL.

    SELECT '${workspace.param}';

    Hal ini mengkueri parameter ruang kerja. Setelah eksekusi berhasil, nilai spesifik dari parameter ruang kerja akan dicetak.

  • Referensikan parameter ruang kerja di sel Python.

    print('${workspace.param}')

    Hal ini menampilkan parameter ruang kerja. Setelah eksekusi berhasil, nilai spesifik dari parameter ruang kerja akan dicetak.

Gunakan PySpark dengan Perintah Magic

Selama pengembangan Notebook, Anda dapat menggunakan Perintah Magic di sel Python untuk membuat dan memulai layanan Livy secara cepat. Hal ini menyambungkan ke sumber daya komputasi MaxCompute Spark dan EMR Serverless Spark untuk pengembangan dan debugging yang efisien.

Menyambungkan ke sumber daya komputasi menggunakan Python

Di sel Python Notebook, Anda dapat menggunakan perintah berikut untuk membuat, menyambungkan, atau melepaskan layanan Livy pada sumber daya komputasi target secara cepat.

Perintah MaxCompute

Magic command

Deskripsi

Catatan

%maxcompute_spark

Menjalankan perintah ini melakukan operasi berikut:

  • Membuat layanan Livy

  • Memulai layanan Livy

  • Membuat Sesi Spark

Catatan

Anda tidak dapat melihat informasi Livy dan Sesi Spark di konsol MaxCompute.

Menjalankan Notebook di DataStudio:

Saat menjalankan Notebook di DataStudio, Anda harus memilih nama instans lingkungan pengembangan pribadi. Pertama kali menjalankan perintah ini di Notebook dalam instans yang dipilih, layanan Livy baru akan dibuat. Jika layanan Livy tidak dihapus, eksekusi berikutnya dari perintah %maxcompute_spark di instans yang sama akan menggunakan kembali layanan Livy yang sudah ada.

Menjalankan Notebook setelah dipublikasikan ke produksi:

Saat Notebook dijalankan di lingkungan produksi, setiap instans tugas membuat layanan Livy baru. Layanan Livy akan dihentikan dan dihapus secara otomatis saat instans tugas selesai dijalankan.

%maxcompute_spark stop

Menjalankan perintah ini membersihkan Sesi Spark dan menghentikan layanan Livy.

Untuk mempublikasikan tugas Notebook ke lingkungan produksi, kode tugas tidak perlu menyertakan Perintah Magic ini.

%maxcompute_spark delete

Menjalankan perintah ini menghapus layanan Livy.

Saat instans tugas Notebook dijalankan di lingkungan produksi, sistem secara otomatis menambahkan perintah %close_session di akhir kode. Hal ini menghentikan dan menghapus layanan Livy untuk instans tugas saat ini.

Catatan

Perintah %close_session yang ditambahkan sistem sebenarnya mengeksekusi perintah %maxcompute_spark delete untuk membersihkan Sesi Spark dan menghapus layanan Livy.

Perintah EMR Serverless Spark

Magic command

Deskripsi

Catatan

%emr_serverless_spark

Menjalankan perintah ini melakukan operasi berikut:

  • Membuat layanan Livy

  • Memulai layanan Livy

  • Membuat Sesi Spark

Catatan:

Catatan

Setelah menjalankan perintah, Anda dapat membuka konsol E-MapReduce untuk melihat dan mengelola Gateway Livy dan Sesi Spark mesin EMR Serverless Spark.

Layanan Livy yang dibuat melalui Notebook DataWorks memiliki nama dengan awalan dw_AlibabaCloudAccountID.

Menjalankan Notebook di DataStudio:

Saat menjalankan Notebook di DataStudio, Anda harus memilih nama instans lingkungan pengembangan pribadi. Pertama kali menjalankan perintah ini di Notebook dalam instans yang dipilih, layanan Livy baru akan dibuat. Jika layanan Livy tidak dihapus, eksekusi berikutnya dari perintah %emr_serverless_spark di instans yang sama akan menggunakan kembali layanan Livy yang sudah ada.

Menjalankan Notebook setelah dipublikasikan ke produksi:

Saat Notebook dijalankan di lingkungan produksi, setiap instans tugas membuat layanan Livy baru. Layanan Livy akan dihentikan dan dihapus secara otomatis saat instans tugas selesai dijalankan.

%emr_serverless_spark stop

Menjalankan perintah ini membersihkan Sesi Spark dan menghentikan layanan Livy.

Untuk mempublikasikan tugas Notebook ke lingkungan produksi, kode tugas tidak perlu menyertakan Perintah Magic ini.

%emr_serverless_spark delete

Menjalankan perintah ini menghapus layanan Livy.

Saat instans tugas Notebook dijalankan di lingkungan produksi, sistem secara otomatis menambahkan perintah %close_session di akhir kode. Hal ini secara aktif membersihkan Sesi Spark dan menghapus layanan Livy.

Catatan

Perintah %close_session yang ditambahkan sistem sebenarnya mengeksekusi perintah %emr_serverless_spark delete untuk membersihkan Sesi Spark dan menghapus layanan Livy.

Kirim dan eksekusi kode Spark menggunakan Python

Anda dapat menambahkan sel Python di Notebook untuk mengedit dan mengeksekusi kode PySpark.

  1. Pastikan Anda telah tersambung ke sumber daya komputasi target. Di sel Python sebelumnya, Anda harus telah menggunakan Perintah Magic (seperti %emr_serverless_spark atau %maxcompute_spark) untuk menyambungkan ke sumber daya komputasi target. Untuk informasi lebih lanjut, lihat Menyambungkan ke sumber daya komputasi menggunakan Python.

  2. Tulis kode PySpark.

    Di sel Python baru, tambahkan perintah %%spark untuk menggunakan sumber daya komputasi Spark yang telah disambungkan pada langkah sebelumnya, lalu edit kode PySpark Anda. Contohnya:

    %%spark
    spark.sql("DROP TABLE IF EXISTS dwd_user_info_d")
    spark.sql("CREATE TABLE dwd_user_info_d(id STRING, name STRING, age BIGINT, city STRING)")
    spark.sql("INSERT INTO dwd_user_info_d SELECT '001', 'Jack', 30, 'Beijing'")
    spark.sql("SELECT * FROM dwd_user_info_d").show()
    spark.sql("SELECT COUNT(*) FROM dwd_user_info_d").show()
    Catatan
    • Jika sel Python menyertakan perintah %%spark, sel tersebut dapat tersambung dan berjalan pada mesin Spark sumber daya komputasi target.

    • Jika sel Python tidak menyertakan perintah %%spark, sel tersebut hanya dapat berjalan di lingkungan lokal.

Lampiran: Operasi umum

Operasi Notebook DataWorks didasarkan pada Jupyter Notebook VSCode. Berikut adalah beberapa operasi umum untuk sel:

Operasi bilah alat sel

image

  • Tambahkan tag ke sel:

    • Pertama kali: Klik ikon image di bilah alat sel, pilih Add Cell Tag, lalu tambahkan tag di jendela pop-up.

    • Waktu berikutnya: Klik ikon image di bawah sel untuk menambahkan lebih banyak tag dengan cepat.

  • Edit tag sel: Klik ikon image di bilah alat sel dan pilih Edit Cell Tags (JSON) untuk membuka halaman editor JSON dan mengedit tag tersebut.

  • Tandai sel sebagai parameter: Klik ikon image di bilah alat sel dan pilih Mark Cell as Parameters untuk menambahkan tag parameter ke sel tersebut.

Operasi node umum

image

  • Lihat variabel Notebook: Di bilah alat Notebook bagian atas, klik ikon image untuk melihat semua parameter variabel di Notebook. Ini mencakup Name, Type, Size, dan Value variabel.

  • Lihat kerangka Notebook: Di bilah alat Notebook bagian atas, klik ikon image untuk melihat kerangka teks Notebook yang dibentuk oleh sel Markdown.

  • Ganti kernel runtime Python: Klik ikon image di pojok kanan atas node Notebook untuk mengonfirmasi versi kernel Python untuk sel Python saat ini, atau beralih ke versi kernel Python lainnya.