全部产品
Search
文档中心

DataWorks:Buat custom image MaxCompute di lingkungan pengembangan pribadi

更新时间:Feb 13, 2026

DataWorks memungkinkan Anda membuat custom image MaxCompute secara bersamaan saat membuat custom image di lingkungan pengembangan pribadi. Hal ini menyederhanakan penggunaan custom image MaxCompute di node DataWorks, seperti node PyODPS 3 dan Notebook. Topik ini menjelaskan cara membuat dan menggunakan custom image MaxCompute di DataWorks.

Informasi latar belakang

Fitur manajemen image MaxCompute memungkinkan Anda membuat custom image. Image tersebut dapat langsung dirujuk dalam skenario seperti pengembangan SQL UDF, PyODPS, dan MaxFrame, sehingga menghilangkan kebutuhan akan pengemasan dan pengunggahan resource yang kompleks. Di DataWorks, Anda dapat membuat image MaxCompute secara bersamaan saat membangun image DataWorks dari lingkungan pengembangan pribadi.

Prasyarat

Buat custom image MaxCompute

Persiapan

  • Anda telah mengaktifkan Alibaba Cloud Container Registry (ACR) dan membuat instans ACR dengan Edisi Standar atau versi yang lebih tinggi. Untuk informasi selengkapnya, lihat Buat Instans Perusahaan, Buat namespace, dan Buat repository image.

  • Anda telah mengonfigurasi kontrol akses untuk instans ACR melalui virtual private cloud (VPC). Untuk informasi selengkapnya, lihat Konfigurasikan kontrol akses untuk VPC.

  • Anda memiliki izin yang diperlukan untuk mengelola ACR dan custom image MaxCompute. Untuk informasi selengkapnya, lihat Custom image.

Catatan

Saat membuat custom image MaxCompute:

  • Ukuran image: Ukuran maksimum satu image MaxCompute adalah 10 GB.

  • Jumlah image: Satu penyewa MaxCompute dapat mengunggah maksimal 10 image.

Saat menggunakan image MaxCompute, perhatikan bahwa DataWorks membangun image MaxCompute berdasarkan lingkungan Python 3.11. Untuk menjalankan image MaxCompute yang dibuat oleh DataWorks, pastikan lingkungan Python Anda menggunakan versi 3.11.

Buat instans lingkungan pengembangan pribadi

Buka Data Studio dan buat instans lingkungan pengembangan pribadi. Anda harus menggunakan image dataworks-maxcompute:py3.11-ubuntu20.04 agar dapat sekaligus membuat custom image MaxCompute.

  1. Buka Data Studio.

    1. Buka halaman Ruang Kerja di Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Temukan ruang kerja yang diinginkan, lalu pilih Shortcuts > Data Studio di kolom Actions.

    2. Di halaman Data Studio, klik ikon image di panel navigasi kiri untuk membuka halaman Data Studio.

  2. Buka halaman pembuatan lingkungan pengembangan pribadi. Di bagian atas halaman, klik Personal development environment dan buat instans lingkungan pengembangan pribadi.

    • Jika Anda belum memiliki instans lingkungan pengembangan pribadi, klik New Instance untuk membuatnya.

    • Jika Anda sudah memiliki instans lingkungan pengembangan pribadi, klik Management Environment. Lalu, pada daftar instans lingkungan pengembangan pribadi, klik New Instance.

  3. Konfigurasikan lingkungan pengembangan pribadi. Saat membuat custom image MaxCompute di DataWorks, Anda harus mengonfigurasi parameter berikut untuk lingkungan pengembangan pribadi. Untuk informasi tentang parameter lainnya, lihat Buat instans lingkungan pengembangan pribadi.

    • Image Configuration: Pilih dataworks-maxcompute:py3.11-ubuntu20.04.

      Catatan
      • Anda harus memilih image dataworks-maxcompute:py3.11-ubuntu20.04  untuk membuat custom image MaxCompute.

      • Custom image DataWorks yang dibangun dari image dasar dataworks-maxcompute:py3.11-ubuntu20.04  dapat digunakan untuk mengembangkan pekerjaan MaxFrame di node DataWorks Notebook, General Python, dan Shell.

    • Network Settings: Pilih VPC yang telah dikonfigurasi untuk instans ACR. Hal ini memastikan bahwa instans lingkungan pengembangan pribadi dapat mendorong image ke instans ACR.

Konfigurasikan lingkungan image

Di terminal instans lingkungan pengembangan pribadi Anda, instal dependensi pihak ketiga yang diperlukan untuk pengembangan MaxCompute. Topik ini menggunakan jieba sebagai contoh.

  1. Di bagian atas halaman Data Studio, klik Personal development environment , lalu klik instans personal development environment yang telah Anda buat di Membuat instans personal development environment.

  2. Di bilah alat bagian bawah Data Studio, klik ikon image di sebelah kiri untuk membuka terminal.

  3. Di terminal lingkungan pengembangan pribadi, jalankan perintah berikut untuk mengunduh dependensi pihak ketiga jieba dan memverifikasi instalasinya.

    ## Install the third-party dependency.
    pip install jieba;
    
    ## View the third-party dependency.
    pip show jieba;

Simpan custom image

Buat image DataWorks dari lingkungan pengembangan pribadi Anda dan pilih opsi untuk sekaligus membuat image MaxCompute. Sistem secara otomatis mengunggah image yang dihasilkan ke instans ACR yang dikelola oleh akun yang sama.

  1. Buka halaman manajemen instans lingkungan pengembangan pribadi.

    1. Di bagian atas halaman, klik nama instans lingkungan pengembangan pribadi yang telah Anda buat, yang ditampilkan di bagian Personal development environment.

    2. Di kotak dialog yang muncul, pilih Management Environment untuk membuka halaman Personal Development Environment Instances.

  2. Buka halaman pembuatan image.

    1. Di halaman instans lingkungan pengembangan pribadi, temukan instans lingkungan pengembangan pribadi yang telah Anda buat.

    2. Di kolom Actions instans tersebut, klik Create Image.

  3. Konfigurasikan image sesuai tabel berikut. Setelah konfigurasi selesai, klik Confirm.

    Parameter

    Deskripsi

    Image Name

    Nama kustom untuk image DataWorks. Jika image disinkronkan ke MaxCompute, nama yang ditentukan di sini akan digunakan sebagai nama image MaxCompute. Contoh: image_jieba.

    Image Instance

    Pilih instans ACR Edisi Standar atau yang lebih tinggi. Untuk informasi selengkapnya tentang cara membuat instans ACR, lihat Buat Instans Perusahaan.

    Catatan

    Hanya instans ACR Edisi Standar atau yang lebih tinggi yang dapat digunakan untuk membangun custom image MaxCompute.

    Namespace

    Pilih namespace untuk instans ACR. Untuk informasi selengkapnya tentang cara membuat namespace, lihat Buat namespace.

    Image Repository

    Pilih repository image untuk instans ACR. Untuk informasi selengkapnya tentang cara membuat repository image, lihat Buat repository image.

    Image Version

    Versi kustom image.

    Sync To MaxCompute

    Dalam contoh ini, pilih Yes. Setelah memilih opsi ini, image akan dibangun sebagai image MaxCompute saat image DataWorks dipublikasikan.

    Catatan

    Opsi ini terkait dengan Image Instance yang Anda pilih. Anda hanya dapat memilih instans image ACR yang memiliki Instance Type Edisi Standar atau lebih tinggi. Instans lain tidak dapat dipilih secara default.

    Task Type

    Pilih jenis tugas tempat image DataWorks dapat digunakan. Dalam contoh ini, Anda dapat memilih untuk menggunakan image tersebut untuk pengembangan Notebook.

    • Notebook

    • Python

    • Shell

  4. Periksa status penyimpanan image.

    Pada daftar instans, temukan kolom image untuk lingkungan pengembangan pribadi Anda guna melihat status penyimpanan.

  5. Klik Confirm untuk membuat image.

  6. Di sebelah kanan instans lingkungan pengembangan pribadi, klik ikon image dan centang kotak Image untuk menampilkan kolom tersebut.

  7. Tunggu hingga image selesai dibuat. Arahkan kursor ke ikon image di sebelah kanan Saved, lalu klik Here pada jendela pop-up untuk membuka halaman Image Management.

    image

Publikasikan custom image

Setelah image dari instans lingkungan pengembangan pribadi disimpan di Data Studio, publikasikan custom image tersebut. Operasi ini menyinkronkan image dari instans ACR ke DataWorks dan MaxCompute, sehingga menghasilkan baik custom image DataWorks maupun custom image MaxCompute.

  1. Buka halaman daftar ruang kerja DataWorks dan alihkan ke wilayah tujuan di bilah navigasi atas.

  2. Di panel navigasi kiri, buka tab Image Management > Custom Images. Test image tujuan. Setelah pengujian berhasil, Publish image tersebut.

    Catatan
    • Saat menguji custom image, pilih kelompok sumber daya Serverless untuk Test Resource Group.

    • VPC yang dilampirkan ke kelompok sumber daya Serverless yang dipilih untuk pengujian dan penerbitan harus sama dengan VPC yang dikonfigurasi di ACR.

    • Jika custom image Anda mengambil paket pihak ketiga dari Internet dan pengujian gagal, periksa apakah VPC yang dilampirkan ke Test Resource Group dapat mengakses Internet. Untuk mengonfigurasi akses Internet untuk VPC, lihat Gunakan fitur SNAT Gateway NAT Internet untuk mengakses Internet.

  3. Muat ulang halaman dan pastikan Publishing Status image dalam daftar berubah menjadi Published.

  4. Di kolom Actions image tujuan, klik image > Change Workspace untuk melampirkan custom image ke ruang kerja.

Konfirmasi status image MaxCompute

Penerbitan image DataWorks secara otomatis membuat image MaxCompute yang sesuai. Setelah status image pada tab Image Management > Custom Images di Konsol DataWorks berubah menjadi Published, Anda dapat membuka Konsol MaxCompute. Ikuti langkah-langkah dalam Tambahkan custom image ke MaxCompute untuk melihat custom image MaxCompute baru tersebut.

Gunakan custom image MaxCompute

Catatan

  • Untuk menggunakan MaxFrame dalam pengembangan, layanan MaxFrame harus disertakan dalam image. Untuk menjalankan custom image MaxCompute di DataWorks, image tersebut harus dibangun dalam lingkungan Python 3.11.

  • Untuk menggunakan custom image MaxCompute dalam pengembangan pekerjaan MaxFrame di DataWorks, pastikan tugas tersebut dijalankan dalam image DataWorks yang memiliki lingkungan runtime MaxFrame. Persyaratannya sebagai berikut:

Buka Pengembangan Data

  1. Buka halaman Ruang Kerja di Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Temukan ruang kerja yang diinginkan, lalu pilih Shortcuts > Data Studio di kolom Actions.

  2. Di halaman Data Studio, klik ikon image di panel navigasi kiri untuk membuka halaman Data Development.

Gunakan image di node Notebook

Contoh berikut menunjukkan cara menggunakan custom image MaxCompute di node Notebook untuk pengembangan MaxFrame. Contoh ini menggunakan paket jieba dari custom image MaxCompute.

  1. Buat node Notebook.

    1. Di bagian atas halaman, klik Personal development environment dan pilih instans lingkungan pengembangan pribadi yang telah Anda buat.

    2. Di sebelah kanan Workspace Directories, klik ikon image dan pilih Create Node > Notebook. Kotak dialog Create Node akan muncul.

    3. Di kotak dialog Create Node, masukkan Name untuk node tersebut dan klik OK untuk membuka halaman pengeditan node.

  2. Edit kode untuk node Notebook.

    # -*- coding: utf-8 -*-
    from odps import ODPS
    from maxframe.session import new_session
    import maxframe.dataframe as md  # Pastikan modul maxframe.dataframe diimpor dengan benar.
    from maxframe import config
    
    # Siapkan dataset.
    test_data = [
        "Grass growing on the old plain"
    ]
    # Definisikan fungsi untuk memproses data menggunakan paket jieba dari custom image MaxCompute.
    # Gunakan custom image MaxCompute.
    def image_test():
        config.options.sql.settings = {
            "odps.session.image": "image_jieba"  # Dalam contoh ini, image MaxCompute bernama image_jieba. Anda dapat melihat nama image di Konsol MaxCompute.
        }
        def process(row):
            import jieba
            result = jieba.cut(row, cut_all=False)
            return "/".join(result)
        # Buat koneksi MaxFrame.
        odps = %odps
        session = new_session(odps) 
        # Cetak URL Logview untuk melihat detail eksekusi.
        logview = session.get_logview_address()
        print("logview:", logview)
        # Buat DataFrame MaxFrame.
        # Bungkus data uji lokal, seperti ["Grass growing on the old plain"], ke dalam objek DataFrame MaxFrame.
        df = md.DataFrame(test_data, columns=["raw_text"])
        # Terapkan fungsi tokenisasi untuk memproses data dalam objek DataFrame.
        df["processed_text"] = df["raw_text"].map(process, dtype='object')
        print("Output:",df.execute().fetch())
    image_test()
    print("Data processing completed!")
  3. Di sisi kiri halaman pengeditan node, klik ikon image. Di kotak dialog yang muncul, pilih versi Python 3.11 untuk Kernel. Jalankan node dan lihat informasi log.

Gunakan image di node PyODPS 3

Contoh berikut menunjukkan cara menggunakan custom image MaxCompute di node PyODPS 3 untuk pengembangan MaxFrame. Contoh ini menggunakan paket jieba dari custom image MaxCompute.

  1. Buat node PyODPS 3.

    1. Di sebelah kanan Workspace Directories, klik ikon image dan pilih Create Node > MaxCompute > PyODPS 3. Kotak dialog Create Node akan muncul.

    2. Di kotak dialog Create Node, masukkan Name untuk node tersebut dan klik OK untuk membuka halaman pengeditan node.

  2. Edit kode untuk node PyODPS 3.

    # -*- coding: utf-8 -*-
    from odps import ODPS, options
    from odps.df import DataFrame
    import pandas as pd
    # Siapkan data tabel.
    options.sql.settings = {"odps.isolation.session.enable": True}
    # Buat tabel uji.
    table = o.create_table('jieba_work_tb', 'col string', if_not_exists=True)
    # Tambahkan data instans.
    instance = o.run_sql("insert into table jieba_work_tb values ('Grass growing on the old plain')")
    instance.wait_for_success()
    # Definisikan fungsi untuk memproses data menggunakan paket jieba dari custom image MaxCompute.
    def image_test():
        def process(row):
            import jieba
            result = jieba.cut(row, cut_all=False)
            return "/".join(result)
        #  Bungkus tabel sebagai objek DataFrame.
        df = o.get_table("jieba_work_tb").to_df()
        # Terapkan fungsi tokenisasi untuk memproses data dalam objek DataFrame.
        df = df.col.map(process).execute(image='image_jieba') # Dalam contoh ini, image MaxCompute bernama image_jieba. Anda dapat melihat nama image di Konsol MaxCompute.
        print("Output:",df)
    image_test()
    print("Data processing completed!")
  3. Konfigurasikan node PyODPS 3.

    Di sisi kanan halaman pengeditan node, klik Debugging Configurations dan konfigurasikan node berdasarkan parameter berikut.

    Parameter

    Deskripsi

    Computing Resource

    Pilih sumber daya komputasi MaxCompute yang telah Anda lampirkan.

    Resource Group

    Pilih kelompok sumber daya Serverless yang telah Anda lampirkan.

    Image

    Pilih dataworks_pyodps_py311_task_pod:prod_20241210.

  4. Di bilah alat bagian atas halaman pengeditan node, klik ikon image untuk menjalankan node.