全部产品
Search
文档中心

DataWorks:Buat citra kustom MaxCompute di lingkungan pengembangan pribadi

更新时间:Nov 10, 2025

DataWorks memungkinkan Anda membuat citra kustom MaxCompute secara bersamaan saat membuat citra kustom di lingkungan pengembangan pribadi. Hal ini menyederhanakan penggunaan citra kustom MaxCompute di node DataWorks, seperti node PyODPS 3 dan Notebook. Topik ini menjelaskan cara membuat dan menggunakan citra kustom MaxCompute di DataWorks.

Informasi latar belakang

Fitur manajemen citra MaxCompute memungkinkan Anda membuat citra kustom. Citra tersebut dapat langsung dirujuk dalam berbagai skenario, seperti pengembangan SQL UDF, PyODPS, dan MaxFrame, sehingga menghilangkan kebutuhan akan pengemasan dan unggah sumber daya yang kompleks. Di DataWorks, Anda dapat membuat citra MaxCompute secara bersamaan dengan pembuatan citra DataWorks dari lingkungan pengembangan pribadi.

Prasyarat

Buat citra kustom MaxCompute

Persiapan

  • Anda telah mengaktifkan Alibaba Cloud Container Registry (ACR) dan membuat instans ACR versi Edisi Standar atau lebih tinggi. Untuk informasi selengkapnya, lihat Buat Instans Perusahaan, Buat namespace, dan Buat repository image.

  • Anda telah mengonfigurasi kontrol akses untuk instans ACR melalui virtual private cloud (VPC). Untuk informasi selengkapnya, lihat Konfigurasi kontrol akses untuk VPC.

  • Anda memiliki izin yang diperlukan untuk mengelola ACR dan citra kustom MaxCompute. Untuk informasi selengkapnya, lihat Citra kustom.

Catatan

Saat membuat citra kustom MaxCompute:

  • Ukuran citra: Ukuran maksimum satu citra MaxCompute adalah 10 GB.

  • Jumlah citra: Satu penyewa MaxCompute dapat mengunggah maksimal 10 citra.

Saat menggunakan citra MaxCompute, perlu diperhatikan bahwa DataWorks membangun citra MaxCompute berdasarkan lingkungan Python 3.11. Untuk menjalankan citra MaxCompute yang dibuat oleh DataWorks, Anda harus memastikan bahwa lingkungan Python Anda berada pada versi 3.11.

Buat instans lingkungan pengembangan pribadi

Buka Data Studio dan buat instans lingkungan pengembangan pribadi. Anda harus menggunakan citra dataworks-maxcompute:py3.11-ubuntu20.04 untuk membuat citra kustom MaxCompute secara bersamaan.

  1. Buka Data Studio.

    1. Buka halaman Ruang Kerja di Konsol DataWorks. Di bilah navigasi atas, pilih Wilayah yang diinginkan. Temukan ruang kerja yang diinginkan dan pilih Shortcuts > Data Studio di kolom Actions.

    2. Di halaman Data Studio, klik ikon image di panel navigasi sebelah kiri untuk membuka halaman Data Development.

  2. Buka halaman pembuatan lingkungan pengembangan pribadi. Di bagian atas halaman, klik Personal Development Environment · Please Select dan buat instans lingkungan pengembangan pribadi.

    • Jika Anda belum memiliki instans lingkungan pengembangan pribadi, klik Go To Create untuk membuatnya.

    • Jika Anda sudah memiliki instans lingkungan pengembangan pribadi, klik Manage Instances. Lalu, di daftar instans lingkungan pengembangan pribadi, klik Create Instance.

  3. Konfigurasikan lingkungan pengembangan pribadi. Saat membuat citra kustom MaxCompute di DataWorks, Anda harus mengonfigurasi parameter berikut untuk lingkungan pengembangan pribadi. Untuk informasi tentang parameter lainnya, lihat Buat instans lingkungan pengembangan pribadi.

    • Image Configuration: Pilih dataworks-maxcompute:py3.11-ubuntu20.04.

      Catatan
      • Anda harus memilih citra dataworks-maxcompute:py3.11-ubuntu20.04  untuk membuat citra kustom MaxCompute.

      • Citra kustom DataWorks yang dibuat dari citra dasar dataworks-maxcompute:py3.11-ubuntu20.04  dapat digunakan untuk mengembangkan pekerjaan MaxFrame di node DataWorks Notebook, General Python, dan Shell.

    • Network Settings: Pilih VPC yang telah dikonfigurasi untuk instans ACR. Hal ini memastikan bahwa instans lingkungan pengembangan pribadi dapat mendorong citra ke instans ACR.

Konfigurasi lingkungan citra

Di terminal instans lingkungan pengembangan pribadi Anda, instal dependensi pihak ketiga yang diperlukan untuk pengembangan MaxCompute. Topik ini menggunakan jieba sebagai contoh.

  1. Di bagian atas halaman Data Studio, klik Personal Development Environment · Please Select lalu klik instans lingkungan pengembangan pribadi yang telah Anda buat di Buat instans lingkungan pengembangan pribadi.

  2. Di bilah alat di bagian bawah Data Studio, klik ikon image di sebelah kiri untuk membuka terminal.

  3. Di terminal lingkungan pengembangan pribadi, jalankan perintah berikut untuk mengunduh dependensi pihak ketiga jieba dan memverifikasi instalasinya.

    ## Install the third-party dependency.
    pip install jieba;
    
    ## View the third-party dependency.
    pip show jieba;

Simpan citra kustom

Buat citra DataWorks dari lingkungan pengembangan pribadi Anda dan pilih untuk membuat citra MaxCompute secara bersamaan. Sistem secara otomatis mengunggah citra yang dihasilkan ke instans ACR yang dikelola oleh akun yang sama.

  1. Buka halaman manajemen instans lingkungan pengembangan pribadi.

    1. Di bagian atas halaman, klik nama instans lingkungan pengembangan pribadi yang telah Anda buat, yang ditampilkan di bagian Personal Development Environment · Please Select.

    2. Di kotak dialog yang muncul, pilih Manage Environment untuk membuka halaman Personal Development Environment Instance.

  2. Buka halaman pembuatan citra.

    1. Di halaman instans lingkungan pengembangan pribadi, temukan instans lingkungan pengembangan pribadi yang telah Anda buat.

    2. Di kolom Actions instans tersebut, klik Create Image.

  3. Konfigurasikan citra sesuai dengan tabel berikut. Setelah menyelesaikan konfigurasi, klik Confirm.

    Parameter

    Deskripsi

    Image Name

    Nama kustom untuk citra DataWorks. Jika citra disinkronkan ke MaxCompute, nama yang ditentukan di sini akan digunakan sebagai nama citra MaxCompute. Contoh: image_jieba.

    Image Instance

    Pilih instans ACR Edisi Standar atau lebih tinggi. Untuk informasi selengkapnya tentang cara membuat instans ACR, lihat Buat Instans Perusahaan.

    Catatan

    Hanya instans ACR Edisi Standar atau lebih tinggi yang dapat digunakan untuk membuat citra kustom MaxCompute.

    Namespace

    Pilih namespace untuk instans ACR. Untuk informasi selengkapnya tentang cara membuat namespace, lihat Buat namespace.

    Image Repository

    Pilih repository image untuk instans ACR. Untuk informasi selengkapnya tentang cara membuat repository image, lihat Buat repository image.

    Image Version

    Versi citra kustom.

    Sync To MaxCompute

    Dalam contoh ini, pilih Yes. Setelah memilih opsi ini, citra akan dibuat sebagai citra MaxCompute saat citra DataWorks dipublikasikan.

    Catatan

    Opsi ini terkait dengan Image Instance yang Anda pilih. Anda hanya dapat memilih instans citra ACR yang memiliki Instance Type Edisi Standar atau lebih tinggi. Instans lain tidak dapat dipilih secara default.

    Task Type

    Pilih jenis tugas tempat citra DataWorks dapat digunakan. Dalam contoh ini, Anda dapat memilih untuk menggunakan citra tersebut dalam pengembangan Notebook.

    • Notebook

    • Python

    • Shell

  4. Periksa status penyimpanan citra.

    Di daftar instans, temukan kolom citra untuk lingkungan pengembangan pribadi Anda guna melihat status penyimpanan.

  5. Klik Confirm untuk membuat citra.

  6. Di sebelah kanan instans lingkungan pengembangan pribadi, klik ikon image dan pilih kotak centang Image untuk menampilkan kolom tersebut.

  7. Tunggu hingga citra selesai dibuat. Arahkan kursor mouse ke ikon image di sebelah kanan Saved Successfully, lalu klik Here di jendela pop-up untuk membuka halaman Image Management.

    image

Publikasikan citra kustom

Setelah citra dari instans lingkungan pengembangan pribadi disimpan di Data Studio, publikasikan citra kustom tersebut. Operasi ini menyinkronkan citra dari instans ACR ke DataWorks dan MaxCompute, sehingga menghasilkan citra kustom DataWorks dan citra kustom MaxCompute.

  1. Buka halaman daftar ruang kerja DataWorks dan alihkan ke Wilayah tujuan di bilah navigasi atas.

  2. Di panel navigasi sebelah kiri, buka tab Image Management > Custom Images. Test citra tujuan. Setelah pengujian berhasil, Publish citra tersebut.

    Catatan
    • Saat menguji citra kustom, pilih kelompok sumber daya Serverless untuk Test Resource Group.

    • VPC yang disambungkan ke kelompok sumber daya Serverless yang dipilih untuk pengujian dan penerbitan harus sama dengan VPC yang dikonfigurasi di ACR.

    • Jika citra kustom Anda mengambil paket pihak ketiga dari Internet dan pengujian gagal, periksa apakah VPC yang disambungkan ke Test Resource Group dapat mengakses Internet. Untuk mengonfigurasi akses Internet untuk VPC, lihat Gunakan fitur SNAT Gateway NAT Internet untuk mengakses Internet.

  3. Muat ulang halaman dan pastikan Publish Status citra di daftar citra berubah menjadi Published.

  4. Di kolom Actions citra tujuan, klik image > Modify Workspace untuk menyambungkan citra kustom ke ruang kerja.

Konfirmasi status citra MaxCompute

Penerbitan citra DataWorks secara otomatis membuat citra MaxCompute yang sesuai. Setelah status citra di tab Image Management > Custom Images di Konsol DataWorks berubah menjadi Published, Anda dapat membuka Konsol MaxCompute. Ikuti langkah-langkah di Tambahkan citra kustom ke MaxCompute untuk melihat citra kustom MaxCompute yang baru.

Gunakan citra kustom MaxCompute

Catatan

  • Untuk menggunakan MaxFrame dalam pengembangan, layanan MaxFrame harus disertakan dalam citra. Untuk menjalankan citra kustom MaxCompute di DataWorks, citra tersebut harus dibuat dalam lingkungan Python 3.11.

  • Untuk menggunakan citra kustom MaxCompute dalam pengembangan pekerjaan MaxFrame di DataWorks, pastikan tugas dijalankan dalam citra DataWorks yang memiliki lingkungan runtime MaxFrame. Persyaratannya sebagai berikut:

Buka Data Development

  1. Buka halaman Ruang Kerja di Konsol DataWorks. Di bilah navigasi atas, pilih Wilayah yang diinginkan. Temukan ruang kerja yang diinginkan dan pilih Shortcuts > Data Studio di kolom Actions.

  2. Di halaman Data Studio, klik ikon image di panel navigasi sebelah kiri untuk membuka halaman Data Development.

Gunakan citra di node Notebook

Contoh berikut menunjukkan cara menggunakan citra kustom MaxCompute di node Notebook untuk pengembangan MaxFrame. Contoh ini menggunakan paket jieba dari citra kustom MaxCompute.

  1. Buat node Notebook.

    1. Di bagian atas halaman, klik Personal Development Environment · Please Select dan pilih instans lingkungan pengembangan pribadi yang telah Anda buat.

    2. Di sebelah kanan Project Folder, klik ikon image dan pilih Create Node > Notebook. Kotak dialog Create Node akan muncul.

    3. Di kotak dialog Create Node, masukkan Name untuk node tersebut dan klik Confirm untuk membuka halaman pengeditan node.

  2. Edit kode untuk node Notebook.

    # -*- coding: utf-8 -*-
    from odps import ODPS
    from maxframe.session import new_session
    import maxframe.dataframe as md  # Make sure that the maxframe.dataframe module is correctly imported.
    from maxframe import config
    
    # Prepare the dataset.
    test_data = [
        "Grass growing on the old plain"
    ]
    # Define a function to process data using the jieba package from the MaxCompute custom image.
    # Use the MaxCompute custom image.
    def image_test():
        config.options.sql.settings = {
            "odps.session.image": "image_jieba"  # In this example, the MaxCompute image is named image_jieba. You can view the image name in the MaxCompute console.
        }
        def process(row):
            import jieba
            result = jieba.cut(row, cut_all=False)
            return "/".join(result)
        # Establish a MaxFrame connection.
        odps = %odps
        session = new_session(odps) 
        # Print the Logview URL to view execution details.
        logview = session.get_logview_address()
        print("logview:", logview)
        # Create a MaxFrame DataFrame.
        # Encapsulate local test data, such as ["Grass growing on the old plain"], into a MaxFrame DataFrame object.
        df = md.DataFrame(test_data, columns=["raw_text"])
        # Apply the tokenization function to process the data in the DataFrame object.
        df["processed_text"] = df["raw_text"].map(process, dtype='object')
        print("Output:",df.execute().fetch())
    image_test()
    print("Data processing completed!")
  3. Di sisi kiri halaman pengeditan node, klik ikon image. Di kotak dialog yang muncul, pilih versi Python 3.11 untuk Kernel. Jalankan node dan lihat informasi log.

Gunakan citra di node PyODPS 3

Contoh berikut menunjukkan cara menggunakan citra kustom MaxCompute di node PyODPS 3 untuk pengembangan MaxFrame. Contoh ini menggunakan paket jieba dari citra kustom MaxCompute.

  1. Buat node PyODPS 3.

    1. Di sebelah kanan Project Folder, klik ikon image dan pilih Create Node > MaxCompute > PyODPS 3. Kotak dialog Create Node akan muncul.

    2. Di kotak dialog Create Node, masukkan Name untuk node tersebut dan klik Confirm untuk membuka halaman pengeditan node.

  2. Edit kode untuk node PyODPS 3.

    # -*- coding: utf-8 -*-
    from odps import ODPS, options
    from odps.df import DataFrame
    import pandas as pd
    # Prepare table data.
    options.sql.settings = {"odps.isolation.session.enable": True}
    # Create a test table.
    table = o.create_table('jieba_work_tb', 'col string', if_not_exists=True)
    # Add instance data.
    instance = o.run_sql("insert into table jieba_work_tb values ('Grass growing on the old plain')")
    instance.wait_for_success()
    # Define a function to process data using the jieba package from the MaxCompute custom image.
    def image_test():
        def process(row):
            import jieba
            result = jieba.cut(row, cut_all=False)
            return "/".join(result)
        #  Encapsulate the table as a DataFrame object.
        df = o.get_table("jieba_work_tb").to_df()
        # Apply the tokenization function to process the data in the DataFrame object.
        df = df.col.map(process).execute(image='image_jieba') # In this example, the MaxCompute image is named image_jieba. You can view the image name in the MaxCompute console.
        print("Output:",df)
    image_test()
    print("Data processing completed!")
  3. Konfigurasikan node PyODPS 3.

    Di sisi kanan halaman pengeditan node, klik Test Configuration dan konfigurasikan node berdasarkan parameter berikut.

    Parameter

    Deskripsi

    Computing Resource

    Pilih sumber daya komputasi MaxCompute yang telah Anda sambungkan.

    Resource Group

    Pilih kelompok sumber daya Serverless yang telah Anda sambungkan.

    Image

    Pilih dataworks_pyodps_py311_task_pod:prod_20241210.

  4. Di bilah alat di bagian atas halaman pengeditan node, klik ikon image untuk menjalankan node.