DataWorks memungkinkan Anda membuat custom image MaxCompute secara bersamaan saat membuat custom image di lingkungan pengembangan pribadi. Hal ini menyederhanakan penggunaan custom image MaxCompute di node DataWorks, seperti node PyODPS 3 dan Notebook. Topik ini menjelaskan cara membuat dan menggunakan custom image MaxCompute di DataWorks.
Informasi latar belakang
Fitur manajemen image MaxCompute memungkinkan Anda membuat custom image. Image tersebut dapat langsung dirujuk dalam skenario seperti pengembangan SQL UDF, PyODPS, dan MaxFrame, sehingga menghilangkan kebutuhan akan pengemasan dan pengunggahan resource yang kompleks. Di DataWorks, Anda dapat membuat image MaxCompute secara bersamaan saat membangun image DataWorks dari lingkungan pengembangan pribadi.
Prasyarat
Anda telah membuat ruang kerja yang menggunakan versi baru Data Studio dan menyambungkan sumber daya komputasi MaxCompute.
Anda telah membuat kelompok sumber daya Serverless dan mengaitkannya ke ruang kerja.
Buat custom image MaxCompute
Persiapan
Anda telah mengaktifkan Alibaba Cloud Container Registry (ACR) dan membuat instans ACR dengan Edisi Standar atau versi yang lebih tinggi. Untuk informasi selengkapnya, lihat Buat Instans Perusahaan, Buat namespace, dan Buat repository image.
Anda telah mengonfigurasi kontrol akses untuk instans ACR melalui virtual private cloud (VPC). Untuk informasi selengkapnya, lihat Konfigurasikan kontrol akses untuk VPC.
Anda memiliki izin yang diperlukan untuk mengelola ACR dan custom image MaxCompute. Untuk informasi selengkapnya, lihat Custom image.
Catatan
Saat membuat custom image MaxCompute:
Ukuran image: Ukuran maksimum satu image MaxCompute adalah
10 GB.Jumlah image: Satu penyewa MaxCompute dapat mengunggah maksimal
10image.
Saat menggunakan image MaxCompute, perhatikan bahwa DataWorks membangun image MaxCompute berdasarkan lingkungan Python 3.11. Untuk menjalankan image MaxCompute yang dibuat oleh DataWorks, pastikan lingkungan Python Anda menggunakan versi 3.11.
Buat instans lingkungan pengembangan pribadi
Buka Data Studio dan buat instans lingkungan pengembangan pribadi. Anda harus menggunakan image dataworks-maxcompute:py3.11-ubuntu20.04 agar dapat sekaligus membuat custom image MaxCompute.
Buka Data Studio.
Buka halaman Ruang Kerja di Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Temukan ruang kerja yang diinginkan, lalu pilih di kolom Actions.
Di halaman Data Studio, klik ikon
di panel navigasi kiri untuk membuka halaman Data Studio.
Buka halaman pembuatan lingkungan pengembangan pribadi. Di bagian atas halaman, klik Personal development environment dan buat instans lingkungan pengembangan pribadi.
Jika Anda belum memiliki instans lingkungan pengembangan pribadi, klik New Instance untuk membuatnya.
Jika Anda sudah memiliki instans lingkungan pengembangan pribadi, klik Management Environment. Lalu, pada daftar instans lingkungan pengembangan pribadi, klik New Instance.
Konfigurasikan lingkungan pengembangan pribadi. Saat membuat custom image MaxCompute di DataWorks, Anda harus mengonfigurasi parameter berikut untuk lingkungan pengembangan pribadi. Untuk informasi tentang parameter lainnya, lihat Buat instans lingkungan pengembangan pribadi.
Image Configuration: Pilih
dataworks-maxcompute:py3.11-ubuntu20.04.CatatanAnda harus memilih image
dataworks-maxcompute:py3.11-ubuntu20.04untuk membuat custom image MaxCompute.Custom image DataWorks yang dibangun dari image dasar
dataworks-maxcompute:py3.11-ubuntu20.04dapat digunakan untuk mengembangkan pekerjaan MaxFrame di node DataWorks Notebook, General Python, dan Shell.
Network Settings: Pilih VPC yang telah dikonfigurasi untuk instans ACR. Hal ini memastikan bahwa instans lingkungan pengembangan pribadi dapat mendorong image ke instans ACR.
Konfigurasikan lingkungan image
Di terminal instans lingkungan pengembangan pribadi Anda, instal dependensi pihak ketiga yang diperlukan untuk pengembangan MaxCompute. Topik ini menggunakan jieba sebagai contoh.
Di bagian atas halaman Data Studio, klik Personal development environment , lalu klik instans personal development environment yang telah Anda buat di Membuat instans personal development environment.
Di bilah alat bagian bawah Data Studio, klik ikon
di sebelah kiri untuk membuka terminal.Di terminal lingkungan pengembangan pribadi, jalankan perintah berikut untuk mengunduh dependensi pihak ketiga
jiebadan memverifikasi instalasinya.## Install the third-party dependency. pip install jieba; ## View the third-party dependency. pip show jieba;
Simpan custom image
Buat image DataWorks dari lingkungan pengembangan pribadi Anda dan pilih opsi untuk sekaligus membuat image MaxCompute. Sistem secara otomatis mengunggah image yang dihasilkan ke instans ACR yang dikelola oleh akun yang sama.
Buka halaman manajemen instans lingkungan pengembangan pribadi.
Di bagian atas halaman, klik nama instans lingkungan pengembangan pribadi yang telah Anda buat, yang ditampilkan di bagian Personal development environment.
Di kotak dialog yang muncul, pilih Management Environment untuk membuka halaman Personal Development Environment Instances.
Buka halaman pembuatan image.
Di halaman instans lingkungan pengembangan pribadi, temukan instans lingkungan pengembangan pribadi yang telah Anda buat.
Di kolom Actions instans tersebut, klik Create Image.
Konfigurasikan image sesuai tabel berikut. Setelah konfigurasi selesai, klik Confirm.
Parameter
Deskripsi
Image Name
Nama kustom untuk image DataWorks. Jika image disinkronkan ke MaxCompute, nama yang ditentukan di sini akan digunakan sebagai nama image MaxCompute. Contoh:
image_jieba.Image Instance
Pilih instans ACR Edisi Standar atau yang lebih tinggi. Untuk informasi selengkapnya tentang cara membuat instans ACR, lihat Buat Instans Perusahaan.
CatatanHanya instans ACR Edisi Standar atau yang lebih tinggi yang dapat digunakan untuk membangun custom image MaxCompute.
Namespace
Pilih namespace untuk instans ACR. Untuk informasi selengkapnya tentang cara membuat namespace, lihat Buat namespace.
Image Repository
Pilih repository image untuk instans ACR. Untuk informasi selengkapnya tentang cara membuat repository image, lihat Buat repository image.
Image Version
Versi kustom image.
Sync To MaxCompute
Dalam contoh ini, pilih Yes. Setelah memilih opsi ini, image akan dibangun sebagai image MaxCompute saat image DataWorks dipublikasikan.
CatatanOpsi ini terkait dengan Image Instance yang Anda pilih. Anda hanya dapat memilih instans image ACR yang memiliki Instance Type Edisi Standar atau lebih tinggi. Instans lain tidak dapat dipilih secara default.
Task Type
Pilih jenis tugas tempat image DataWorks dapat digunakan. Dalam contoh ini, Anda dapat memilih untuk menggunakan image tersebut untuk pengembangan Notebook.
Notebook
Python
Shell
Periksa status penyimpanan image.
Pada daftar instans, temukan kolom image untuk lingkungan pengembangan pribadi Anda guna melihat status penyimpanan.
Klik Confirm untuk membuat image.
Di sebelah kanan instans lingkungan pengembangan pribadi, klik ikon
dan centang kotak Image untuk menampilkan kolom tersebut.Tunggu hingga image selesai dibuat. Arahkan kursor ke ikon
di sebelah kanan Saved, lalu klik Here pada jendela pop-up untuk membuka halaman Image Management.
Publikasikan custom image
Setelah image dari instans lingkungan pengembangan pribadi disimpan di Data Studio, publikasikan custom image tersebut. Operasi ini menyinkronkan image dari instans ACR ke DataWorks dan MaxCompute, sehingga menghasilkan baik custom image DataWorks maupun custom image MaxCompute.
Buka halaman daftar ruang kerja DataWorks dan alihkan ke wilayah tujuan di bilah navigasi atas.
Di panel navigasi kiri, buka tab . Test image tujuan. Setelah pengujian berhasil, Publish image tersebut.
CatatanSaat menguji custom image, pilih kelompok sumber daya Serverless untuk Test Resource Group.
VPC yang dilampirkan ke kelompok sumber daya Serverless yang dipilih untuk pengujian dan penerbitan harus sama dengan VPC yang dikonfigurasi di ACR.
Jika custom image Anda mengambil paket pihak ketiga dari Internet dan pengujian gagal, periksa apakah VPC yang dilampirkan ke Test Resource Group dapat mengakses Internet. Untuk mengonfigurasi akses Internet untuk VPC, lihat Gunakan fitur SNAT Gateway NAT Internet untuk mengakses Internet.
Muat ulang halaman dan pastikan Publishing Status image dalam daftar berubah menjadi Published.
Di kolom Actions image tujuan, klik untuk melampirkan custom image ke ruang kerja.
Konfirmasi status image MaxCompute
Penerbitan image DataWorks secara otomatis membuat image MaxCompute yang sesuai. Setelah status image pada tab di Konsol DataWorks berubah menjadi Published, Anda dapat membuka Konsol MaxCompute. Ikuti langkah-langkah dalam Tambahkan custom image ke MaxCompute untuk melihat custom image MaxCompute baru tersebut.
Gunakan custom image MaxCompute
Catatan
Untuk menggunakan MaxFrame dalam pengembangan, layanan
MaxFrameharus disertakan dalam image. Untuk menjalankan custom image MaxCompute di DataWorks, image tersebut harus dibangun dalam lingkunganPython 3.11.Untuk menggunakan custom image MaxCompute dalam pengembangan pekerjaan MaxFrame di DataWorks, pastikan tugas tersebut dijalankan dalam image DataWorks yang memiliki lingkungan runtime MaxFrame. Persyaratannya sebagai berikut:
Notebook node: Pilih image resmi
dataworks-notebook:py3.11-ubuntu22.04, atau custom image DataWorks yang dibangun dari image resmi ini atau imagedataworks-maxcompute:py3.11-ubuntu20.04.PyODPS 3 node: Pilih image resmi
dataworks_pyodps_py311_task_pod, atau custom image DataWorks yang dibangun dari image resmi ini.Python node: Buat instans lingkungan pengembangan pribadi yang memiliki layanan MaxFrame berdasarkan image
dataworks-maxcompute:py3.11-ubuntu20.04, dan simpan sebagai custom image DataWorks yang mendukung jenis tugas Python.Node lainnya: Pastikan custom image DataWorks berisi lingkungan runtime MaxFrame dan dibangun dalam lingkungan
Python 3.11.
Buka Pengembangan Data
Buka halaman Ruang Kerja di Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Temukan ruang kerja yang diinginkan, lalu pilih di kolom Actions.
Di halaman Data Studio, klik ikon
di panel navigasi kiri untuk membuka halaman Data Development.
> Change Workspace
dan pilih
. Di kotak dialog yang muncul, pilih versi