DataWorks memungkinkan Anda membuat citra kustom MaxCompute secara bersamaan saat membuat citra kustom di lingkungan pengembangan pribadi. Hal ini menyederhanakan penggunaan citra kustom MaxCompute di node DataWorks, seperti node PyODPS 3 dan Notebook. Topik ini menjelaskan cara membuat dan menggunakan citra kustom MaxCompute di DataWorks.
Informasi latar belakang
Fitur manajemen citra MaxCompute memungkinkan Anda membuat citra kustom. Citra tersebut dapat langsung dirujuk dalam berbagai skenario, seperti pengembangan SQL UDF, PyODPS, dan MaxFrame, sehingga menghilangkan kebutuhan akan pengemasan dan unggah sumber daya yang kompleks. Di DataWorks, Anda dapat membuat citra MaxCompute secara bersamaan dengan pembuatan citra DataWorks dari lingkungan pengembangan pribadi.
Prasyarat
Anda telah membuat ruang kerja yang menggunakan versi baru Data Studio dan menyambungkan sumber daya komputasi MaxCompute.
Anda telah membuat kelompok sumber daya Serverless dan menyambungkannya ke ruang kerja.
Buat citra kustom MaxCompute
Persiapan
Anda telah mengaktifkan Alibaba Cloud Container Registry (ACR) dan membuat instans ACR versi Edisi Standar atau lebih tinggi. Untuk informasi selengkapnya, lihat Buat Instans Perusahaan, Buat namespace, dan Buat repository image.
Anda telah mengonfigurasi kontrol akses untuk instans ACR melalui virtual private cloud (VPC). Untuk informasi selengkapnya, lihat Konfigurasi kontrol akses untuk VPC.
Anda memiliki izin yang diperlukan untuk mengelola ACR dan citra kustom MaxCompute. Untuk informasi selengkapnya, lihat Citra kustom.
Catatan
Saat membuat citra kustom MaxCompute:
Ukuran citra: Ukuran maksimum satu citra MaxCompute adalah
10 GB.Jumlah citra: Satu penyewa MaxCompute dapat mengunggah maksimal
10citra.
Saat menggunakan citra MaxCompute, perlu diperhatikan bahwa DataWorks membangun citra MaxCompute berdasarkan lingkungan Python 3.11. Untuk menjalankan citra MaxCompute yang dibuat oleh DataWorks, Anda harus memastikan bahwa lingkungan Python Anda berada pada versi 3.11.
Buat instans lingkungan pengembangan pribadi
Buka Data Studio dan buat instans lingkungan pengembangan pribadi. Anda harus menggunakan citra dataworks-maxcompute:py3.11-ubuntu20.04 untuk membuat citra kustom MaxCompute secara bersamaan.
Buka Data Studio.
Buka halaman Ruang Kerja di Konsol DataWorks. Di bilah navigasi atas, pilih Wilayah yang diinginkan. Temukan ruang kerja yang diinginkan dan pilih di kolom Actions.
Di halaman Data Studio, klik ikon
di panel navigasi sebelah kiri untuk membuka halaman Data Development.
Buka halaman pembuatan lingkungan pengembangan pribadi. Di bagian atas halaman, klik Personal Development Environment · Please Select dan buat instans lingkungan pengembangan pribadi.
Jika Anda belum memiliki instans lingkungan pengembangan pribadi, klik Go To Create untuk membuatnya.
Jika Anda sudah memiliki instans lingkungan pengembangan pribadi, klik Manage Instances. Lalu, di daftar instans lingkungan pengembangan pribadi, klik Create Instance.
Konfigurasikan lingkungan pengembangan pribadi. Saat membuat citra kustom MaxCompute di DataWorks, Anda harus mengonfigurasi parameter berikut untuk lingkungan pengembangan pribadi. Untuk informasi tentang parameter lainnya, lihat Buat instans lingkungan pengembangan pribadi.
Image Configuration: Pilih
dataworks-maxcompute:py3.11-ubuntu20.04.CatatanAnda harus memilih citra
dataworks-maxcompute:py3.11-ubuntu20.04untuk membuat citra kustom MaxCompute.Citra kustom DataWorks yang dibuat dari citra dasar
dataworks-maxcompute:py3.11-ubuntu20.04dapat digunakan untuk mengembangkan pekerjaan MaxFrame di node DataWorks Notebook, General Python, dan Shell.
Network Settings: Pilih VPC yang telah dikonfigurasi untuk instans ACR. Hal ini memastikan bahwa instans lingkungan pengembangan pribadi dapat mendorong citra ke instans ACR.
Konfigurasi lingkungan citra
Di terminal instans lingkungan pengembangan pribadi Anda, instal dependensi pihak ketiga yang diperlukan untuk pengembangan MaxCompute. Topik ini menggunakan jieba sebagai contoh.
Di bagian atas halaman Data Studio, klik Personal Development Environment · Please Select lalu klik instans lingkungan pengembangan pribadi yang telah Anda buat di Buat instans lingkungan pengembangan pribadi.
Di bilah alat di bagian bawah Data Studio, klik ikon
di sebelah kiri untuk membuka terminal.Di terminal lingkungan pengembangan pribadi, jalankan perintah berikut untuk mengunduh dependensi pihak ketiga
jiebadan memverifikasi instalasinya.## Install the third-party dependency. pip install jieba; ## View the third-party dependency. pip show jieba;
Simpan citra kustom
Buat citra DataWorks dari lingkungan pengembangan pribadi Anda dan pilih untuk membuat citra MaxCompute secara bersamaan. Sistem secara otomatis mengunggah citra yang dihasilkan ke instans ACR yang dikelola oleh akun yang sama.
Buka halaman manajemen instans lingkungan pengembangan pribadi.
Di bagian atas halaman, klik nama instans lingkungan pengembangan pribadi yang telah Anda buat, yang ditampilkan di bagian Personal Development Environment · Please Select.
Di kotak dialog yang muncul, pilih Manage Environment untuk membuka halaman Personal Development Environment Instance.
Buka halaman pembuatan citra.
Di halaman instans lingkungan pengembangan pribadi, temukan instans lingkungan pengembangan pribadi yang telah Anda buat.
Di kolom Actions instans tersebut, klik Create Image.
Konfigurasikan citra sesuai dengan tabel berikut. Setelah menyelesaikan konfigurasi, klik Confirm.
Parameter
Deskripsi
Image Name
Nama kustom untuk citra DataWorks. Jika citra disinkronkan ke MaxCompute, nama yang ditentukan di sini akan digunakan sebagai nama citra MaxCompute. Contoh:
image_jieba.Image Instance
Pilih instans ACR Edisi Standar atau lebih tinggi. Untuk informasi selengkapnya tentang cara membuat instans ACR, lihat Buat Instans Perusahaan.
CatatanHanya instans ACR Edisi Standar atau lebih tinggi yang dapat digunakan untuk membuat citra kustom MaxCompute.
Namespace
Pilih namespace untuk instans ACR. Untuk informasi selengkapnya tentang cara membuat namespace, lihat Buat namespace.
Image Repository
Pilih repository image untuk instans ACR. Untuk informasi selengkapnya tentang cara membuat repository image, lihat Buat repository image.
Image Version
Versi citra kustom.
Sync To MaxCompute
Dalam contoh ini, pilih Yes. Setelah memilih opsi ini, citra akan dibuat sebagai citra MaxCompute saat citra DataWorks dipublikasikan.
CatatanOpsi ini terkait dengan Image Instance yang Anda pilih. Anda hanya dapat memilih instans citra ACR yang memiliki Instance Type Edisi Standar atau lebih tinggi. Instans lain tidak dapat dipilih secara default.
Task Type
Pilih jenis tugas tempat citra DataWorks dapat digunakan. Dalam contoh ini, Anda dapat memilih untuk menggunakan citra tersebut dalam pengembangan Notebook.
Notebook
Python
Shell
Periksa status penyimpanan citra.
Di daftar instans, temukan kolom citra untuk lingkungan pengembangan pribadi Anda guna melihat status penyimpanan.
Klik Confirm untuk membuat citra.
Di sebelah kanan instans lingkungan pengembangan pribadi, klik ikon
dan pilih kotak centang Image untuk menampilkan kolom tersebut.Tunggu hingga citra selesai dibuat. Arahkan kursor mouse ke ikon
di sebelah kanan Saved Successfully, lalu klik Here di jendela pop-up untuk membuka halaman Image Management.
Publikasikan citra kustom
Setelah citra dari instans lingkungan pengembangan pribadi disimpan di Data Studio, publikasikan citra kustom tersebut. Operasi ini menyinkronkan citra dari instans ACR ke DataWorks dan MaxCompute, sehingga menghasilkan citra kustom DataWorks dan citra kustom MaxCompute.
Buka halaman daftar ruang kerja DataWorks dan alihkan ke Wilayah tujuan di bilah navigasi atas.
Di panel navigasi sebelah kiri, buka tab . Test citra tujuan. Setelah pengujian berhasil, Publish citra tersebut.
CatatanSaat menguji citra kustom, pilih kelompok sumber daya Serverless untuk Test Resource Group.
VPC yang disambungkan ke kelompok sumber daya Serverless yang dipilih untuk pengujian dan penerbitan harus sama dengan VPC yang dikonfigurasi di ACR.
Jika citra kustom Anda mengambil paket pihak ketiga dari Internet dan pengujian gagal, periksa apakah VPC yang disambungkan ke Test Resource Group dapat mengakses Internet. Untuk mengonfigurasi akses Internet untuk VPC, lihat Gunakan fitur SNAT Gateway NAT Internet untuk mengakses Internet.
Muat ulang halaman dan pastikan Publish Status citra di daftar citra berubah menjadi Published.
Di kolom Actions citra tujuan, klik untuk menyambungkan citra kustom ke ruang kerja.
Konfirmasi status citra MaxCompute
Penerbitan citra DataWorks secara otomatis membuat citra MaxCompute yang sesuai. Setelah status citra di tab di Konsol DataWorks berubah menjadi Published, Anda dapat membuka Konsol MaxCompute. Ikuti langkah-langkah di Tambahkan citra kustom ke MaxCompute untuk melihat citra kustom MaxCompute yang baru.
Gunakan citra kustom MaxCompute
Catatan
Untuk menggunakan MaxFrame dalam pengembangan, layanan
MaxFrameharus disertakan dalam citra. Untuk menjalankan citra kustom MaxCompute di DataWorks, citra tersebut harus dibuat dalam lingkunganPython 3.11.Untuk menggunakan citra kustom MaxCompute dalam pengembangan pekerjaan MaxFrame di DataWorks, pastikan tugas dijalankan dalam citra DataWorks yang memiliki lingkungan runtime MaxFrame. Persyaratannya sebagai berikut:
Notebook node: Pilih citra resmi
dataworks-notebook:py3.11-ubuntu22.04, atau citra kustom DataWorks yang dibuat dari citra resmi ini atau citradataworks-maxcompute:py3.11-ubuntu20.04.PyODPS 3 node: Pilih citra resmi
dataworks_pyodps_py311_task_pod, atau citra kustom DataWorks yang dibuat dari citra resmi ini.Python node: Buat instans lingkungan pengembangan pribadi yang memiliki layanan MaxFrame berdasarkan citra
dataworks-maxcompute:py3.11-ubuntu20.04, dan simpan sebagai citra kustom DataWorks yang mendukung jenis tugas Python.Node lainnya: Pastikan citra kustom DataWorks berisi lingkungan runtime MaxFrame dan dibuat dalam lingkungan
Python 3.11.
Buka Data Development
Buka halaman Ruang Kerja di Konsol DataWorks. Di bilah navigasi atas, pilih Wilayah yang diinginkan. Temukan ruang kerja yang diinginkan dan pilih di kolom Actions.
Di halaman Data Studio, klik ikon
di panel navigasi sebelah kiri untuk membuka halaman Data Development.
> Modify Workspace
dan pilih
. Di kotak dialog yang muncul, pilih versi