Fitur Pengembangan Data di DataStudio memungkinkan Anda membuat citra kustom dari lingkungan pengembangan Anda. Citra ini dapat digunakan dalam Pengembangan Data maupun lingkungan pengembangan lainnya. Topik ini menjelaskan cara membuat citra kustom dari instans lingkungan pengembangan.
Latar Belakang
Saat mengembangkan dan menguji di lingkungan pengembangan, Anda mungkin perlu menggunakan berbagai dependensi pihak ketiga. Anda dapat menginstal dependensi tersebut langsung di lingkungan saat ini atau membuat citra kustom dari lingkungan tersebut agar dependensi tersebut tersedia untuk lingkungan pengembangan dan ruang kerja lainnya.
Citra yang dibuat dari lingkungan pengembangan mendukung tipe tugas Notebook, Python, dan Shell. Setelah citra dibuat, Anda tidak dapat mengubah tipe tugas yang didukung atau konfigurasi lainnya.
Prasyarat
Virtual private cloud (VPC): Anda telah membuat VPC.
DataWorks: Anda telah membuat instans lingkungan pengembangan dan menyambungkan VPC ke instans tersebut.
Alibaba Cloud Container Registry (ACR):
Anda telah menyiapkan ACR. Pastikan Anda telah membuat Instans Perusahaan, membuat namespace, membuat repository image, dan mengonfigurasi kontrol akses untuk VPC.
Anda telah mengaktifkan Cloud DNS PrivateZone. Untuk informasi lebih lanjut tentang penagihan, lihat Penagihan Produk.
VPC yang disambungkan ke instans lingkungan pengembangan, VPC yang disambungkan dalam ACR, dan VPC yang disambungkan ke kelompok sumber daya uji yang digunakan untuk menerbitkan citra harus sama.
Jika program Anda di lingkungan pengembangan perlu mengambil dependensi pihak ketiga dari Internet, Anda harus mengonfigurasi akses jaringan publik untuk VPC. Untuk informasi selengkapnya, lihat Akses Internet menggunakan fitur SNAT dari Gateway NAT Internet.
Langkah 1: Buka lingkungan pengembangan
Buka halaman Ruang Kerja di Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Temukan ruang kerja yang diinginkan dan pilih di kolom Actions.
Di bagian atas halaman, klik Personal Development Environment · Please Select dan pilih instans lingkungan pengembangan pribadi yang sudah ada.
Langkah 2: Buat citra dari instans lingkungan pengembangan
Sebelum membuat citra dari instans lingkungan pengembangan, Anda harus menyelesaikan konfigurasi lingkungan pengembangan.
PentingSaat Anda mengonfigurasi lingkungan pengembangan, Anda dapat menginstal dependensi open source atau menginstal dependensi pihak ketiga sesuai kebutuhan untuk memenuhi persyaratan bisnis Anda.
Setelah mengonfigurasi lingkungan pengembangan pribadi Anda, klik menu dropdown Personal Development Environment · Please Select di bagian atas dan pilih Instance Management untuk membuka panel Daftar Instans Lingkungan Pengembangan Pribadi.
Buat citra kustom.
Dalam daftar instans lingkungan pengembangan pribadi, temukan instans target dan klik tombol Create Image di kolom Actions. Konfigurasikan parameter Image Instance, Namespace, Image Repository, Image Version, dan Task Type berdasarkan sumber daya yang telah Anda siapkan di bagian Prasyarat.
Parameter
Deskripsi
Image Name
Nama citra DataWorks kustom.
Image Instance
Pilih instans ACR. Untuk informasi selengkapnya tentang cara membuat instans ACR, lihat Buat Instans Perusahaan.
Namespace
Pilih namespace untuk instans ACR. Untuk informasi selengkapnya tentang cara membuat namespace, lihat Buat namespace.
Image Repository
Pilih repository image untuk instans ACR. Untuk informasi selengkapnya tentang cara membuat repository image, lihat Buat repository image.
Image Version
Versi citra kustom.
Sync To MaxCompute
Nilai default adalah No.
CatatanOpsi ini bergantung pada Image Instance yang dipilih. Anda hanya dapat memilih opsi ini untuk instans ACR dengan Edisi Standar atau lebih tinggi. Untuk tipe instans lainnya, opsi ini tidak tersedia secara default.
Jika Anda memilih Yes, citra kustom DataWorks akan dibuat secara default. Saat citra DataWorks diterbitkan, citra MaxCompute juga akan dibuat. Untuk informasi selengkapnya, lihat Buat citra MaxCompute dari lingkungan pengembangan.
Jika Anda memilih No, hanya citra kustom DataWorks yang dibuat. Citra MaxCompute tidak dibuat.
Task Type
Pilih tipe tugas yang dapat menggunakan citra DataWorks.
Notebook
Python
Shell
Setelah menyelesaikan konfigurasi, klik Confirm untuk mulai membuat citra.
PentingSaat membuat citra, pastikan VPC yang disambungkan ke instans lingkungan pengembangan dan VPC yang disambungkan dalam ACR sama.
Proses pembuatan citra memakan waktu 1 hingga 5 menit, tergantung pada ukuran citra dan kondisi jaringan. Tunggu hingga proses selesai.
Setelah citra dibuat, Anda tidak dapat mengubah citra di Manajemen Citra.
Tunggu hingga citra selesai dibuat.
Langkah 3: Terbitkan citra kustom
Setelah citra kustom dibuat, buka Konsol DataWorks dan navigasikan ke tab . Temukan citra target, lalu Test dan Publish. Saat menguji dan menerbitkan citra, perhatikan hal-hal berikut:
Saat menguji citra kustom, pilih kelompok sumber daya Serverless.
VPC yang disambungkan ke kelompok sumber daya Serverless yang dipilih harus sama dengan VPC yang dikonfigurasi di ACR.
Anda hanya dapat menerbitkan citra yang telah lolos uji.
Jika citra kustom dikonfigurasi untuk mengambil paket pihak ketiga dari Internet dan pengujian berulang kali gagal, verifikasi bahwa VPC yang disambungkan ke Test Resource Group dapat mengakses Internet. Untuk informasi selengkapnya tentang cara mengonfigurasi akses Internet untuk VPC, lihat Gunakan fitur SNAT dari Gateway NAT Internet untuk mengakses Internet.
Langkah 4: Ubah ruang kerja pemilik citra
Anda dapat melakukan langkah-langkah berikut untuk mengubah ruang kerja pemilik citra.
Di tab , temukan citra yang telah diterbitkan.
Klik di kolom Actions.
Langkah 5: Gunakan citra kustom
Setelah mengubah ruang kerja pemilik citra, Anda dapat membuka ruang kerja tempat citra tersebut disambungkan. Saat mengembangkan node Notebook, Python, atau Shell di Pengembangan Data di ruang kerja ini, Anda dapat mengonfigurasi node untuk menggunakan citra kustom ini. Langkah-langkah berikut menggunakan node Python sebagai contoh untuk menunjukkan cara menggunakan citra.
Di sisi kiri halaman Pengembangan Data, di Project Folder, klik ikon
dan pilih untuk membuat node Python guna pengembangan.Setelah mengembangkan node, klik Debug Configuration di sisi kanan halaman. Konfigurasikan Resource Group dan pilih Image untuk lingkungan alat.

Klik ikon
untuk men-debug kode Python.Setelah pengujian berhasil, klik Scheduling Configuration. Di tab Scheduling Policy, konfigurasikan Image untuk jadwal berulang node Python.
CatatanCitra yang dikonfigurasi di Scheduling Configuration harus sama dengan citra di Debug Configuration.
Untuk node Notebook, Anda hanya dapat mengonfigurasi citra di Scheduling Configuration.
Setelah menyelesaikan konfigurasi penjadwalan, Anda dapat Save dan Publish node Python.
Langkah Selanjutnya
Persistensi citra: DataWorks memungkinkan Anda membangun citra kustom menjadi citra persisten. Artinya, Anda tidak perlu menerapkan ulang lingkungan citra untuk setiap eksekusi. Menggunakan lingkungan citra yang sama untuk setiap eksekusi node tugas memastikan konsistensi lingkungan runtime. Praktik ini juga mengurangi waktu eksekusi, biaya komputasi, dan biaya lalu lintas. Untuk informasi selengkapnya, lihat Bangun citra persisten.
Lampiran: Konfigurasi lingkungan pengembangan
Dependensi di lingkungan pengembangan default yang dibuat oleh DataWorks mungkin tidak memenuhi kebutuhan pengembangan kode Anda. Anda dapat menginstal dependensi untuk mengonfigurasi lingkungan pengembangan Anda.
Instal dependensi open source
Anda dapat menginstal dependensi open source yang diperlukan di instans lingkungan pengembangan. Langkah-langkah berikut menggunakan dependensi jieba sebagai contoh untuk menunjukkan cara menginstal dependensi open source.
Klik ikon
di pojok kiri bawah halaman Data Studio untuk membuka tab TERMINAL. Di terminal, jalankan perintah berikut untuk menginstal library jieba:
pip install jieba
Setelah library jieba terinstal, buat file
.pybaru di direktori , lalu edit dan simpan kode berikut di file Python.import sys import jieba '''Get the system input parameter arg''' for arg in sys.argv: print(f"argv: {arg}") '''Call the jieba class to tokenize the input data and print the output''' seg_list = jieba.cut(sys.argv[1], cut_all=False) print("Default Mode: " + "/ ".join(seg_list)) print('finish')Setelah selesai mengedit, klik
untuk menyimpan kode Python.Di terminal, jalankan perintah berikut untuk menjalankan file Python:
python file_name.py "I am the data governance platform document"
Jika file Python berhasil dijalankan, library jieba telah terinstal di lingkungan pengembangan.
Instal dependensi pihak ketiga
Instal proyek Python menggunakan git clone
Untuk mengkloning proyek Python menggunakan git clone, Anda harus mengonfigurasi akses jaringan publik untuk VPC. Untuk informasi selengkapnya, lihat Konfigurasi Gateway NAT Internet.
Klik ikon
di pojok kiri bawah halaman Data Studio untuk membuka tab TERMINAL. Di terminal, jalankan perintah berikut untuk masuk ke folder workspace:
cd /mnt/workspaceGunakan `git clone` untuk mengkloning proyek Python dari Git ke folder workspace.
# When you clone the Git code, replace the URL with your own URL. git clone https://github.com/example/Example-Python.git
Instal proyek Python yang telah dikloning.
Masuk ke folder Python yang telah dikloning.
cd Example-PythonAnda dapat menginstal kelas Python.
pip install .
Instal proyek Python dengan mengunggahnya dari mesin lokal Anda
Unggah proyek Python lokal Anda ke folder . Kemudian, gunakan terminal untuk masuk ke folder proyek Python.
cd /mnt/workspace/"Python_code_folder"Jalankan perintah berikut untuk menginstal proyek Python:
pip install .
Instal program Python dengan mengunggahnya dari mesin lokal Anda
Untuk menginstal program Python di lingkungan pengembangan Anda, lakukan langkah-langkah berikut.
Unggah paket terkompresi program Python lokal Anda ke folder . Kemudian, gunakan terminal untuk mengekstrak paket tersebut dan melihat path kompilasi Python.
cat 'decompressed_python_project_name'/bin/pipBuat path kompilasi Python.
#Create the identified Python compile path. mkdir -p 'Identified Python compile path'Pindahkan folder yang telah diekstrak ke path kompilasi Python.
mv 'decompressed_python_project_name' /'viewed_python_compile_path'Anda dapat mengganti paket Python dengan program Python Anda.
for src in idle3 pydoc3 python3 python3-config pip3; do \ dst="$(echo "$src" | tr -d 3)"; \ [ -s "/usr/local/bin/$src" ]; \ [ ! -e "/usr/local/bin/$dst" ]; \ mv /usr/local/bin/$dst /usr/local/bin/${dst}_bak ln -svT "viewed_python_compile_path/bin/$src" "/usr/local/bin/$dst"; \ done
Setelah instalasi selesai, debug dan jalankan dependensi pihak ketiga di lingkungan pengembangan untuk memverifikasi instalasi.
> Change Workspace