全部产品
Search
文档中心

DataWorks:Buat citra DataWorks dari lingkungan pengembangan

更新时间:Nov 10, 2025

Fitur Pengembangan Data di DataStudio memungkinkan Anda membuat citra kustom dari lingkungan pengembangan Anda. Citra ini dapat digunakan dalam Pengembangan Data maupun lingkungan pengembangan lainnya. Topik ini menjelaskan cara membuat citra kustom dari instans lingkungan pengembangan.

Latar Belakang

Saat mengembangkan dan menguji di lingkungan pengembangan, Anda mungkin perlu menggunakan berbagai dependensi pihak ketiga. Anda dapat menginstal dependensi tersebut langsung di lingkungan saat ini atau membuat citra kustom dari lingkungan tersebut agar dependensi tersebut tersedia untuk lingkungan pengembangan dan ruang kerja lainnya.

Citra yang dibuat dari lingkungan pengembangan mendukung tipe tugas Notebook, Python, dan Shell. Setelah citra dibuat, Anda tidak dapat mengubah tipe tugas yang didukung atau konfigurasi lainnya.

Prasyarat

Penting

Langkah 1: Buka lingkungan pengembangan

  1. Buka halaman Ruang Kerja di Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Temukan ruang kerja yang diinginkan dan pilih Shortcuts > Data Studio di kolom Actions.

  2. Di bagian atas halaman, klik Personal Development Environment · Please Select dan pilih instans lingkungan pengembangan pribadi yang sudah ada.

Langkah 2: Buat citra dari instans lingkungan pengembangan

  1. Sebelum membuat citra dari instans lingkungan pengembangan, Anda harus menyelesaikan konfigurasi lingkungan pengembangan.

    Penting

    Saat Anda mengonfigurasi lingkungan pengembangan, Anda dapat menginstal dependensi open source atau menginstal dependensi pihak ketiga sesuai kebutuhan untuk memenuhi persyaratan bisnis Anda.

  2. Setelah mengonfigurasi lingkungan pengembangan pribadi Anda, klik menu dropdown Personal Development Environment · Please Select di bagian atas dan pilih Instance Management untuk membuka panel Daftar Instans Lingkungan Pengembangan Pribadi.

  3. Buat citra kustom.

    Dalam daftar instans lingkungan pengembangan pribadi, temukan instans target dan klik tombol Create Image di kolom Actions. Konfigurasikan parameter Image Instance, Namespace, Image Repository, Image Version, dan Task Type berdasarkan sumber daya yang telah Anda siapkan di bagian Prasyarat.

    Parameter

    Deskripsi

    Image Name

    Nama citra DataWorks kustom.

    Image Instance

    Pilih instans ACR. Untuk informasi selengkapnya tentang cara membuat instans ACR, lihat Buat Instans Perusahaan.

    Namespace

    Pilih namespace untuk instans ACR. Untuk informasi selengkapnya tentang cara membuat namespace, lihat Buat namespace.

    Image Repository

    Pilih repository image untuk instans ACR. Untuk informasi selengkapnya tentang cara membuat repository image, lihat Buat repository image.

    Image Version

    Versi citra kustom.

    Sync To MaxCompute

    Nilai default adalah No.

    Catatan

    Opsi ini bergantung pada Image Instance yang dipilih. Anda hanya dapat memilih opsi ini untuk instans ACR dengan Edisi Standar atau lebih tinggi. Untuk tipe instans lainnya, opsi ini tidak tersedia secara default.

    • Jika Anda memilih Yes, citra kustom DataWorks akan dibuat secara default. Saat citra DataWorks diterbitkan, citra MaxCompute juga akan dibuat. Untuk informasi selengkapnya, lihat Buat citra MaxCompute dari lingkungan pengembangan.

    • Jika Anda memilih No, hanya citra kustom DataWorks yang dibuat. Citra MaxCompute tidak dibuat.

    Task Type

    Pilih tipe tugas yang dapat menggunakan citra DataWorks.

    • Notebook

    • Python

    • Shell

  4. Setelah menyelesaikan konfigurasi, klik Confirm untuk mulai membuat citra.

    Penting
    • Saat membuat citra, pastikan VPC yang disambungkan ke instans lingkungan pengembangan dan VPC yang disambungkan dalam ACR sama.

    • Proses pembuatan citra memakan waktu 1 hingga 5 menit, tergantung pada ukuran citra dan kondisi jaringan. Tunggu hingga proses selesai.

    • Setelah citra dibuat, Anda tidak dapat mengubah citra di Manajemen Citra.

  5. Tunggu hingga citra selesai dibuat.

Langkah 3: Terbitkan citra kustom

Setelah citra kustom dibuat, buka Konsol DataWorks dan navigasikan ke tab Image Management > Custom Image. Temukan citra target, lalu Test dan Publish. Saat menguji dan menerbitkan citra, perhatikan hal-hal berikut:

  • Saat menguji citra kustom, pilih kelompok sumber daya Serverless.

  • VPC yang disambungkan ke kelompok sumber daya Serverless yang dipilih harus sama dengan VPC yang dikonfigurasi di ACR.

  • Anda hanya dapat menerbitkan citra yang telah lolos uji.

  • Jika citra kustom dikonfigurasi untuk mengambil paket pihak ketiga dari Internet dan pengujian berulang kali gagal, verifikasi bahwa VPC yang disambungkan ke Test Resource Group dapat mengakses Internet. Untuk informasi selengkapnya tentang cara mengonfigurasi akses Internet untuk VPC, lihat Gunakan fitur SNAT dari Gateway NAT Internet untuk mengakses Internet.

Langkah 4: Ubah ruang kerja pemilik citra

Anda dapat melakukan langkah-langkah berikut untuk mengubah ruang kerja pemilik citra.

  1. Di tab Image Management > Custom Images, temukan citra yang telah diterbitkan.

  2. Klik image > Change Workspace di kolom Actions.

Langkah 5: Gunakan citra kustom

Setelah mengubah ruang kerja pemilik citra, Anda dapat membuka ruang kerja tempat citra tersebut disambungkan. Saat mengembangkan node Notebook, Python, atau Shell di Pengembangan Data di ruang kerja ini, Anda dapat mengonfigurasi node untuk menggunakan citra kustom ini. Langkah-langkah berikut menggunakan node Python sebagai contoh untuk menunjukkan cara menggunakan citra.

  1. Di sisi kiri halaman Pengembangan Data, di Project Folder, klik ikon image dan pilih New Node > General > Python Node untuk membuat node Python guna pengembangan.

  2. Setelah mengembangkan node, klik Debug Configuration di sisi kanan halaman. Konfigurasikan Resource Group dan pilih Image untuk lingkungan alat.

    image

  3. Klik ikon image untuk men-debug kode Python.

  4. Setelah pengujian berhasil, klik Scheduling Configuration. Di tab Scheduling Policy, konfigurasikan Image untuk jadwal berulang node Python.

    Catatan
    • Citra yang dikonfigurasi di Scheduling Configuration harus sama dengan citra di Debug Configuration.

    • Untuk node Notebook, Anda hanya dapat mengonfigurasi citra di Scheduling Configuration.

  5. Setelah menyelesaikan konfigurasi penjadwalan, Anda dapat Save dan Publish node Python.

Langkah Selanjutnya

Persistensi citra: DataWorks memungkinkan Anda membangun citra kustom menjadi citra persisten. Artinya, Anda tidak perlu menerapkan ulang lingkungan citra untuk setiap eksekusi. Menggunakan lingkungan citra yang sama untuk setiap eksekusi node tugas memastikan konsistensi lingkungan runtime. Praktik ini juga mengurangi waktu eksekusi, biaya komputasi, dan biaya lalu lintas. Untuk informasi selengkapnya, lihat Bangun citra persisten.

Lampiran: Konfigurasi lingkungan pengembangan

Dependensi di lingkungan pengembangan default yang dibuat oleh DataWorks mungkin tidak memenuhi kebutuhan pengembangan kode Anda. Anda dapat menginstal dependensi untuk mengonfigurasi lingkungan pengembangan Anda.

Instal dependensi open source

Anda dapat menginstal dependensi open source yang diperlukan di instans lingkungan pengembangan. Langkah-langkah berikut menggunakan dependensi jieba sebagai contoh untuk menunjukkan cara menginstal dependensi open source.

  1. Klik ikon image di pojok kiri bawah halaman Data Studio untuk membuka tab TERMINAL.

  2. Di terminal, jalankan perintah berikut untuk menginstal library jieba:

    pip install jieba

    image

  3. Setelah library jieba terinstal, buat file .py baru di direktori Personal Folder > workspace, lalu edit dan simpan kode berikut di file Python.

    import sys
    import jieba
    '''Get the system input parameter arg'''
    for arg in sys.argv:
        print(f"argv: {arg}")
    '''Call the jieba class to tokenize the input data and print the output'''    
    seg_list = jieba.cut(sys.argv[1], cut_all=False)
    print("Default Mode: " + "/ ".join(seg_list))
    print('finish')

    Setelah selesai mengedit, klik image untuk menyimpan kode Python.

  4. Di terminal, jalankan perintah berikut untuk menjalankan file Python:

    python file_name.py "I am the data governance platform document"

    image

Jika file Python berhasil dijalankan, library jieba telah terinstal di lingkungan pengembangan.

Instal dependensi pihak ketiga

Instal proyek Python menggunakan git clone

Untuk mengkloning proyek Python menggunakan git clone, Anda harus mengonfigurasi akses jaringan publik untuk VPC. Untuk informasi selengkapnya, lihat Konfigurasi Gateway NAT Internet.

  1. Klik ikon image di pojok kiri bawah halaman Data Studio untuk membuka tab TERMINAL.

  2. Di terminal, jalankan perintah berikut untuk masuk ke folder workspace:

    cd /mnt/workspace
  3. Gunakan `git clone` untuk mengkloning proyek Python dari Git ke folder workspace.

    # When you clone the Git code, replace the URL with your own URL.
    git clone https://github.com/example/Example-Python.git

    image

  4. Instal proyek Python yang telah dikloning.

    1. Masuk ke folder Python yang telah dikloning.

      cd Example-Python
    2. Anda dapat menginstal kelas Python.

      pip install .

      image

Instal proyek Python dengan mengunggahnya dari mesin lokal Anda

  1. Unggah proyek Python lokal Anda ke folder My Directory > workspace. Kemudian, gunakan terminal untuk masuk ke folder proyek Python.

    cd /mnt/workspace/"Python_code_folder"
  2. Jalankan perintah berikut untuk menginstal proyek Python:

    pip install .

    image

Instal program Python dengan mengunggahnya dari mesin lokal Anda

Untuk menginstal program Python di lingkungan pengembangan Anda, lakukan langkah-langkah berikut.

  1. Unggah paket terkompresi program Python lokal Anda ke folder My Directory > workspace. Kemudian, gunakan terminal untuk mengekstrak paket tersebut dan melihat path kompilasi Python.

    cat 'decompressed_python_project_name'/bin/pip
  2. Buat path kompilasi Python.

    #Create the identified Python compile path.
    mkdir -p 'Identified Python compile path'
  3. Pindahkan folder yang telah diekstrak ke path kompilasi Python.

    mv 'decompressed_python_project_name' /'viewed_python_compile_path'
  4. Anda dapat mengganti paket Python dengan program Python Anda.

    for src in idle3 pydoc3 python3 python3-config pip3; do \
        dst="$(echo "$src" | tr -d 3)"; \
        [ -s "/usr/local/bin/$src" ]; \
        [ ! -e "/usr/local/bin/$dst" ]; \
        mv /usr/local/bin/$dst /usr/local/bin/${dst}_bak
        ln -svT "viewed_python_compile_path/bin/$src" "/usr/local/bin/$dst"; \
    done

Setelah instalasi selesai, debug dan jalankan dependensi pihak ketiga di lingkungan pengembangan untuk memverifikasi instalasi.