Untuk menggunakan instans seperti MaxCompute dan Hologres dalam pengembangan data di DataWorks, Anda harus mengasosiasikannya sebagai resource komputasi. Topik ini menjelaskan cara membuat dan mengelola resource komputasi, yang menjadi dasar bagi pengembangan dan penjadwalan task.
Hubungan antara resource komputasi dan sumber data
DataWorks mendukung pengasosiasian berbagai resource komputasi. Setelah Anda mengasosiasikan sebuah resource, Anda dapat mengembangkan task pemrosesan data kompleks dan penjadwalan periodik di DataWorks. Saat Anda mengasosiasikan sebagian besar resource komputasi ke DataWorks, sebuah sumber data dengan nama yang sama akan secara otomatis dibuat. Anda kemudian dapat menggunakan modul Data Integration untuk melakukan operasi seperti sinkronisasi data berdasarkan sumber data tersebut. Perbedaan antara mesin komputasi dan sumber data adalah sebagai berikut:
Resource komputasi adalah instans dari mesin komputasi yang mengeksekusi task pemrosesan dan analisis data.
Sumber data terhubung ke berbagai layanan penyimpanan data untuk menyimpan dan mengelola data.
Resource komputasi yang didukung
DataWorks mendukung pengasosiasian resource komputasi berikut untuk pengembangan data.
Kategori | Jenis resource komputasi | Petunjuk pengasosiasian resource komputasi | Data Studio (versi baru) | DataStudio (versi lama) |
Komputasi offline | ||||
Kueri real-time | ||||
Mengasosiasikan resource komputasi AnalyticDB for PostgreSQL | ||||
Komputasi real-time | ||||
Pencarian multimodal | ||||
Manajemen kluster | ||||
Saat Anda mengasosiasikan resource komputasi MaxCompute, AnalyticDB for MySQL, AnalyticDB for PostgreSQL, AnalyticDB for Spark, ClickHouse, Hologres, Lindorm, EMR Serverless StarRocks, atau OpenSearch, sebuah sumber data dengan nama yang sama juga dibuat di ruang kerja saat ini.
Izin
Untuk membuat resource komputasi, Anda harus menjadi anggota ruang kerja dengan peran O&M atau Workspace Administrator, atau memiliki kebijakan akses AliyunDataWorksFullAccess atau AdministratorAccess. Untuk informasi selengkapnya, lihat Kontrol izin modul tingkat ruang kerja dan Memberikan izin kepada Pengguna RAM.
Selain izin tersebut, pembuatan resource komputasi tertentu memerlukan kontrol akses tambahan. Berikan izin sesuai petunjuk pada antarmuka.
Mengasosiasikan resource komputasi
Prosedur pengasosiasian resource komputasi bervariasi tergantung pada apakah ruang kerja Anda menggunakan Data Studio (versi baru).
Mengasosiasikan resource komputasi di Data Studio (versi baru)
Masuk ke Konsol DataWorks. Alihkan ke Wilayah tujuan. Di panel navigasi kiri, klik . Dari daftar drop-down, pilih ruang kerja yang diinginkan dan klik Go To Management Center.
Di panel navigasi kiri, klik Computing Resources. Pada halaman Computing Resources, temukan jenis resource komputasi yang ingin Anda asosiasikan dan ikuti petunjuk pada dokumen yang sesuai.
Mengasosiasikan resource komputasi di DataStudio (versi lama)
Buka halaman DataStudio.
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih Wilayah yang diinginkan. Di panel navigasi kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Development.
Di panel navigasi kiri, klik ikon
untuk membuka halaman Computing Resource. Temukan jenis resource komputasi yang ingin Anda asosiasikan dan ikuti petunjuk pada dokumen yang sesuai.Manajemen resource komputasi: Klik Create Computing Resource di pojok kanan atas untuk membuat resource komputasi.
Manajemen Kluster: Klik Create Cluster di pojok kanan atas halaman Computing Resource untuk membuat kluster.
Manajemen Kluster
Versi/jenis kluster yang didukung
Referensi untuk mengasosiasikan kluster
Mengasosiasikan kluster CDH/CDP
DataWorks menyediakan CDH 5.16.2, CDH 6.1.1, CDH 6.2.1, CDH 6.3.2, dan CDP 7.1.7. Anda dapat memilih versi-versi ini secara langsung. Versi komponen untuk versi kluster ini bersifat tetap. Untuk informasi selengkapnya, lihat Informasi koneksi kluster. Jika versi kluster ini tidak memenuhi kebutuhan bisnis Anda, pilih Custom Version.
Mengasosiasikan kluster EMR
Jenis kluster EMR yang didukung: Kluster DataLake (data lake baru): EMR on ECS, Kluster kustom: EMR on ECS, Kluster Hadoop (data lake lama): EMR on ECS, Kluster Spark: EMR on ACK, dan kluster EMR Serverless Spark.
PentingDataWorks mendukung versi EMR berikut untuk kluster Hadoop (data lake lama):
EMR-3.38.2, EMR-3.38.3, EMR-4.9.0, EMR-5.6.0, EMR-3.26.3, EMR-3.27.2, EMR-3.29.0, EMR-3.32.0, EMR-3.35.0, EMR-4.3.0, EMR-4.4.1, EMR-4.5.0, EMR-4.5.1, EMR-4.6.0, EMR-4.8.0, EMR-5.2.1, dan EMR-5.4.3
Kluster Hadoop (data lake lama) tidak lagi direkomendasikan. Segera migrasikan ke kluster DataLake. Untuk informasi selengkapnya, lihat Migrasi kluster Hadoop ke kluster DataLake.
Memutuskan asosiasi resource komputasi
Putuskan asosiasi resource komputasi dengan hati-hati. Memutuskan asosiasi resource komputasi juga akan menghapus sumber data terkait yang memiliki nama yang sama. Tindakan ini dapat memengaruhi task yang mereferensikan resource komputasi atau sumber data tersebut di modul-modul seperti Data Integration, Operation Center, DataAnalysis, DataService Studio API, dan Data Quality. Untuk memastikan bisnis Anda berjalan sesuai harapan, bacalah prompt pada antarmuka dengan cermat sebelum memutuskan asosiasi resource tersebut. Anda juga harus memigrasikan semua task dari resource komputasi tersebut ke resource lainnya.
Pada halaman resource komputasi, temukan resource komputasi tersebut. Klik Disassociate di sebelah kanan untuk memutuskan asosiasi resource komputasi dari ruang kerja ini.
Lampiran: Lingkungan eksekusi task
Pada ruang kerja mode standar, setiap instans resource komputasi memiliki dua set konfigurasi: satu untuk lingkungan pengembangan dan satu untuk lingkungan produksi. Anda dapat menentukan database atau instans yang berbeda untuk setiap lingkungan. Sistem secara otomatis memetakan dan mengakses resource komputasi yang benar berdasarkan lingkungan runtime. Konfigurasi ini mengisolasi pengembangan dan pengujian dari penjadwalan produksi. Misalnya, saat Anda mengeksekusi task sinkronisasi offline di lingkungan pengembangan, task tersebut secara otomatis mengakses database pengembangan yang telah dikonfigurasi sebelumnya. Saat task tersebut dijalankan untuk penjadwalan produksi, task tersebut mengakses database produksi.
Ruang kerja mode dasar hanya memiliki satu lingkungan dan tidak mengisolasi pengembangan dari produksi. Untuk informasi selengkapnya, lihat Perbedaan antara mode ruang kerja.
Jika Anda meningkatkan ruang kerja mode dasar ke mode standar, resource komputasi asli akan dipisah menjadi dua resource terisolasi: satu untuk lingkungan produksi dan satu untuk lingkungan pengembangan. Ruang kerja yang menggunakan Data Studio (new version) saat ini tidak mendukung peningkatan. Untuk informasi selengkapnya, lihat Meningkatkan mode ruang kerja.