Untuk menggunakan DataWorks dalam mengembangkan dan mengelola tugas Lindorm, Anda harus terlebih dahulu menyambungkan instans Lindorm Anda sebagai sumber daya komputasi Lindorm di DataWorks. Setelah instans disambungkan, Anda dapat memanfaatkan sumber daya komputasi tersebut di DataWorks untuk sinkronisasi data, pengembangan, dan operasi lainnya.
Informasi latar belakang
Lindorm adalah layanan komputasi terdistribusi yang dibangun di atas arsitektur cloud-native. Layanan ini mendukung model komputasi edisi komunitas, kompatibel dengan antarmuka Spark, serta terintegrasi secara mendalam dengan mesin penyimpanan Lindorm. Dengan memanfaatkan fitur penyimpanan data tingkat dasar dan pengindeksan, Lindorm mampu menjalankan pekerjaan terdistribusi secara efisien. Lindorm sangat ideal untuk skenario seperti pemrosesan data skala besar, analisis interaktif, pembelajaran mesin, dan komputasi graf.
Prasyarat
- Penting
Hanya ruang kerja yang menggunakan Use Data Studio (New Version) yang didukung.
Instans Lindorm telah dibuat dan memenuhi kondisi berikut:
compute engine is enabled untuk instans Lindorm.
Instans Lindorm dan ruang kerja DataWorks berada di Wilayah yang sama.
Kelompok sumber daya Serverless telah dibuat dan disambungkan ke ruang kerja DataWorks target.
Menyambungkan sumber daya komputasi Lindorm
Batasan
Wilayah: Tiongkok (Hangzhou), Tiongkok (Shanghai), Tiongkok (Beijing), Tiongkok (Shenzhen), Tiongkok (Chengdu), Tiongkok (Hong Kong), Jepang (Tokyo), Singapura, Malaysia (Kuala Lumpur), dan Indonesia (Jakarta).
Izin:
Hanya kelompok sumber daya Serverless DataWorks yang didukung untuk menjalankan tugas Lindorm di DataWorks.
Hanya anggota ruang kerja yang memiliki peran O&M atau Workspace Administrator, atau anggota yang memiliki izin AliyunDataWorksFullAccess, yang dapat membuat sumber daya komputasi. Untuk informasi lebih lanjut tentang cara melihat peran anggota atau memberikan izin, lihat Menambahkan anggota ruang kerja dan mengelola peran serta izin mereka.
Buka halaman sumber daya komputasi
Buka halaman Ruang Kerja DataWorks. Di bilah navigasi atas, alihkan ke Wilayah target dan temukan ruang kerja target. Klik nama ruang kerja atau klik Details di kolom Operation untuk membuka halaman detail ruang kerja.
Di panel navigasi sebelah kiri, klik Computing Resources. Pada halaman yang muncul, pilih jenis sumber daya komputasi.
Menyambungkan sumber daya komputasi Lindorm
Pada halaman Sumber Daya Komputasi, konfigurasikan dan sambungkan sumber daya komputasi Lindorm menggunakan parameter berikut.
Pilih jenis sumber daya komputasi yang akan disambungkan.
Klik Attach Computing Resource untuk menuju ke halaman Attach Computing Resource.
Pada halaman Attach Computing Resource, atur jenis sumber daya komputasi menjadi Lindorm. Halaman konfigurasi Attach Lindorm Computing Resource akan muncul.
Konfigurasikan sumber daya komputasi Lindorm.
Pada halaman konfigurasi Attach Lindorm Computing Resource, konfigurasikan parameter yang tercantum dalam tabel berikut.
Bagian Konfigurasi
Parameter
Deskripsi
Basic Information
Configuration Mode
Hanya Alibaba Cloud Instance Mode yang didukung.
Instance
Daftar drop-down menampilkan instans Lindorm di Wilayah Anda saat ini. Pilih instans Lindorm yang ingin Anda sambungkan ke DataWorks.
Database Name
Pilih database yang secara default digunakan DataWorks saat menggunakan sumber daya komputasi Lindorm ini. Database default adalah
default.Username/Password
Masukkan nama pengguna dan kata sandi untuk otentikasi identitas saat DataWorks menggunakan sumber daya komputasi Lindorm ini. Anda dapat menemukan nama pengguna dan kata sandi di Konsol Lindorm. Temukan instans Lindorm yang telah dibuat, klik Instance Name, lalu temukan nama pengguna dan kata sandi pada halaman Database Connection di panel navigasi sebelah kiri.
Computing Resource Instance Name
Masukkan nama kustom untuk instans sumber daya komputasi. Saat suatu tugas dijalankan, Anda dapat memilih sumber daya komputasi untuk tugas tersebut berdasarkan nama ini.
Connection Settings
Connectivity Status
Pada bagian Pengaturan Koneksi, pilih kelompok sumber daya Serverless yang digunakan DataWorks untuk menjalankan tugas Lindorm. Klik Test Connectivity untuk memastikan kelompok sumber daya tersebut dapat mengakses instans Lindorm Anda. Untuk informasi lebih lanjut, lihat Ikhtisar solusi koneksi jaringan.
Klik Confirm untuk menyelesaikan konfigurasi sumber daya komputasi Lindorm.
(Opsional) Konfigurasi parameter Spark global
Di DataWorks, Anda dapat menentukan parameter SPARK untuk setiap modul di tingkat ruang kerja. Parameter-parameter ini kemudian digunakan secara default saat modul menjalankan tugas. Anda dapat menyesuaikan parameter SPARK global dan mengatur prioritasnya dibandingkan parameter yang dikonfigurasi dalam modul tertentu, seperti Pengembangan Data, Analisis Data, dan Pusat Operasi. Untuk informasi lebih lanjut, lihat Mengatur parameter Spark global.
Informasi latar belakang
Apache Spark adalah mesin untuk analisis data skala besar. Di DataWorks, Anda dapat mengonfigurasi parameter SPARK yang digunakan oleh node penjadwalan saat waktu proses dengan cara berikut:
Metode 1: Anda dapat mengonfigurasi parameter SPARK global untuk menentukan parameter SPARK yang digunakan modul DataWorks di tingkat ruang kerja saat menjalankan tugas EMR. Anda juga dapat menentukan apakah parameter SPARK global ini memiliki prioritas lebih tinggi daripada parameter SPARK yang dikonfigurasi dalam modul tertentu. Untuk informasi lebih lanjut, lihat Mengonfigurasi parameter SPARK global.
Metode 2: Di modul Pengembangan Data, Anda dapat mengatur properti SPARK tertentu untuk satu node individual pada halaman pengeditan node. Saat ini, modul produk lain tidak mendukung pengaturan properti SPARK di dalam modul.
Kontrol akses
Hanya peran berikut yang dapat mengonfigurasi parameter SPARK global:
Akun Alibaba Cloud.
Pengguna Resource Access Management (RAM) atau Peran RAM yang memiliki izin
AliyunDataWorksFullAccess.Pengguna RAM yang memiliki peran Workspace Administrator.
Menampilkan parameter SPARK global
Buka halaman Sumber Daya Komputasi dan temukan sumber daya komputasi Lindorm yang telah Anda sambungkan.
Klik SPARK Parameters untuk melihat pengaturan parameter global di panel konfigurasi parameter SPARK.
Mengonfigurasi parameter SPARK global
Anda dapat mengonfigurasi parameter global SPARK dengan mengikuti langkah-langkah berikut. Untuk informasi lebih lanjut tentang mengonfigurasi parameter SPARK untuk sumber daya komputasi Lindorm, lihat Petunjuk Konfigurasi Pekerjaan.
Buka halaman Sumber Daya Komputasi dan temukan sumber daya komputasi Lindorm yang telah Anda sambungkan.
Klik SPARK Parameters untuk membuka panel konfigurasi SPARK dan melihat pengaturan parameter global.
Atur parameter SPARK global.
Di pojok kanan atas halaman SPARK Parameters, klik Edit SPARK Parameters untuk mengonfigurasi parameter SPARK global dan mengatur prioritasnya untuk setiap modul.
CatatanIni adalah konfigurasi global untuk ruang kerja. Sebelum melanjutkan, pastikan Anda berada di ruang kerja yang benar.
Parameter
Langkah
Spark Property
Konfigurasikan properti Spark yang digunakan setiap modul saat menjalankan tugas Lindorm. Untuk informasi lebih lanjut, lihat Konfigurasi pekerjaan.
Klik tombol Add di bawah ini. Masukkan Spark Property Name dan Spark Property Value yang sesuai.
CatatanUntuk mengaktifkan pengumpulan alur data dan informasi keluaran, lakukan konfigurasi berikut:
Atur Spark Property Name menjadi
spark.sql.queryExecutionListeners.Atur Spark Property Value menjadi
com.aliyun.dataworks.meta.lineage.LineageListener.
Untuk informasi lebih lanjut tentang pengaturan properti Spark, lihat Konfigurasi pekerjaan.
Global Configuration Priority
Jika Anda memilih opsi ini, konfigurasi global akan memiliki prioritas lebih tinggi daripada konfigurasi di dalam modul produk. Tugas-tugas kemudian akan dijalankan secara seragam berdasarkan properti SPARK yang dikonfigurasi secara global.
Konfigurasi global: Properti Spark yang dikonfigurasi pada halaman SPARK Parameters untuk sumber daya komputasi Lindorm di .
Saat ini, Anda hanya dapat menyetel parameter SPARK global untuk modul Pengembangan Data (DataStudio) dan Pusat Operasi.
Konfigurasi di dalam modul produk:
Pengembangan Data (DataStudio): Untuk node Lindorm Spark dan Lindorm Spark SQL, Anda dapat mengatur properti SPARK untuk satu tugas node pada tab Configuration Items di halaman pengeditan node.
Modul produk lain: Pengaturan properti SPARK di dalam modul-modul ini tidak didukung.
Klik Confirm untuk menyimpan parameter SPARK global.
Apa yang harus dilakukan selanjutnya
Setelah Anda mengonfigurasi sumber daya komputasi Lindorm, Anda dapat menggunakannya untuk mengembangkan node di Pengembangan Data. Untuk informasi lebih lanjut, lihat Node Lindorm Spark dan Node Lindorm Spark SQL.
Anda dapat mengaktifkan pengumpulan alur data Lindorm dan informasi keluaran saat Anda mengonfigurasi parameter SPARK global. Setelah Anda membuat dan menjalankan pengumpul metadata, Anda dapat melihat dan mengelola metadata Lindorm di Peta Data. Untuk informasi lebih lanjut, lihat Melihat dan mengelola Lindorm di Peta Data.