全部产品
Search
文档中心

DataWorks:Node EMR Spark

更新时间:Feb 05, 2026

Spark adalah mesin analitik data besar (big data analytics engine) serbaguna yang dikenal karena performa tinggi, kemudahan penggunaan, dan penerapannya yang luas. Spark mendukung komputasi dalam memori (in-memory computing), sehingga ideal untuk membangun aplikasi analitik data berskala besar dengan latensi rendah. DataWorks menyediakan node EMR Spark yang memungkinkan Anda mengembangkan dan menjadwalkan pekerjaan Spark. Topik ini menjelaskan cara mengonfigurasi serta menggunakan node EMR Spark dan memberikan contoh fungsionalitasnya.

Prasyarat

  • Untuk menyesuaikan lingkungan komponen suatu node, buat custom image berdasarkan image resmi dataworks_emr_base_task_pod. Untuk informasi selengkapnya, lihat Custom images dan gunakan image tersebut di Data Development.

    Sebagai contoh, Anda dapat mengganti paket JAR Spark atau menambahkan dependensi pada libraries, files, atau JAR packages tertentu saat membuat custom image.

  • Anda telah membuat kluster Alibaba Cloud E-MapReduce (EMR) dan mendaftarkannya ke DataWorks. Untuk informasi selengkapnya, lihat Data Studio: Mengaitkan sumber daya komputasi EMR.

  • (Opsional, wajib bagi pengguna RAM) Tambahkan Pengguna Resource Access Management (RAM) yang bertanggung jawab atas pengembangan tugas ke Workspace dan berikan peran Developer atau Workspace Administrator. Peran Workspace Administrator memiliki izin yang luas, sehingga berikan dengan hati-hati. Untuk informasi lebih lanjut tentang penambahan anggota, lihat Menambahkan anggota ke workspace.

    Jika Anda menggunakan akun Alibaba Cloud, Anda dapat melewati langkah ini.
  • Jika pekerjaan Anda memerlukan lingkungan pengembangan tertentu, gunakan fitur custom image di DataWorks untuk membangun image yang berisi komponen yang diperlukan. Untuk informasi selengkapnya, lihat Custom images.

Batasan

  • Jenis tugas ini hanya dapat dijalankan pada Serverless resource group (disarankan) atau exclusive resource group for scheduling. Jika Anda menggunakan image di Data Development, Anda harus menggunakan Serverless resource group.

  • Untuk mengelola metadata di DataWorks untuk DataLake atau kluster kustom, Anda harus terlebih dahulu mengonfigurasi EMR-HOOK pada kluster tersebut. Untuk informasi selengkapnya, lihat Mengonfigurasi EMR-HOOK untuk Spark SQL.

    Catatan

    Jika EMR-HOOK tidak dikonfigurasi pada kluster, Anda tidak dapat melihat metadata secara real time, menghasilkan log audit, menampilkan alur data (data lineage), atau melakukan tugas tata kelola data terkait EMR di DataWorks.

  • Anda tidak dapat melihat alur data (lineage) dari kluster Spark yang diterapkan pada E-MapReduce on Container Service for Kubernetes (EMR on ACK). Anda hanya dapat melihat alur data dari kluster EMR Serverless Spark.

  • Pada kluster EMR on ACK dan EMR Serverless Spark, Anda hanya dapat mereferensikan resource dari Object Storage Service (OSS) menggunakan OSS REF dan hanya dapat mengunggah resource ke OSS. Mengunggah resource ke Hadoop Distributed File System (HDFS) tidak didukung.

  • DataLake dan kluster kustom mendukung mereferensikan resource OSS menggunakan OSS REF, mengunggah resource ke OSS, serta mengunggah resource ke HDFS.

Catatan

Jika Anda mengaktifkan kontrol akses Ranger untuk Spark di kluster EMR yang terikat pada workspace saat ini:

  • Fitur ini tersedia secara default saat menjalankan tugas Spark yang menggunakan image default.

  • Untuk menjalankan tugas Spark yang menggunakan custom image, Anda harus mengajukan tiket untuk meningkatkan image agar mendukung fitur ini.

Kembangkan dan kemas pekerjaan Spark

Sebelum menjadwalkan pekerjaan EMR Spark di DataWorks, Anda harus terlebih dahulu mengembangkan kode pekerjaan di E-MapReduce (EMR), mengompilasinya, dan menghasilkan paket JAR. Untuk informasi selengkapnya tentang cara mengembangkan pekerjaan EMR Spark, lihat Ikhtisar.

Catatan

Untuk menjadwalkan pekerjaan EMR Spark, Anda harus mengunggah paket JAR ke DataWorks.

Prosedur

  1. Pada halaman pengeditan node EMR Spark, ikuti langkah-langkah berikut untuk mengonfigurasi pekerjaan Anda.

    Kembangkan pekerjaan Spark

    Pilih salah satu opsi berikut berdasarkan kasus penggunaan Anda.

    Opsi 1: Unggah dan referensikan EMR JAR

    Anda dapat mengunggah dan mereferensikan resource dari mesin lokal Anda di Data Studio. Setelah mengompilasi pekerjaan EMR Spark Anda, peroleh paket JAR tersebut. Pilih metode penyimpanan berdasarkan ukuran paket JAR.

    Unggah paket JAR untuk membuat resource EMR di DataWorks dan kirimkan (submit), atau simpan langsung di HDFS pada EMR. Kluster EMR on ACK dan EMR Serverless Spark tidak mendukung pengunggahan resource ke HDFS.

    JAR kurang dari 500 MB

    1. Buat resource EMR JAR.

      Jika paket JAR berukuran kurang dari 500 MB, Anda dapat mengunggahnya dari mesin lokal untuk membuat resource EMR JAR di DataWorks. Hal ini memungkinkan manajemen visual di konsol DataWorks. Setelah membuat resource, Anda harus mengirimkannya (submit). Untuk informasi selengkapnya, lihat Buat dan gunakan resource EMR.

      1. Unggah paket JAR dari mesin Local Anda ke direktori tempat resource JAR disimpan. Untuk informasi selengkapnya, lihat Manajemen resource.

      2. Klik Upload untuk mengunggah resource JAR.

      3. Pilih Storage Path, Data Source, dan Resource Group.

      4. Klik Save.

      image

    2. Referensikan resource EMR JAR.

      1. Buka node EMR Spark yang telah dibuat untuk membuka editor kode.

      2. Pada panel navigasi sebelah kiri, temukan resource yang ingin Anda referensikan, klik kanan, lalu pilih Reference Resource.

      3. Setelah memilih resource, referensi otomatis ditambahkan ke editor kode node EMR Spark:

        ##@resource_reference{"spark-examples_2.12-1.0.0-SNAPSHOT-shaded.jar"}
        spark-examples_2.12-1.0.0-SNAPSHOT-shaded.jar

        Kode ini mengonfirmasi referensi tersebut. Dalam kode ini, spark-examples_2.12-1.0.0-SNAPSHOT-shaded.jar adalah nama resource EMR JAR yang telah Anda unggah.

      4. Tambahkan perintah spark-submit ke kode node EMR Spark. Contoh kode sebagai berikut.

        Catatan

        Jangan tambahkan komentar ke kode pekerjaan Anda, karena akan menyebabkan error saat node dijalankan. Modifikasi kode Anda berdasarkan contoh berikut.

        ##@resource_reference{"spark-examples_2.11-2.4.0.jar"}
        spark-submit --class org.apache.spark.examples.SparkPi --master yarn  spark-examples_2.11-2.4.0.jar 100
        Catatan
        • org.apache.spark.examples.SparkPi: main class pekerjaan dalam paket JAR yang telah dikompilasi.

        • spark-examples_2.11-2.4.0.jar: Nama resource EMR JAR yang telah Anda unggah.

        • Anda dapat menggunakan parameter lain seperti pada contoh atau menjalankan perintah spark-submit --help untuk melihat dokumentasi bantuan dan memodifikasi perintah sesuai kebutuhan.

        • Jika Anda perlu menggunakan parameter sederhana untuk perintah spark-submit di node Spark, Anda harus menambahkannya ke kode. Misalnya, tambahkan --executor-memory 2G.

        • Node Spark hanya mendukung pengiriman pekerjaan menggunakan YARN dalam mode kluster (cluster mode).

        • Untuk pekerjaan yang dikirim menggunakan spark-submit, atur deploy-mode ke cluster mode, bukan client mode.

    JAR 500 MB atau lebih

    1. Buat resource EMR JAR.

      Jika paket JAR berukuran 500 MB atau lebih, Anda tidak dapat mengunggahnya dari mesin lokal untuk membuat resource DataWorks. Sebagai gantinya, simpan paket JAR di HDFS pada EMR dan catat jalur penyimpanannya. Hal ini memungkinkan Anda mereferensikan jalur tersebut saat menjadwalkan pekerjaan Spark di DataWorks.

      1. Unggah paket JAR dari mesin Local Anda ke direktori tempat resource JAR disimpan. Untuk informasi selengkapnya, lihat Manajemen resource.

      2. Klik Upload untuk mengunggah resource JAR.

      3. Pilih Storage Path, Data Source, dan Resource Group.

      4. Klik Save.

      image

    2. Referensikan resource EMR JAR.

      Jika paket JAR disimpan di HDFS, referensikan dengan menentukan jalurnya di kode node EMR Spark.

      1. Klik dua kali node EMR Spark yang telah dibuat untuk membuka editor kode.

      2. Tulis perintah spark-submit. Contoh kode sebagai berikut.

        spark-submit --master yarn
        --deploy-mode cluster
        --name SparkPi
        --driver-memory 4G
        --driver-cores 1
        --num-executors 5
        --executor-memory 4G
        --executor-cores 1
        --class org.apache.spark.examples.JavaSparkPi
        hdfs:///tmp/jars/spark-examples_2.11-2.4.8.jar 100
        Catatan
        • hdfs:///tmp/jars/spark-examples_2.11-2.4.8.jar: Jalur aktual paket JAR di HDFS.

        • org.apache.spark.examples.JavaSparkPi: main class pekerjaan dalam paket JAR yang telah dikompilasi.

        • Parameter lainnya untuk kluster EMR dan harus dikonfigurasi berdasarkan pengaturan kluster aktual Anda. Anda juga dapat menjalankan perintah spark-submit --help untuk melihat dokumentasi bantuan dan memodifikasi perintah sesuai kebutuhan.

        • Jika Anda perlu menggunakan parameter sederhana untuk perintah spark-submit di node Spark, Anda harus menambahkannya ke kode. Misalnya, tambahkan --executor-memory 2G.

        • Node Spark hanya mendukung pengiriman pekerjaan menggunakan YARN dalam mode kluster (cluster mode).

        • Untuk pekerjaan yang dikirim menggunakan spark-submit, atur deploy-mode ke cluster mode, bukan client mode.

    Opsi 2: Langsung mereferensikan resource OSS

    Anda dapat langsung mereferensikan resource OSS di node menggunakan OSS REF. Saat node EMR dijalankan, DataWorks secara otomatis memuat resource OSS yang direferensikan untuk digunakan oleh pekerjaan. Metode ini sering digunakan untuk skenario seperti menjalankan dependensi JAR dalam pekerjaan EMR atau ketika pekerjaan EMR bergantung pada skrip.

    1. Kembangkan resource JAR.

      1. Persiapkan dependensi kode.

        Anda dapat menemukan dependensi kode yang diperlukan di jalur /usr/lib/emr/spark-current/jars/ pada node master kluster EMR Anda. Contoh berikut menggunakan Spark 3.4.2. Di proyek IDEA Anda, tambahkan dependensi pom yang ditentukan dan referensikan plugin terkait.

        Tambahkan dependensi pom

        <dependencies>
                <dependency>
                    <groupId>org.apache.spark</groupId>
                    <artifactId>spark-core_2.12</artifactId>
                    <version>3.4.2</version>
                </dependency>
                <!-- Apache Spark SQL -->
                <dependency>
                    <groupId>org.apache.spark</groupId>
                    <artifactId>spark-sql_2.12</artifactId>
                    <version>3.4.2</version>
                </dependency>
        </dependencies>

        Plugin Referensi

        <build>
                <sourceDirectory>src/main/scala</sourceDirectory>
                <testSourceDirectory>src/test/scala</testSourceDirectory>
                <plugins>
                    <plugin>
                        <groupId>org.apache.maven.plugins</groupId>
                        <artifactId>maven-compiler-plugin</artifactId>
                        <version>3.7.0</version>
                        <configuration>
                            <source>1.8</source>
                            <target>1.8</target>
                        </configuration>
                    </plugin>
                    <plugin>
                        <artifactId>maven-assembly-plugin</artifactId>
                        <configuration>
                            <descriptorRefs>
                                <descriptorRef>jar-with-dependencies</descriptorRef>
                            </descriptorRefs>
                        </configuration>
                        <executions>
                            <execution>
                                <id>make-assembly</id>
                                <phase>package</phase>
                                <goals>
                                    <goal>single</goal>
                                </goals>
                            </execution>
                        </executions>
                    </plugin>
                    <plugin>
                        <groupId>net.alchim31.maven</groupId>
                        <artifactId>scala-maven-plugin</artifactId>
                        <version>3.2.2</version>
                        <configuration>
                            <recompileMode>incremental</recompileMode>
                        </configuration>
                        <executions>
                            <execution>
                                <goals>
                                    <goal>compile</goal>
                                    <goal>testCompile</goal>
                                </goals>
                                <configuration>
                                    <args>
                                        <arg>-dependencyfile</arg>
                                        <arg>${project.build.directory}/.scala_dependencies</arg>
                                    </args>
                                </configuration>
                            </execution>
                        </executions>
                    </plugin>
                </plugins>
            </build>
      2. Kode berikut merupakan contoh.

        package com.aliyun.emr.example.spark
        
        import org.apache.spark.sql.SparkSession
        
        object SparkMaxComputeDemo {
          def main(args: Array[String]): Unit = {
            // Buat SparkSession.
            val spark = SparkSession.builder()
              .appName("HelloDataWorks")
              .getOrCreate()
        
            // Cetak versi Spark.
            println(s"Spark version: ${spark.version}")
          }
        }
      3. Setelah mengedit kode Scala, hasilkan paket JAR.

        Paket JAR yang dihasilkan dalam contoh ini adalah SparkWorkOSS-1.0-SNAPSHOT-jar-with-dependencies.jar.

    2. Unggah resource JAR.

      1. Setelah mengembangkan kode, login ke konsol OSS. Pada panel navigasi kiri, klik Bucket List.

      2. Klik nama bucket tujuan untuk membuka halaman File Management.

        Contoh ini menggunakan bucket onaliyun-bucket-2.

      3. Klik Create Directory untuk membuat direktori bagi resource JAR.

        Atur Directory Name menjadi emr/jars untuk membuat direktori tersebut.

      4. Unggah resource JAR ke direktori tersebut.

        Buka direktori tersebut dan klik Upload File. Pada bagian Files to Upload, klik Scan Files, pilih file SparkWorkOSS-1.0-SNAPSHOT-jar-with-dependencies.jar, lalu klik Upload File.

    3. Referensikan resource JAR.

      1. Edit kode untuk mereferensikan resource JAR.

        Pada halaman pengeditan node EMR Spark yang telah dibuat, edit kode untuk mereferensikan resource JAR tersebut.

        spark-submit --class com.aliyun.emr.example.spark.SparkMaxComputeDemo --master yarn ossref://onaliyun-bucket-2/emr/jars/SparkWorkOSS-1.0-SNAPSHOT-jar-with-dependencies.jar

        Tabel berikut menjelaskan parameter-parameter tersebut.

        Parameter

        Deskripsi

        class

        Nama lengkap main class yang akan dijalankan.

        master

        Mode di mana aplikasi Spark dijalankan.

        Jalur file ossref

        Formatnya adalah ossref://{endpoint}/{bucket}/{object}.

        • endpoint: Titik akhir publik untuk Object Storage Service (OSS). Jika dikosongkan, bucket OSS harus berada di wilayah yang sama dengan kluster EMR.

        • Bucket: Kontainer OSS yang digunakan untuk menyimpan objek. Setiap bucket memiliki nama unik. Login ke konsol OSS untuk melihat semua bucket di bawah akun saat ini.

        • object: Objek spesifik (nama file atau jalur) yang disimpan di bucket.

      2. Jalankan pekerjaan node EMR Spark.

        Setelah mengedit, klik ikon image dan pilih Serverless resource group yang telah Anda buat untuk menjalankan node EMR Spark. Setelah pekerjaan selesai, catat applicationId yang dicetak di konsol, misalnya application_1730367929285_xxxx.

      3. Lihat hasilnya.

        Buat node EMR Shell dan jalankan perintah yarn logs -applicationId application_1730367929285_xxxx pada node tersebut untuk melihat hasilnya.

        image

    (Opsional) Konfigurasi parameter lanjutan

    Anda dapat mengonfigurasi parameter yang dijelaskan dalam tabel berikut di bagian EMR Node Parameters and DataWorks Parameters pada panel di sisi kanan node.

    Catatan
    • Parameter lanjutan yang dapat Anda konfigurasi berbeda-beda tergantung jenis kluster EMR, seperti ditunjukkan dalam tabel berikut.

    • Anda dapat mengonfigurasi lebih banyak properti Spark open source di bagian EMR Node Parameters and Spark Parameters pada panel .

    DataLake dan kustom (ECS)

    Parameter lanjutan

    Deskripsi

    queue

    Antrian penjadwalan untuk mengirimkan pekerjaan. Nilai default adalah antrian default.

    Jika Anda mengonfigurasi YARN resource queue tingkat workspace saat mendaftarkan kluster EMR ke workspace DataWorks, logika berikut berlaku:

    • Jika Prioritize Global Configuration diatur ke Yes, DataWorks menggunakan antrian yang dikonfigurasi saat pendaftaran kluster EMR untuk menjalankan pekerjaan Spark.

    • Jika opsi ini tidak dipilih, DataWorks menggunakan antrian yang dikonfigurasi di node EMR Spark untuk menjalankan pekerjaan Spark.

    Untuk informasi selengkapnya tentang EMR YARN, lihat Konfigurasi antrian dasar. Untuk informasi selengkapnya tentang konfigurasi antrian saat pendaftaran kluster EMR, lihat Mengonfigurasi antrian YARN global.

    priority

    Prioritas pekerjaan. Nilai default adalah 1.

    FLOW_SKIP_SQL_ANALYZE

    Mode eksekusi untuk pernyataan SQL. Nilai yang valid:

    • true: Mengeksekusi beberapa pernyataan SQL sekaligus.

    • false (default): Mengeksekusi satu pernyataan SQL dalam satu waktu.

    Catatan

    Parameter ini hanya didukung untuk pengujian di lingkungan pengembangan data.

    Others

    • Anda dapat menambahkan parameter Spark kustom di pengaturan lanjutan. Misalnya, Anda dapat menambahkan spark.eventLog.enabled : false. DataWorks secara otomatis memformat parameter tersebut menjadi --conf key=value sebelum mengirimkannya ke kluster EMR.

    • Anda juga dapat mengonfigurasi parameter Spark global. Untuk informasi selengkapnya, lihat Mengonfigurasi parameter Spark global.

      Catatan

      Untuk mengaktifkan kontrol izin Ranger, tambahkan konfigurasi spark.hadoop.fs.oss.authorization.method=ranger di Mengonfigurasi parameter Spark global agar berlaku efektif.

    Spark (ACK)

    Parameter lanjutan

    Deskripsi

    FLOW_SKIP_SQL_ANALYZE

    Mode eksekusi untuk pernyataan SQL. Nilai yang valid:

    • true: Mengeksekusi beberapa pernyataan SQL sekaligus.

    • false: Mengeksekusi satu pernyataan SQL dalam satu waktu.

    Catatan

    Parameter ini hanya didukung untuk pengujian di lingkungan pengembangan data.

    Others

    • Anda dapat menambahkan parameter Spark kustom di pengaturan lanjutan. Misalnya, Anda dapat menambahkan spark.eventLog.enabled : false. DataWorks secara otomatis memformat parameter tersebut menjadi --conf key=value sebelum mengirimkannya ke kluster EMR.

    • Anda juga dapat mengonfigurasi parameter Spark global. Untuk informasi selengkapnya, lihat Mengonfigurasi parameter Spark global.

    Hadoop (ECS)

    Parameter lanjutan

    Deskripsi

    queue

    Antrian penjadwalan untuk mengirimkan pekerjaan. Antrian default adalah `default`.

    Jika Anda mengonfigurasi YARN Resource Queue tingkat workspace saat mendaftarkan kluster EMR ke workspace DataWorks:

    • Jika Anda mengaktifkan Global Settings Take Precedence, antrian yang dikonfigurasi saat pendaftaran kluster EMR digunakan untuk tugas Spark.

    • Jika Anda tidak mengaktifkan opsi ini, antrian ditentukan oleh konfigurasi node EMR Spark saat tugas Spark dijalankan.

    Untuk informasi selengkapnya tentang EMR YARN, lihat Konfigurasi antrian dasar. Untuk informasi selengkapnya tentang konfigurasi antrian saat pendaftaran kluster EMR, lihat Menetapkan antrian sumber daya YARN global.

    priority

    Prioritas pekerjaan. Nilai default adalah 1.

    FLOW_SKIP_SQL_ANALYZE

    Mode eksekusi untuk pernyataan SQL. Nilai yang valid:

    • true: Mengeksekusi beberapa pernyataan SQL sekaligus.

    • false: Mengeksekusi satu pernyataan SQL dalam satu waktu.

    Catatan

    Parameter ini hanya didukung untuk pengujian di lingkungan pengembangan data.

    USE_GATEWAY

    Menentukan apakah pekerjaan node dikirim melalui gateway cluster. Nilai yang valid:

    • true: Mengirim pekerjaan melalui gateway cluster.

    • false: Tidak mengirim pekerjaan melalui gateway cluster. Pekerjaan dikirim ke node header secara default.

    Catatan

    Jika kluster node tidak dikaitkan dengan gateway cluster, mengatur parameter ini ke true akan menyebabkan pengiriman pekerjaan gagal.

    Others

    • Anda dapat menambahkan parameter Spark kustom di pengaturan lanjutan. Misalnya, Anda dapat menambahkan spark.eventLog.enabled : false. DataWorks secara otomatis memformat parameter tersebut menjadi --conf key=value sebelum mengirimkannya ke kluster EMR.

    • Anda juga dapat mengonfigurasi parameter Spark global. Untuk informasi selengkapnya, lihat Mengonfigurasi parameter Spark global.

      Catatan

      Untuk mengaktifkan kontrol izin Ranger, tambahkan konfigurasi spark.hadoop.fs.oss.authorization.method=ranger di Mengonfigurasi parameter Spark global agar berlaku efektif.

    EMR Serverless Spark

    Untuk informasi tentang cara mengatur parameter terkait, lihat Mengatur parameter untuk mengirimkan pekerjaan Spark.

    Parameter lanjutan

    Deskripsi

    queue

    Antrian penjadwalan untuk mengirimkan pekerjaan. Nilai default adalah antrian dev_queue.

    priority

    Prioritas pekerjaan. Nilai default adalah 1.

    FLOW_SKIP_SQL_ANALYZE

    Mode eksekusi untuk pernyataan SQL. Nilai yang valid:

    • true: Mengeksekusi beberapa pernyataan SQL sekaligus.

    • false: Mengeksekusi satu pernyataan SQL dalam satu waktu.

    Catatan

    Parameter ini hanya didukung untuk pengujian di lingkungan pengembangan data.

    SERVERLESS_RELEASE_VERSION

    Versi mesin Spark. Secara default, sistem menggunakan Default Engine Version yang dikonfigurasi untuk kluster di Cluster Management di Management Center. Untuk menggunakan versi mesin yang berbeda untuk pekerjaan tertentu, Anda dapat mengganti nilai default di sini.

    SERVERLESS_QUEUE_NAME

    Menentukan antrian sumber daya. Secara default, sistem menggunakan Default Resource Queue yang dikonfigurasi untuk kluster di Cluster Management di Management Center. Jika Anda perlu mengisolasi atau mengelola sumber daya, Anda dapat menentukan antrian berbeda di sini. Untuk informasi selengkapnya, lihat Mengelola antrian sumber daya.

    Others

    • Anda dapat menambahkan parameter Spark kustom di pengaturan lanjutan. Misalnya, Anda dapat menambahkan spark.eventLog.enabled : false. DataWorks secara otomatis memformat parameter tersebut menjadi --conf key=value sebelum mengirimkannya ke kluster EMR.

    • Anda juga dapat mengonfigurasi parameter Spark global. Untuk informasi selengkapnya, lihat Mengonfigurasi parameter Spark global.

    Jalankan pekerjaan Spark

    1. Pada bagian Run Configuration Compute Resource, konfigurasikan Compute Resource dan DataWorks Resource Group.

      Catatan
      • Anda juga dapat mengonfigurasi Scheduling CU berdasarkan sumber daya yang diperlukan untuk eksekusi pekerjaan. Nilai CU default adalah 0.25.

      • Untuk mengakses sumber data di jaringan publik atau VPC, Anda harus menggunakan resource group penjadwalan yang telah memiliki konektivitas ke sumber data tersebut. Untuk informasi selengkapnya, lihat Solusi konektivitas jaringan.

    2. Pada kotak dialog parameter di bilah alat, pilih sumber data yang sesuai dan klik Run untuk menjalankan pekerjaan Spark.

  2. Untuk menjalankan pekerjaan node secara berkala, konfigurasikan informasi penjadwalan sesuai kebutuhan bisnis Anda. Untuk informasi selengkapnya, lihat Konfigurasi penjadwalan node.

    Catatan

    Untuk menyesuaikan lingkungan komponen, buat dataworks_emr_base_task_pod kustom berdasarkan image resmi dan Custom images, serta gunakan image tersebut di Data Development.

    Sebagai contoh, Anda dapat mengganti paket JAR Spark atau menambahkan dependensi pada libraries, files, atau jar packages tertentu saat membuat custom image.

  3. Setelah mengonfigurasi node, Anda harus menerbitkannya (publish). Untuk informasi selengkapnya, lihat Penerapan node dan alur kerja.

  4. Setelah menerbitkan node, Anda dapat melihat status tugas terjadwalnya di Operation Center. Untuk informasi selengkapnya, lihat Memulai Operation Center.

FAQ

  • Kegagalan Spark-submit dengan Kerberos

  • T: Mengapa terjadi error timeout koneksi saat saya menjalankan node?

    J: Verifikasi Konektivitas Jaringan antara Resource Group dan Cluster. Buka halaman sumber daya komputasi, temukan resource tersebut, lalu klik Initialize Resource. Pada kotak dialog yang muncul, klik Re-initialize dan pastikan inisialisasi berhasil.

    image

    image

Dokumen terkait