全部产品
Search
文档中心

E-MapReduce:Memulai pengembangan SparkSQL

更新时间:Nov 10, 2025

EMR Serverless Spark memungkinkan Anda mengedit dan menjalankan pekerjaan menggunakan kode SQL. Topik ini menjelaskan cara membuat, memulai, dan memelihara pekerjaan SQL.

Prasyarat

Langkah 1: Membuat dan menerbitkan pekerjaan pengembangan

Penting

Pekerjaan harus diterbitkan sebelum dapat digunakan dalam alur kerja.

  1. Buka halaman Pengembangan Data.

    1. Masuk ke Konsol EMR.

    2. Di panel navigasi kiri, pilih EMR Serverless > Spark.

    3. Pada halaman Spark, klik nama ruang kerja yang dituju.

    4. Pada halaman EMR Serverless Spark, di panel navigasi kiri, klik Data Development.

  2. Buat pekerjaan users_task.

    1. Pada tab Development, klik ikon image.

    2. Pada kotak dialog Create, masukkan nama, misalnya users_task, biarkan jenis tetap sebagai default SparkSQL, lalu klik OK.

    3. Salin kode berikut ke tab Spark SQL baru (users_task).

      CREATE TABLE IF NOT EXISTS students (
        name VARCHAR(64),          
        address VARCHAR(64)       
      )
      USING PARQUET  
      PARTITIONED BY (data_date STRING)              
      OPTIONS (
        'path'='oss://<bucketname>/path/'
      );
      
      
      INSERT OVERWRITE TABLE students PARTITION (data_date = '${ds}') VALUES
        ('Ashua Hill', '456 Erica Ct, Cupertino'),
        ('Brian Reed', '723 Kern Ave, Palo Alto');

      Tabel berikut menjelaskan variabel tanggal yang didukung. Nilai default adalah hari sebelumnya.

      Variabel

      Jenis data

      Deskripsi

      {data_date}

      str

      Variabel yang menunjukkan tanggal. Formatnya adalah YYYY-MM-DD.

      Contoh: 2023-09-18.

      {ds}

      str

      {dt}

      str

      {data_date_nodash}

      str

      Variabel yang menunjukkan tanggal. Formatnya adalah YYYYMMDD.

      Contoh: 20230918.

      {ds_nodash}

      str

      {dt_nodash}

      str

      {ts}

      str

      Variabel yang menunjukkan stempel waktu. Formatnya adalah YYYY-MM-DDTHH:MM:SS.

      Contoh: 2023-09-18T16:07:43.

      {ts_nodash}

      str

      Variabel yang menunjukkan stempel waktu. Formatnya adalah YYYYMMDDHHMMSS.

      Contoh: 20230918160743.

    4. Dari daftar drop-down database dan sesi, pilih database dan instans sesi yang sedang Berjalan.

      Anda juga dapat memilih Create SQL Session dari daftar drop-down untuk membuat sesi baru. Untuk informasi selengkapnya, lihat Mengelola sesi SQL.

    5. Klik Run untuk mengeksekusi pekerjaan.

      Hasil ditampilkan pada tab Execution Results. Jika terjadi pengecualian, Anda dapat melihat detailnya pada tab Execution Issues.

  3. Terbitkan pekerjaan users_task.

    Catatan

    Parameter yang ditentukan untuk suatu pekerjaan akan diterbitkan bersamanya dan digunakan saat pekerjaan tersebut dijalankan dalam pipeline. Parameter sesi digunakan saat pekerjaan dijalankan di editor SQL.

    1. Pada tab Spark SQL baru, klik Publish.

    2. Pada kotak dialog, masukkan deskripsi untuk penerbitan tersebut lalu klik OK.

  4. Buat pekerjaan users_count.

    1. Pada tab Development, klik ikon image.

    2. Pada kotak dialog Create, masukkan nama seperti users_count, terima jenis default SparkSQL, lalu klik OK.

    3. Salin kode berikut ke tab pekerjaan Spark SQL baru (users_count).

      SELECT COUNT(1) FROM students;
    4. Dari daftar drop-down database dan sesi, pilih database dan instans sesi yang sedang Berjalan.

      Anda juga dapat memilih Create SQL Session dari daftar drop-down untuk membuat sesi baru. Untuk informasi selengkapnya tentang manajemen sesi, lihat Mengelola sesi SQL.

    5. Klik Run untuk mengeksekusi pekerjaan.

      Tab Execution Results menampilkan hasilnya. Jika terjadi pengecualian, Anda dapat melihatnya pada tab Execution Issues.

  5. Terbitkan pekerjaan users_count.

    Catatan

    Parameter yang ditentukan untuk suatu pekerjaan akan diterbitkan bersamanya dan digunakan saat pekerjaan tersebut dijalankan dalam pipeline. Parameter sesi digunakan saat pekerjaan dijalankan di editor SQL.

    1. Pada tab pekerjaan Spark SQL baru, klik Publish.

    2. Pada kotak dialog yang muncul, masukkan deskripsi untuk penerbitan tersebut lalu klik OK.

Langkah 2: Membuat alur kerja dan nodenya

  1. Di panel navigasi kiri, klik Workflows.

  2. Pada halaman Workflows, klik Create Workflow.

  3. Pada panel Create Workflow, masukkan Workflow Name seperti spark_workflow_task, lalu klik Next.

    Anda dapat mengonfigurasi parameter pada bagian Other Settings sesuai kebutuhan. Untuk informasi selengkapnya tentang parameter tersebut, lihat Mengelola alur kerja.

  4. Tambahkan node users_task.

    1. Pada kanvas node baru, Anda dapat mengklik Add Node.

    2. Pada panel Add Node, pilih pekerjaan users_task yang telah diterbitkan dari daftar drop-down Source File Path, lalu klik Save.

  5. Tambahkan node users_count.

    1. Klik Add Node.

    2. Pada panel Add Node, pilih pekerjaan users_count yang telah diterbitkan dari daftar drop-down Source File Path dan users_task dari daftar drop-down Upstream Node, lalu klik Save.

  6. Pada kanvas node baru, klik Publish Workflow.

    image

  7. Pada kotak dialog Publish, masukkan deskripsi untuk penerbitan tersebut lalu klik OK.

Langkah 3: Menjalankan alur kerja

  1. Pada halaman Workflows, di kolom Workflow Name, klik nama alur kerja baru (misalnya, spark_workflow_task).

  2. Pada halaman Workflow Instances, klik Run.

    Catatan

    Setelah Anda mengonfigurasi siklus penjadwalan, Anda juga dapat memulai penjadwalan pada halaman Workflows dengan mengaktifkan sakelar di sebelah kiri.

  3. Pada kotak dialog Run Workflow, klik OK.

Langkah 4: Melihat status instans

  1. Pada halaman Workflows, klik alur kerja yang dituju, seperti spark_workflow_task.

  2. Pada halaman Workflow Instances, Anda dapat melihat semua instans alur kerja serta waktu proses dan status masing-masing.

    image.png

  3. Klik Workflow Run ID di bagian Workflow Instances atau tab Workflow Instance Graph untuk melihat graf instans alur kerja.

  4. Klik instans node yang dituju. Pada kotak dialog informasi node yang muncul, Anda dapat melakukan operasi atau melihat informasi sesuai kebutuhan.

    Untuk informasi selengkapnya tentang operasi terkait dan detailnya, lihat Melihat instans node.

    image.png

    Sebagai contoh, klik Spark UI untuk membuka halaman Pekerjaan Spark, tempat Anda dapat melihat informasi real-time tentang tugas Spark.

    image

  5. Klik Job Run ID untuk membuka halaman Job History. Pada halaman ini, Anda dapat melihat metrik, diagnostik, dan log.

    image

Langkah 5: O&M Alur Kerja

Pada halaman Workflows, klik nama alur kerja yang dituju untuk membuka halaman Workflow Instances. Anda dapat:

  • Di bagian Workflow Information, Anda dapat mengedit beberapa parameter.

  • Bagian Workflow Instances mencantumkan semua instans alur kerja. Klik Workflow Run ID untuk membuka graf instans alur kerja yang sesuai.

    image.png

Langkah 6: Melihat data

  1. Di panel navigasi kiri, klik Data Development.

  2. Buat pekerjaan pengembangan SparkSQL. Kemudian, masukkan dan jalankan perintah berikut untuk melihat detail tabel:

    SELECT * FROM students;

    Informasi berikut dikembalikan:

    image.png

Dokumen terkait