All Products
Search
Document Center

AnalyticDB:Gunakan Notebook untuk Mengembangkan Pekerjaan Spark SQL

Last Updated:Jul 02, 2025

Notebook adalah platform analisis dan pengembangan data interaktif yang menyediakan fitur seperti pengeditan pekerjaan, analisis data, dan visualisasi data. Jika Anda ingin menggunakan Notebook untuk mengembangkan pekerjaan Spark SQL, Anda dapat menggunakan fitur Notebook dari Data Management (DMS) untuk menyelesaikan pengembangan pekerjaan.

Prasyarat

Batasan

Fitur Notebook hanya didukung di wilayah China (Hangzhou).

Prosedur

  1. Buat dan masuk ke ruang kerja.

    1. Masuk ke Konsol DMS V5.0.
    2. Pindahkan pointer ke ikon 2023-01-28_15-57-17.png di sudut kiri atas dan pilih All Features > Data+AI > Notebook.

      Catatan

      Jika Anda menggunakan konsol DMS dalam mode normal, pilih Data+AI > Notebook di bilah navigasi atas.

    3. Klik Create Workspace. Dalam kotak dialog Buat Ruang Kerja, konfigurasikan parameter Workspace Name dan Region, lalu klik OK.

    4. Klik Go to Workspace di kolom Actions ruang kerja untuk masuk ke ruang kerja.

  2. (Opsional) Tambahkan anggota ruang kerja. Jika sebuah ruang kerja memiliki banyak pengguna, Anda harus melakukan langkah ini untuk memberikan peran yang berbeda kepada setiap pengguna.

  3. Konfigurasikan penyimpanan kode.

    1. Di tab image, klik Storage Management.

    2. Konfigurasikan path OSS di bagian Code Storage.

  4. Tambahkan sumber daya.

    1. Di tab image, klik Resource Configuration.

    2. Klik Tambah Sumber Daya. Dalam panel Tambah Sumber Daya, konfigurasikan parameter yang dijelaskan dalam tabel berikut.

      Parameter

      Diperlukan

      Deskripsi

      Resource Name

      Ya

      Nama sumber daya. Anda dapat memasukkan nama kustom.

      Resource Introduction

      Ya

      Deskripsi sumber daya. Anda dapat memasukkan tujuan dari sumber daya tersebut.

      Image

      Ya

      Hanya mendukung Spark3.5+Python3.9.

      Instansi AnalyticDB

      Ya

      ID kluster AnalyticDB for MySQL.

      Catatan

      Jika Anda tidak dapat menemukan kluster yang diinginkan, periksa apakah kluster tersebut telah didafarkan dengan DMS.

      AnalyticDB Resource Group

      Ya

      Nama grup sumber daya pekerjaan.

      Executor Spec

      Ya

      Spesifikasi sumber daya Spark executor. Dalam contoh ini, spesifikasi medium default digunakan.

      Jenis sumber daya yang berbeda sesuai dengan spesifikasi yang berbeda. Untuk informasi lebih lanjut, lihat kolom Type di topik parameter konfigurasi aplikasi Spark.

      Max Executors

      Min Executors

      Ya

      Jumlah Spark executor.

      Setelah Anda memilih image Spark3.5+Python3.9, parameter Min Executors secara otomatis disetel ke 2, dan parameter Max Executors secara otomatis disetel ke 8.

      Notebook Spec

      Ya

      Spesifikasi Notebook. Dalam contoh ini, General_Tiny_v1 (1 core, 4 GB) digunakan.

      VPC ID

      Ya

      VPC tempat kluster AnalyticDB for MySQL berada, yang memastikan bahwa Notebook dapat berkomunikasi dengan kluster AnalyticDB for MySQL.

      Penting

      Jika Anda mengubah VPC dan vSwitch kluster AnalyticDB for MySQL, Anda harus mengubah parameter VPC ID dan VSwitch ID sumber daya ke VPC dan vSwitch baru. Jika tidak, pengiriman pekerjaan mungkin gagal.

      Zone ID

      Ya

      Zona tempat kluster AnalyticDB for MySQL berada.

      VSwitch ID

      Ya

      vSwitch tempat kluster AnalyticDB for MySQL terhubung.

      Security Group ID

      Ya

      Grup keamanan yang tersedia, yang memastikan bahwa Notebook dapat berkomunikasi dengan kluster AnalyticDB for MySQL.

      Release Resource

      Ya

      Periode waktu sumber daya tetap idle sebelum dirilis secara otomatis.

      Dependent Jars

      Tidak

      Path penyimpanan OSS paket JAR. Tentukan parameter ini hanya jika Anda mengirimkan pekerjaan dalam Python dan menggunakan paket JAR.

      SparkConf

      Tidak

      Parameter konfigurasi yang mirip dengan Apache Spark. Parameter harus dalam format key: value. Untuk informasi tentang parameter konfigurasi yang berbeda dari Apache Spark atau parameter konfigurasi khusus untuk AnalyticDB for MySQL, lihat parameter konfigurasi aplikasi Spark.

    3. Klik Save.

    4. Klik Start di kolom Actions sumber daya untuk memulai sumber daya.

  5. Inisialisasi data.

    1. Pindahkan pointer ke ikon 2023-01-28_15-57-17.png di sudut kiri atas dan pilih All Features > Data Assets > Instances.

    2. Klik +New. Dalam kotak dialog Add Instance, konfigurasikan parameter yang dijelaskan dalam tabel berikut.

      Parameter

      Deskripsi

      Data Source

      Di tab Alibaba Cloud, pilih OSS.

      Basic Information

      File and Log Storage

      Parameter ini secara otomatis disetel ke OSS.

      Instance Region

      Wilayah tempat kluster AnalyticDB for MySQL berada.

      Connection Method

      Parameter ini secara otomatis disetel ke Connection String Address.

      Connection String Address

      Setel nilai menjadi oss-cn-hangzhou.aliyuncs.com.

      Bucket

      Nama bucket.

      Access mode

      Metode akses. Dalam contoh ini, Security Hosting - Manual digunakan.

      AccessKey ID

      ID AccessKey akun Alibaba Cloud atau pengguna RAM yang memiliki izin untuk mengakses OSS.

      Untuk informasi tentang cara mendapatkan ID AccessKey dan Rahasia AccessKey, lihat Akun dan Izin.

      AccessKey Secret

      Rahasia AccessKey akun Alibaba Cloud atau pengguna RAM yang memiliki izin untuk mengakses OSS.

      Untuk informasi tentang cara mendapatkan ID AccessKey dan Rahasia AccessKey, lihat Akun dan Izin.

      Advanced Information

      Parameter opsional. Untuk informasi lebih lanjut, lihat bagian "Informasi Lanjutan" dari topik Register an Alibaba Cloud database instance.

    3. Setelah Anda mengonfigurasi parameter sebelumnya, klik Test Connection di pojok kiri bawah.

      Catatan

      Jika tes koneksi gagal, periksa informasi instansi berdasarkan pesan kesalahan.

    4. Setelah pesan Successful connection ditampilkan, klik Submit.

    5. Masuk ke ruang kerja dan klik tab image.

    6. Di tab Data Lake Data, klik Add OSS dan pilih bucket yang Anda tentukan di Langkah b.

  6. Buat sebuah notebook.

    Di tab image, klik ikon image dan pilih Notebook.

    image

  7. Kembangkan pekerjaan Spark SQL di halaman Notebook.

    Catatan

    Untuk informasi tentang tombol di halaman Notebook, lihat bagian "Antarmuka Pengguna Notebook" dari topik Gunakan Notebook untuk Menanyakan dan Menganalisis Data.

    1. Jalankan perintah berikut untuk mengunduh dependensi Python:

      pip install delta
    2. Ganti tipe sel ke SQL dan jalankan pernyataan berikut untuk membuat database.

      Catatan

      Database db_delta yang dibuat di Langkah b dan tabel eksternal sample_data yang dibuat di Langkah c secara otomatis ditampilkan di kluster AnalyticDB for MySQL. Anda dapat menganalisis tabel sample_data di konsol AnalyticDB for MySQL.

      image

      CREATE DATABASE db_delta 
      LOCATION 'oss://testBucketName/db_delta/';    -- Tentukan path penyimpanan data di database db_delta.
    3. Ganti tipe sel ke Code dan jalankan kode berikut untuk membuat tabel eksternal bernama sample_data dan menyisipkan data ke dalam tabel. Data tabel eksternal sample_data disimpan di path OSS yang ditentukan di Langkah b.

      # -*- coding: utf-8 -*-
      
      import pyspark
      from delta import *
      from pyspark.sql.types import *
      from pyspark.sql.functions import *
      
      
      print("Memulai pembuatan tabel Delta")
      
      data = [
          ("Robert", "Baratheon", "Baratheon", "Storms End", 48),
          ("Eddard", "Stark", "Stark", "Winterfell", 46),
          ("Jamie", "Lannister", "Lannister", "Casterly Rock", 29),
          ("Robert", "Baratheon", "Baratheon", "Storms End", 48),
          ("Eddard", "Stark", "Stark", "Winterfell", 46),
          ("Jamie", "Lannister", "Lannister", "Casterly Rock", 29),
          ("Robert", "Baratheon", "Baratheon", "Storms End", 48),
          ("Eddard", "Stark", "Stark", "Winterfell", 46),
          ("Jamie", "Lannister", "Lannister", "Casterly Rock", 29)
              ]
      
      schema = StructType([
          StructField("firstname", StringType(), True),
          StructField("lastname", StringType(), True),
          StructField("house", StringType(), True),
          StructField("location", StringType(), True),
          StructField("age", IntegerType(), True)
      ])
      
      sample_dataframe = spark.createDataFrame(data=data, schema=schema)
      
      sample_dataframe.delta').mode("overwrite").option('mergeSchema','true').saveAsTable("db_delta.sample_data")
    4. Ganti tipe sel ke SQL dan jalankan pernyataan berikut untuk menanyakan data dari tabel sample_data:

      SELECT * FROM db_delta.sample_data;
  8. Untuk menggunakan Spark SQL guna menganalisis tabel sample_data di konsol AnalyticDB for MySQL, lakukan langkah-langkah berikut:

    1. Masuk ke Konsol AnalyticDB for MySQL. Di sudut kiri atas konsol, pilih wilayah. Di panel navigasi di sebelah kiri, klik Clusters. Temukan kluster yang ingin Anda kelola dan klik ID kluster.

    2. Di panel navigasi di sebelah kiri, pilih Job Development > SQL Development. Di halaman yang muncul, pilih mesinSpark dan grup sumber daya interaktif.

    3. Tanyakan data dari tabel sample_data.

      SELECT * FROM db_delta.sample_data LIMIT 1000;

Referensi

Notebook: menjelaskan informasi tentang Notebook.