全部产品
Search
文档中心

DataWorks:Pemrosesan data

更新时间:Jul 17, 2025

Topik ini menjelaskan cara menggunakan node MaxCompute di DataWorks untuk memproses data dalam tabel ods_user_info_d_odps dan tabel ods_raw_log_d_odps yang telah disinkronkan ke MaxCompute guna mendapatkan data profil pengguna. Tabel ods_user_info_d_odps menyimpan informasi dasar pengguna, sedangkan tabel ods_raw_log_d_odps menyimpan log akses situs web pengguna. Topik ini membantu Anda memahami cara menghitung dan menganalisis data yang disinkronkan dengan menggunakan DataWorks dan MaxCompute untuk menyelesaikan pemrosesan data sederhana dalam gudang data.

Prasyarat

Data yang diperlukan telah disinkronkan. Untuk informasi lebih lanjut, lihat Sinkronisasi data.

Langkah 1: Membangun tautan pemrosesan data

Dalam fase sinkronisasi data, data yang diperlukan telah disinkronkan ke MaxCompute. Langkah selanjutnya adalah memproses data lebih lanjut untuk menghasilkan data profil pengguna dasar.

  1. Masuk ke konsol DataWorks dan buka panel DATA STUDIO di halaman Data Studio. Di bagian Workspace Directories dari panel DATA STUDIO, temukan alur kerja yang telah dipersiapkan dan klik nama alur kerja untuk masuk ke tab konfigurasi alur kerja.

  2. Dalam tutorial ini, Anda perlu membuat tiga node SQL MaxCompute. Tabel berikut mencantumkan nama-nama node yang digunakan dalam tutorial ini beserta fungsionalitasnya.

    Jenis Node

    Nama Node

    Fungsionalitas Node

    imageMaxCompute SQL

    dwd_log_info_di_odps

    Node ini digunakan untuk membagi data dalam tabel ods_raw_log_d_odps dan menyinkronkan data tersebut ke beberapa bidang di tabel

    dwd_log_info_di_odps berdasarkan fungsi bawaan atau fungsi yang ditentukan pengguna (UDF) bernama getregion.

    imageMaxCompute SQL

    dws_user_info_all_di_odps

    Node ini digunakan untuk menggabungkan data dalam

    tabel informasi pengguna dasar ods_user_info_d_odps dan tabel data log yang diproses dwd_log_info_di_odps

    dan menyinkronkan hasil agregasi ke tabel

    dws_user_info_all_di_odps.

    imageMaxCompute SQL

    ads_user_info_1d_odps

    Node ini digunakan untuk memproses lebih lanjut data dalam tabel

    dws_user_info_all_di_odps dan menyinkronkan data yang diproses ke tabel

    ads_user_info_1d_odps untuk menghasilkan profil pengguna dasar.

  3. Gambarlah garis untuk mengonfigurasi node leluhur untuk node SQL MaxCompute, seperti yang ditunjukkan pada gambar berikut.

    Catatan

    Anda dapat menggambar garis untuk mengonfigurasi dependensi penjadwalan untuk node dalam alur kerja. Anda juga dapat menggunakan fitur penguraian otomatis untuk memungkinkan sistem secara otomatis mengidentifikasi dependensi penjadwalan antara node. Dalam tutorial ini, dependensi penjadwalan antara node dikonfigurasikan dengan menggambar garis. Untuk informasi tentang fitur penguraian otomatis, lihat Metode 1: Konfigurasikan dependensi penjadwalan berdasarkan lineage dalam kode suatu node.

Langkah 2: Unggah sumber daya dan daftarkan UDF

Untuk memastikan bahwa data dapat diproses sesuai harapan, Anda harus mendaftarkan UDF MaxCompute bernama getregion untuk membagi struktur data log yang disinkronkan ke MaxCompute saat Anda menyinkronkan data ke dalam tabel.

Penting
  • Dalam tutorial ini, sumber daya yang diperlukan disediakan untuk fungsi yang digunakan untuk mengonversi alamat IP menjadi wilayah. Anda hanya perlu mengunduh sumber daya ke mesin lokal Anda, lalu mengunggah sumber daya tersebut ke ruang kerja DataWorks yang diinginkan sebelum mendaftarkan fungsi di DataWorks.

  • Sumber daya alamat IP untuk fungsi ini hanya digunakan dalam tutorial ini. Jika Anda perlu mengimplementasikan pemetaan antara alamat IP dan lokasi geografis dalam skenario bisnis formal, Anda harus mencari layanan konversi alamat IP profesional dari situs web alamat IP khusus.

Unggah sumber daya (ip2region.jar)

  1. Unduh paket ip2region.jar.

    Catatan

    Paket ip2region.jar hanya digunakan dalam tutorial ini.

  2. Masuk ke konsol DataWorks dan buka halaman Data Studio. Di panel navigasi sisi kiri halaman Data Studio, klik ikon image. Di panel RESOURCE MANAGEMENT, klik ikon image dan pilih Create Resource > MaxCompute Jar. Dalam kotak dialog Buat Sumber Daya atau Fungsi, konfigurasikan parameter Nama dan klik OK.

    Catatan

    Nama sumber daya dapat berbeda dari paket yang ingin Anda unggah.

  3. Atur parameter File Source ke Lokal, klik Unggah di sebelah parameter Konten File, lalu pilih paket ip2region.jar yang diunduh ke mesin lokal Anda.

  4. Pilih sumber daya komputasi MaxCompute yang terkait dengan ruang kerja saat Anda menyiapkan lingkungan dari daftar drop-down Sumber Data.

  5. Di bilah alat atas tab konfigurasi, klik Save lalu klik Deploy untuk menerapkan sumber daya ke proyek MaxCompute di lingkungan pengembangan dan produksi dengan mengikuti petunjuk di layar.

Daftarkan UDF (getregion)

  1. Masuk ke konsol DataWorks dan buka halaman Data Studio. Di panel navigasi sisi kiri halaman Data Studio, klik ikon image. Di panel RESOURCE MANAGEMENT, klik ikon image dan pilih Create Function > MaxCompute Function. Dalam kotak dialog Buat Sumber Daya atau Fungsi, konfigurasikan parameter Nama. Dalam tutorial ini, parameter Nama diatur ke getregion.

  2. Di tab konfigurasi yang muncul, konfigurasikan parameter. Tabel berikut menjelaskan parameter yang harus Anda konfigurasikan dalam tutorial ini. Pertahankan nilai default untuk parameter lainnya.

    Parameter

    Deskripsi

    Function Type

    Pilih OTHER.

    Data Source

    Pilih sumber daya komputasi MaxCompute yang terkait dengan ruang kerja saat Anda menyiapkan lingkungan.

    Class Name

    Masukkan org.alidata.odps.udf.Ip2Region.

    Resource List

    Pilih ip2region.jar.

    Description

    Masukkan deskripsi. Dalam tutorial ini, deskripsi berikut dimasukkan: Konversi alamat IP menjadi wilayah.

    Command Syntax

    Masukkan getregion('ip').

    Parameter Description

    Masukkan deskripsi parameter. Dalam contoh ini, deskripsi parameter berikut dimasukkan: Alamat IP.

  3. Di bilah alat atas tab konfigurasi, klik Simpan lalu klik Deploy untuk menerapkan fungsi ke proyek MaxCompute di lingkungan pengembangan dan produksi dengan mengikuti petunjuk yang ditampilkan.

Langkah 3: Konfigurasikan node SQL MaxCompute

Untuk melakukan pemrosesan data, Anda harus menjadwalkan node SQL MaxCompute terkait untuk mengimplementasikan setiap lapisan logika pemrosesan. Dalam tutorial ini, kode sampel lengkap untuk pemrosesan data disediakan. Anda harus mengonfigurasi kode secara terpisah untuk node dwd_log_info_di_odps, dws_user_info_all_di_odps, dan ads_user_info_1d_odps.

Konfigurasikan node dwd_log_info_di_odps

Dalam kode sampel untuk node ini, fungsi yang terdaftar digunakan untuk memproses kode SQL untuk bidang dalam tabel leluhur ods_raw_log_d_odps dan menyinkronkan data dalam tabel ke tabel dwd_log_info_di_odps.

  1. Di panel navigasi sisi kiri halaman Data Studio, klik ikon image. Di bagian Workspace Directories dari panel DATA STUDIO, temukan alur kerja yang dibuat dan klik nama alur kerja untuk pergi ke kanvas alur kerja.

  2. Di kanvas alur kerja, gerakkan pointer di atas node dwd_log_info_di_odps dan klik Buka Node.

  3. Salin pernyataan SQL berikut dan tempelkan di editor kode:

    Kode sampel untuk node dwd_log_info_di_odps

    -- Buat tabel dwd_log_info_di_odps.
    CREATE TABLE IF NOT EXISTS dwd_log_info_di_odps (
     ip STRING COMMENT 'Alamat IP',
     uid STRING COMMENT 'ID Pengguna',
     time STRING COMMENT 'Waktu dalam format yyyymmddhh:mi:ss',
     status STRING COMMENT 'Kode status yang dikembalikan oleh server',
     bytes STRING COMMENT 'Jumlah byte yang dikembalikan ke klien',
     region STRING COMMENT 'Wilayah, yang diperoleh berdasarkan alamat IP',
     method STRING COMMENT 'Tipe permintaan HTTP',
     url STRING COMMENT 'URL',
     protocol STRING COMMENT 'Nomor versi HTTP',
     referer STRING COMMENT 'URL sumber',
     device STRING COMMENT 'Tipe terminal',
     identity STRING COMMENT 'Tipe akses, yang bisa crawler, feed, user, atau unknown'
    )
    PARTITIONED BY (
     dt STRING
    )
    LIFECYCLE 14;
    
    -- Proses data.
    -- Skenario: Pernyataan SQL berikut menggunakan fungsi getregion untuk mengurai alamat IP dalam data log mentah, dan menggunakan ekspresi reguler untuk membagi data mentah untuk menganalisis bidang dan menulis bidang ke tabel dwd_log_info_di_odps.
    --      Tutorial ini telah menyiapkan fungsi getregion untuk Anda guna mengonversi alamat IP menjadi wilayah.
    -- Catatan:
    --     1.Sebelum Anda dapat menggunakan UDF pada node DataWorks, Anda harus mengunggah sumber daya yang diperlukan untuk mendaftarkan fungsi ke DataWorks dan menggunakan sumber daya tersebut untuk mendaftarkan fungsi secara visual.
    --        Dalam tutorial ini, sumber daya ip2region.jar digunakan untuk mendaftarkan fungsi getregion.
    --     2.Anda dapat mengonfigurasi parameter penjadwalan untuk node di DataWorks untuk menyinkronkan data tambahan ke partisi terkait di tabel yang diinginkan setiap hari dalam skenario penjadwalan.
    --        Dalam skenario pengembangan aktual, Anda dapat mendefinisikan variabel dalam kode node dalam format ${Nama Variabel} dan menetapkan parameter penjadwalan ke variabel di tab Properties dari tab konfigurasi node. Dengan cara ini, nilai parameter penjadwalan dapat diganti secara dinamis dalam kode node berdasarkan konfigurasi parameter penjadwalan.
    INSERT OVERWRITE TABLE dwd_log_info_di_odps PARTITION (dt='${bizdate}')
    SELECT ip 
      , uid
      , time
      , status
      , bytes 
      , getregion(ip) AS region -- Dapatkan wilayah berdasarkan alamat IP menggunakan UDF.
      , regexp_substr(request, '(^[^ ]+ )') AS method -- Gunakan ekspresi reguler untuk membagi permintaan menjadi tiga bidang.
      , regexp_extract(request, '^[^ ]+ (.*) [^ ]+$') AS url
      , regexp_substr(request, '([^ ]+$)') AS protocol 
      , regexp_extract(referer, '^[^/]+://([^/]+){1}') AS referer -- Gunakan ekspresi reguler untuk membersihkan referer untuk mendapatkan URL yang lebih akurat.
      , CASE
        WHEN TOLOWER(agent) RLIKE 'android' THEN 'android' -- Gunakan agen untuk mendapatkan informasi terminal dan bentuk akses.
        WHEN TOLOWER(agent) RLIKE 'iphone' THEN 'iphone'
        WHEN TOLOWER(agent) RLIKE 'ipad' THEN 'ipad'
        WHEN TOLOWER(agent) RLIKE 'macintosh' THEN 'macintosh'
        WHEN TOLOWER(agent) RLIKE 'windows phone' THEN 'windows_phone'
        WHEN TOLOWER(agent) RLIKE 'windows' THEN 'windows_pc'
        ELSE 'unknown'
      END AS device
      , CASE
        WHEN TOLOWER(agent) RLIKE '(bot|spider|crawler|slurp)' THEN 'crawler'
        WHEN TOLOWER(agent) RLIKE 'feed'
        OR regexp_extract(request, '^[^ ]+ (.*) [^ ]+$') RLIKE 'feed' THEN 'feed'
        WHEN TOLOWER(agent) NOT RLIKE '(bot|spider|crawler|feed|slurp)'
        AND agent RLIKE '^[Mozilla|Opera]'
        AND regexp_extract(request, '^[^ ]+ (.*) [^ ]+$') NOT RLIKE 'feed' THEN 'user'
        ELSE 'unknown'
      END AS identity
      FROM (
        SELECT SPLIT(col, '##@@')[0] AS ip
        , SPLIT(col, '##@@')[1] AS uid
        , SPLIT(col, '##@@')[2] AS time
        , SPLIT(col, '##@@')[3] AS request
        , SPLIT(col, '##@@')[4] AS status
        , SPLIT(col, '##@@')[5] AS bytes
        , SPLIT(col, '##@@')[6] AS referer
        , SPLIT(col, '##@@')[7] AS agent
      FROM ods_raw_log_d_odps  
      WHERE dt ='${bizdate}'
    ) a;
  4. Konfigurasikan parameter debugging.

    Di panel navigasi sisi kanan tab konfigurasi node, klik Konfigurasi Debugging. Pada tab Konfigurasi Debugging, konfigurasikan parameter berikut. Parameter ini digunakan untuk menguji alur kerja di Langkah 4.

    Parameter

    Deskripsi

    Computing Resource

    Pilih sumber daya komputasi MaxCompute yang terkait dengan ruang kerja saat Anda menyiapkan lingkungan.

    Resource Group

    Pilih grup sumber daya serverless yang Anda beli saat Anda menyiapkan lingkungan.

    Script Parameters

    Anda tidak perlu mengonfigurasi parameter ini. Dalam kode sampel yang disediakan dalam tutorial ini, variabel ${bizdate} digunakan untuk merepresentasikan cap waktu data. Saat Anda men-debug alur kerja dengan mengikuti Langkah 4, Anda dapat menetapkan nilai variabel tersebut ke konstanta, seperti 20250223. Saat alur kerja dijalankan, variabel yang didefinisikan untuk node dalam alur kerja diganti dengan konstanta.

  5. (Opsional) Konfigurasikan properti penjadwalan.

    Anda dapat mempertahankan nilai default untuk parameter terkait properti penjadwalan dalam tutorial ini. Anda dapat mengklik Properties di panel navigasi sisi kanan tab konfigurasi node untuk melihat nilai parameter pada subtab berikut. Untuk informasi tentang parameter lainnya di tab Properties, lihat Properti Penjadwalan.

    • Scheduling Parameters: Dalam tutorial ini, parameter penjadwalan dikonfigurasikan untuk alur kerja. Anda tidak perlu mengonfigurasi parameter penjadwalan untuk node dalam alur kerja. Parameter penjadwalan yang dikonfigurasikan dapat langsung digunakan untuk kode dan tugas yang dikembangkan berdasarkan node dalam alur kerja.

    • Scheduling Policies: Anda dapat mengonfigurasi parameter Time for Delayed Execution untuk menentukan durasi di mana pelaksanaan node tertinggal dari pelaksanaan alur kerja. Dalam tutorial ini, Anda tidak perlu mengonfigurasi parameter ini.

  6. Di bilah alat atas tab konfigurasi, klik Simpan untuk menyimpan node.

Konfigurasikan node dws_user_info_all_di_odps

Node ini digunakan untuk menggabungkan tabel informasi pengguna dasar ods_user_info_d_odps dan tabel data log yang diproses dwd_log_info_di_odps dan menyinkronkan hasil agregasi ke tabel dws_user_info_all_di_odps.

  1. Di kanvas alur kerja, gerakkan pointer di atas node dws_user_info_all_di_odps dan klik Buka Node.

  2. Salin pernyataan SQL berikut dan tempelkan di editor kode:

    Kode sampel untuk node dws_user_info_all_di_odps

    -- Buat tabel dws_user_info_all_di_odps.
    CREATE TABLE IF NOT EXISTS dws_user_info_all_di_odps (
     uid STRING COMMENT 'ID Pengguna',
     gender STRING COMMENT 'Jenis kelamin',
     age_range STRING COMMENT 'Rentang usia',
     zodiac STRING COMMENT 'Tanda zodiak',
     region STRING COMMENT 'Wilayah, yang diperoleh berdasarkan alamat IP',
     device STRING COMMENT 'Tipe terminal',
     identity STRING COMMENT 'Tipe akses, yang bisa crawler, feed, user, atau unknown',
     method STRING COMMENT 'Tipe permintaan HTTP',
     url STRING COMMENT 'URL',
     referer STRING COMMENT 'URL sumber',
     time STRING COMMENT 'Waktu dalam format yyyymmddhh:mi:ss'
    )
    PARTITIONED BY (
     dt STRING
    )
    LIFECYCLE 14;
    
    -- Proses data.
    -- Skenario: Pernyataan SQL berikut digunakan untuk menggabungkan tabel data log yang diproses dwd_log_info_di_odps dan tabel informasi pengguna dasar ods_user_info_d_odps dan menulis hasil agregasi ke tabel dws_user_info_all_di_odps.
    -- Catatan: Anda dapat mengonfigurasi parameter penjadwalan untuk node di DataWorks untuk menyinkronkan data tambahan ke partisi terkait di tabel yang diinginkan setiap hari dalam skenario penjadwalan.
    --      Dalam skenario pengembangan aktual, Anda dapat mendefinisikan variabel dalam kode node dalam format ${Nama Variabel} dan menetapkan parameter penjadwalan ke variabel di tab Properties dari tab konfigurasi node. Dengan cara ini, nilai parameter penjadwalan dapat diganti secara dinamis dalam kode node berdasarkan konfigurasi parameter penjadwalan.
    INSERT OVERWRITE TABLE dws_user_info_all_di_odps  PARTITION (dt='${bizdate}')
    SELECT COALESCE(a.uid, b.uid) AS uid
      , b.gender
      , b.age_range
      , b.zodiac
      , a.region
      , a.device
      , a.identity
      , a.method
      , a.url
      , a.referer
      , a.time
    FROM (
      SELECT *
      FROM dwd_log_info_di_odps  
      WHERE dt = '${bizdate}'
    ) a
    LEFT OUTER JOIN (
      SELECT *
      FROM ods_user_info_d_odps 
      WHERE dt = '${bizdate}'
    ) b
    ON a.uid = b.uid;
  3. Konfigurasikan parameter debugging.

    Di panel navigasi sisi kanan tab konfigurasi node, klik Konfigurasi Debugging. Pada tab Konfigurasi Debugging, konfigurasikan parameter berikut. Parameter ini digunakan untuk menguji alur kerja di Langkah 4.

    Parameter

    Deskripsi

    Computing Resource

    Pilih sumber daya komputasi MaxCompute yang terkait dengan ruang kerja saat Anda menyiapkan lingkungan.

    Resource Group

    Pilih grup sumber daya serverless yang Anda beli saat Anda menyiapkan lingkungan.

    Script Parameters

    Anda tidak perlu mengonfigurasi parameter ini. Dalam kode sampel yang disediakan dalam tutorial ini, variabel ${bizdate} digunakan untuk merepresentasikan cap waktu data. Saat Anda men-debug alur kerja dengan mengikuti Langkah 4, Anda dapat menetapkan nilai variabel tersebut ke konstanta, seperti 20250223. Saat alur kerja dijalankan, variabel yang didefinisikan untuk node dalam alur kerja diganti dengan konstanta.

  4. (Opsional) Konfigurasikan properti penjadwalan.

    Anda dapat mempertahankan nilai default untuk parameter terkait properti penjadwalan dalam tutorial ini. Anda dapat mengklik Properties di panel navigasi sisi kanan tab konfigurasi node untuk melihat nilai parameter pada subtab berikut. Untuk informasi tentang parameter lainnya di tab Properties, lihat Properti Penjadwalan.

    • Scheduling Parameters: Dalam tutorial ini, parameter penjadwalan dikonfigurasikan untuk alur kerja. Anda tidak perlu mengonfigurasi parameter penjadwalan untuk node dalam alur kerja. Parameter penjadwalan yang dikonfigurasikan dapat langsung digunakan untuk kode dan tugas yang dikembangkan berdasarkan node dalam alur kerja.

    • Scheduling Policies: Anda dapat mengonfigurasi parameter Time for Delayed Execution untuk menentukan durasi di mana pelaksanaan node tertinggal dari pelaksanaan alur kerja. Dalam tutorial ini, Anda tidak perlu mengonfigurasi parameter ini.

  5. Di bilah alat atas tab konfigurasi, klik Simpan untuk menyimpan node.

Konfigurasikan node ads_user_info_1d_odps

Node ini digunakan untuk memproses lebih lanjut data dalam tabel dws_user_info_all_di_odps dan menyinkronkan data yang diproses ke tabel ads_user_info_1d_odps untuk menghasilkan profil pengguna dasar.

  1. Di kanvas alur kerja, gerakkan pointer di atas node ads_user_info_1d_odps dan klik Open Node.

  2. Salin pernyataan SQL berikut dan tempelkan di editor kode:

    Kode sampel untuk nodeads_user_info_1d_odps

    -- Buat tabel ads_user_info_1d_odps.
    CREATE TABLE IF NOT EXISTS ads_user_info_1d_odps (
     uid STRING COMMENT 'ID Pengguna',
     region STRING COMMENT 'Wilayah, yang diperoleh berdasarkan alamat IP',
     device STRING COMMENT 'Tipe terminal',
     pv BIGINT COMMENT 'Page views',
     gender STRING COMMENT 'Jenis kelamin',
     age_range STRING COMMENT 'Rentang usia',
     zodiac STRING COMMENT 'Tanda zodiak'
    )
    PARTITIONED BY (
     dt STRING
    )
    LIFECYCLE 14;    
    
    -- Proses data.
    -- Skenario: Pernyataan SQL berikut digunakan untuk memproses lebih lanjut data dalam tabel lebar dws_user_info_all_di_odps yang menyimpan log akses situs web pengguna untuk menghasilkan data profil pengguna dasar, dan menyinkronkan data ke tabel ads_user_info_1d_odps.
    -- Catatan: Anda dapat mengonfigurasi parameter penjadwalan untuk node di DataWorks untuk menyinkronkan data tambahan ke partisi terkait di tabel yang diinginkan setiap hari dalam skenario penjadwalan.
    --      Dalam skenario pengembangan aktual, Anda dapat mendefinisikan variabel dalam kode node dalam format ${Nama Variabel} dan menetapkan parameter penjadwalan ke variabel di tab Properties dari tab konfigurasi node. Dengan cara ini, nilai parameter penjadwalan dapat diganti secara dinamis dalam kode node berdasarkan konfigurasi parameter penjadwalan.
    INSERT OVERWRITE TABLE ads_user_info_1d_odps  PARTITION (dt='${bizdate}')
    SELECT uid
      , MAX(region)
      , MAX(device)
      , COUNT(0) AS pv
      , MAX(gender)
      , MAX(age_range)
      , MAX(zodiac)
    FROM dws_user_info_all_di_odps 
    WHERE dt = '${bizdate}'
    GROUP BY uid; 
  3. Konfigurasikan parameter debugging.

    Di panel navigasi sisi kanan tab konfigurasi node, klik Konfigurasi Debugging. Pada tab Konfigurasi Debugging, konfigurasikan parameter berikut. Parameter ini digunakan untuk menguji alur kerja di Langkah 4.

    Parameter

    Deskripsi

    Computing Resource

    Pilih sumber daya komputasi MaxCompute yang terkait dengan ruang kerja saat Anda menyiapkan lingkungan.

    Resource Group

    Pilih grup sumber daya serverless yang Anda beli saat Anda menyiapkan lingkungan.

    Script Parameters

    Anda tidak perlu mengonfigurasi parameter ini. Dalam kode sampel yang disediakan dalam tutorial ini, variabel ${bizdate} digunakan untuk merepresentasikan cap waktu data. Saat Anda men-debug alur kerja dengan mengikuti Langkah 4, Anda dapat menetapkan nilai variabel tersebut ke konstanta, seperti 20250223. Saat alur kerja dijalankan, variabel yang didefinisikan untuk node dalam alur kerja diganti dengan konstanta.

  4. Konfigurasikan parameter debugging.

    Di panel navigasi sisi kanan tab konfigurasi node, klik Konfigurasi Debugging. Pada tab Konfigurasi Debugging, konfigurasikan parameter berikut. Parameter ini digunakan untuk menguji alur kerja di Langkah 4.

    Parameter

    Deskripsi

    Computing Resource

    Pilih sumber daya komputasi MaxCompute yang terkait dengan ruang kerja saat Anda menyiapkan lingkungan.

    Resource Group

    Pilih grup sumber daya serverless yang Anda beli saat Anda menyiapkan lingkungan.

    Script Parameters

    Anda tidak perlu mengonfigurasi parameter ini. Dalam kode sampel yang disediakan dalam tutorial ini, variabel ${bizdate} digunakan untuk merepresentasikan cap waktu data. Saat Anda men-debug alur kerja dengan mengikuti Langkah 4, Anda dapat menetapkan nilai variabel tersebut ke konstanta, seperti 20250223. Saat alur kerja dijalankan, variabel yang didefinisikan untuk node dalam alur kerja diganti dengan konstanta.

  5. Di bilah alat atas tab konfigurasi, klik Simpan untuk menyimpan node.

Langkah 4: Pemrosesan data

  1. Jalankan pemrosesan data.

    Di bilah alat atas tab konfigurasi alur kerja, klik Run. Di kotak dialog Masukkan parameter runtime, tentukan nilai yang digunakan untuk parameter penjadwalan yang didefinisikan untuk setiap node dalam pelaksanaan ini, dan klik OK. Dalam tutorial ini, 20250223 ditentukan. Anda dapat menentukan nilai berdasarkan kebutuhan bisnis Anda.

  2. Kueri hasil pemrosesan data.

    1. Di panel navigasi sisi kiri halaman Data Studio, klik ikon image. Di bagian Direktori Pribadi dari panel DATA STUDIO, klik ikon image untuk membuat file yang namanya diakhiri dengan .sql. Anda dapat menentukan nama file berdasarkan kebutuhan bisnis Anda.

    2. Di bagian bawah tab konfigurasi file, periksa apakah mode bahasa adalah MaxCompute SQL.image

    3. Di editor kode, masukkan pernyataan SQL berikut untuk menanyakan jumlah catatan data dalam tabel hasil akhir ads_user_info_1d_odps dan periksa apakah hasil pemrosesan data telah dihasilkan.

      -- Anda harus memperbarui kondisi filter partisi ke cap waktu data operasi saat ini. Dalam tutorial ini, nilai parameter penjadwalan bizdate yang dikonfigurasikan dalam langkah-langkah sebelumnya adalah 20250223.
      SELECT count(*) FROM ads_user_info_1d_odps WHERE dt='cap waktu data';
      • Jika hasil yang dikembalikan setelah Anda menjalankan pernyataan di atas menunjukkan bahwa data ada, pemrosesan data selesai.

      • Jika hasil yang dikembalikan setelah Anda menjalankan pernyataan di atas menunjukkan bahwa data tidak ada di tujuan, Anda harus memastikan bahwa values specified for the scheduling parameters defined for the inner nodes of the workflow in this run sama dengan nilai bidang dt dalam pernyataan di atas saat Anda menjalankan alur kerja. Anda dapat mengklik Running History di panel navigasi sisi kanan tab konfigurasi alur kerja, lalu klik View di kolom Actions dari catatan pelaksanaan yang dihasilkan untuk pelaksanaan ini untuk melihat cap waktu data yang digunakan saat alur kerja dijalankan dalam log pelaksanaan alur kerja. Cap waktu data berada dalam format partition=[pt=xxx].

Langkah 5: Terapkan alur kerja

Node yang dipicu otomatis hanya dapat dijadwalkan untuk dijalankan secara otomatis setelah Anda menerapkan node ke lingkungan produksi. Anda dapat merujuk pada langkah-langkah berikut untuk menerapkan alur kerja ke lingkungan produksi:

Catatan

Dalam tutorial ini, parameter penjadwalan dikonfigurasikan untuk alur kerja saat Anda mengonfigurasi properti penjadwalan untuk alur kerja. Anda tidak perlu mengonfigurasi parameter penjadwalan secara terpisah untuk setiap node dalam alur kerja.

  1. Di panel navigasi sisi kiri halaman Data Studio, klik ikon image. Di bagian Workspace Directories dari panel DATA STUDIO, temukan alur kerja yang dibuat dan klik nama alur kerja untuk masuk ke tab konfigurasi alur kerja.

  2. Di bilah alat atas tab konfigurasi, klik Deploy.

  3. Di tab DEPLOY, klik Mulai Penerapan ke Lingkungan Produksi untuk menerapkan alur kerja dengan mengikuti petunjuk di layar.

Langkah 6: Jalankan node di lingkungan produksi

Setelah Anda menerapkan node pada suatu hari, instance yang dihasilkan untuk node dapat dijadwalkan untuk dijalankan pada hari berikutnya. Anda dapat menggunakan fitur pengisian balik data untuk mengisi balik data untuk node dalam alur kerja yang diterapkan, yang memungkinkan Anda memeriksa apakah node dapat dijalankan di lingkungan produksi. Untuk informasi lebih lanjut, lihat Isi Balik Data dan Lihat Instance Pengisian Balik Data (versi baru).

  1. Setelah node diterapkan, klik Pusat Operasi di sudut kanan atas halaman Data Studio.

    Anda juga dapat mengklik ikon 图标 di sudut kiri atas halaman Data Studio dan pilih All Products > Data Development And Task Operation > Operation Center.

  2. Di panel navigasi sisi kiri halaman Pusat Operasi, pilih Auto Triggered Node O&M > Auto Triggered Nodes. Di halaman Node yang Dipicu Otomatis, temukan node beban nol workshop_start_odps dan klik nama node.

  3. Dalam grafik asiklik langsung (DAG) node, klik kanan node workshop_start_odps dan pilih Run > Current and Descendant Nodes Retroactively.

  4. Di panel Isi Balik Data, pilih node untuk mana Anda ingin mengisi balik data, konfigurasikan parameter Cap Waktu Data, lalu klik Ajukan dan Alihkan.

  5. Di bagian atas halaman Isi Balik Data, klik Segarkan untuk memeriksa apakah semua node berhasil dijalankan.

Catatan

Untuk mencegah biaya berlebihan yang dihasilkan setelah operasi dalam tutorial selesai, Anda dapat mengonfigurasi parameter Periode Efektif untuk semua node dalam alur kerja atau membekukan node beban nol workshop_start_odps.

Apa yang Harus Dilakukan Selanjutnya

  • Visualisasikan data pada dasbor: Setelah Anda menyelesaikan analisis profil pengguna, gunakan DataAnalysis untuk menampilkan data yang diproses dalam bentuk grafik. Ini membantu Anda dengan cepat mengekstraksi informasi utama untuk mendapatkan wawasan tentang tren bisnis di balik data.

  • Pantau kualitas data: Konfigurasikan aturan pemantauan untuk tabel yang dihasilkan setelah pemrosesan data untuk membantu mengidentifikasi dan mengintersep data kotor terlebih dahulu guna mencegah dampak data kotor meningkat.

  • Kelola data: Setelah analisis profil pengguna selesai, tabel data dihasilkan di MaxCompute. Anda dapat melihat tabel data di Data Map, dan menentukan hubungan antara tabel data berdasarkan lineage.

  • Gunakan API untuk menyediakan layanan data: Setelah Anda mendapatkan data yang telah diproses akhir, gunakan API standar di DataService Studio untuk berbagi data dan menyediakan data untuk modul bisnis lain yang menggunakan API untuk menerima data.