Topik ini membimbing Anda melalui analisis kelompok pembeli rumah untuk memahami proses pengembangan dan analisis data di DataWorks.
Pengenalan
Tutorial ini menganalisis situasi pembelian rumah dari berbagai kelompok berdasarkan data pembelian rumah. Data lokal diunggah ke tabel MaxCompute bernama bank_data menggunakan DataWorks, dan node MaxCompute SQL digunakan untuk menganalisis kelompok pengguna guna mendapatkan tabel bernama result_table. Terakhir, visualisasi dan analisis sederhana dilakukan berdasarkan result_table untuk mendapatkan profil kelompok pengguna.
Tutorial ini menunjukkan fitur DataWorks berdasarkan data simulasi. Dalam skenario bisnis nyata, lakukan penyesuaian sesuai dengan data bisnis Anda.
Gambar berikut menunjukkan jalur penerusan data dan proses pengembangan data dalam tutorial ini.
Setelah analisis data selesai, Anda dapat memperoleh analisis profil kelompok berikut dari data pembelian rumah: Tingkat pendidikan orang lajang yang memiliki hipotek terutama adalah university.degree dan high.school.

Persiapan
Aktifkan DataWorks
Buat ruang kerja
Buat kelompok sumber daya dan sambungkan ke ruang kerja
Buat dan sambungkan sumber daya komputasi MaxCompute
Prosedur
Dalam tutorial ini, Anda perlu menggunakan DataWorks untuk mengunggah data uji yang disediakan untuk tutorial ini ke proyek MaxCompute dan membuat alur kerja di Data Studio untuk membersihkan dan menulis data uji. Selain itu, Anda perlu men-debug dan menjalankan alur kerja serta mengeksekusi pernyataan SQL untuk memverifikasi hasil eksekusi.
Langkah 1: Buat tabel MaxCompute
Sebelum Anda mengunggah data uji, gunakan fitur katalog data DataWorks untuk membuat tabel bernama bank_data di proyek MaxCompute untuk menyimpan data uji yang akan diunggah.
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri Konsol DataWorks, pilih . Di halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down Pilih Ruang Kerja dan klik Pergi ke Data Studio.
Di panel navigasi kiri halaman Data Studio, klik ikon
untuk pergi ke panel Katalog Data.(Opsional) Jika proyek MaxCompute Anda belum ditambahkan ke DataWorks sebagai katalog data, klik ikon
di sebelah MaxCompute untuk pergi ke tab DataWorks Sumber Data. Di tab DataWorks Sumber Data, tambahkan proyek MaxCompute yang sudah ditambahkan sebagai sumber daya komputasi atau sumber data ke ruang kerja sebagai katalog data MaxCompute.Di panel DATA CATALOG, klik MaxCompute. Di bagian MaxCompute, buat tabel MaxCompute di folder Tabel di bawah proyek MaxCompute yang ditambahkan sebagai katalog data.
CatatanJika fitur skema diaktifkan untuk proyek MaxCompute, Anda harus membuka skema di proyek MaxCompute sebelum dapat membuat tabel MaxCompute di folder Tabel dalam proyek tersebut.
Dalam tutorial ini, ruang kerja dalam mode standar digunakan dan debugging hanya diperlukan di lingkungan pengembangan. Oleh karena itu, Anda perlu membuat tabel
bank_datadi proyek MaxCompute, khususnya di lingkungan pengembangan. Jika menggunakan ruang kerja dalam mode dasar, tabelbank_dataharus dibuat di proyek MaxCompute, tetapi hanya di lingkungan produksi.
Klik ikon
di sebelah Tabel untuk membuka tab pembuatan tabel.Pada bagian DDL di tab pembuatan tabel, masukkan kode SQL berikut. Sistem akan secara otomatis menghasilkan semua informasi terkait tabel.
CREATE TABLE IF NOT EXISTS bank_data ( age BIGINT COMMENT 'Usia', job STRING COMMENT 'Jenis pekerjaan', marital STRING COMMENT 'Status perkawinan', education STRING COMMENT 'Tingkat pendidikan', default STRING COMMENT 'Apakah memiliki kartu kredit', housing STRING COMMENT 'Hipotek', loan STRING COMMENT 'Pinjaman', contact STRING COMMENT 'Informasi kontak', month STRING COMMENT 'Bulan', day_of_week STRING COMMENT 'Hari dalam seminggu', duration STRING COMMENT 'Durasi', campaign BIGINT COMMENT 'Jumlah kontak selama kampanye', pdays DOUBLE COMMENT 'Waktu yang berlalu sejak kontak terakhir', previous DOUBLE COMMENT 'Jumlah kontak dengan pelanggan', poutcome STRING COMMENT 'Hasil dari kampanye pemasaran sebelumnya', emp_var_rate DOUBLE COMMENT 'Tingkat perubahan pekerjaan', cons_price_idx DOUBLE COMMENT 'Indeks harga konsumen', cons_conf_idx DOUBLE COMMENT 'Indeks kepercayaan konsumen', euribor3m DOUBLE COMMENT 'Tingkat deposito euro', nr_employed DOUBLE COMMENT 'Jumlah karyawan', y BIGINT COMMENT 'Apakah memiliki deposito waktu' );Di bilah alat atas tab konfigurasi, klik Deploy untuk membuat tabel
bank_datadi proyek MaxCompute pada lingkungan pengembangan.Setelah tabel
bank_datadibuat, klik nama tabel di bagian MaxCompute untuk melihat detail informasi tabel.
Langkah 2: Unggah data ke tabel bank_data
Unduh file banking.csv ke mesin lokal Anda, lalu unggah data dalam file tersebut ke tabel bank_data yang telah dibuat di proyek MaxCompute. Untuk informasi lebih lanjut, lihat Batasan.
Sebelum mengunggah data dari file, pastikan Anda menentukan kelompok sumber daya untuk penjadwalan dan kelompok sumber daya untuk Data Integration. Untuk informasi lebih lanjut, lihat Batasan.
Di sudut kiri atas Konsol DataWorks, klik ikon
dan pilih .Di bagian Catatan Unggah Terbaru halaman Unggah dan Unduh, klik Unggah Data. Di halaman Unggah Data, konfigurasikan parameter sesuai dengan tabel berikut.
Bagian
Deskripsi
Sumber Data
Pilih File Lokal.
Specify Data to Be Uploaded
Select File
Unggah file
banking.csvyang telah diunduh ke mesin lokal Anda.Configure Destination Table
Compute Engine
Pilih MaxCompute.
MaxComputeProject Name
Pilih proyek MaxCompute tempat tabel
bank_databerada.Select Destination Table
Pilih
bank_data.Preview Data of Uploaded File
Klik Pemetaan Berdasarkan Urutan untuk menyelesaikan pemetaan antara data di file dengan bidang di tabel
bank_data.CatatanAnda dapat mengunggah file dengan ekstensi
.csv,.xls,.xlsx, dan.jsondari mesin lokal Anda.Jika Anda mengunggah file dengan ekstensi .xls atau .xlsx, lembar pertama file akan diunggah secara default.
Untuk file dengan ekstensi
.csv, ukuran file tidak boleh melebihi 5 GB. Untuk jenis file lainnya, ukuran file tidak boleh melebihi 100 MB.
Klik Unggah Data untuk mengunggah data dalam file CSV ke tabel
bank_data.Periksa apakah data telah ditulis ke tabel bank_data.
Setelah data diunggah, gunakan fitur Kueri dan Analisis SQL untuk memeriksa apakah data telah ditulis ke tabel
bank_data.Klik ikon
di sudut kiri atas. Di halaman pop-up, klik .Di bawah File Saya, klik . Masukkan nama kustom pada File Name dan klik OK.
Di halaman Kueri SQL, konfigurasikan pernyataan SQL berikut.
SELECT * FROM bank_data limit 10;Di sudut kanan atas tab konfigurasi file kueri SQL, pilih ruang kerja tempat tabel
bank_databerada serta sumber data MaxCompute yang diinginkan, lalu klik OK.CatatanDalam tutorial ini, ruang kerja dalam mode standar digunakan, dan tabel
bank_datahanya dibuat di lingkungan pengembangan. Oleh karena itu, Anda harus memilih sumber data MaxCompute di lingkungan pengembangan. Jika menggunakan ruang kerja dalam mode dasar, Anda dapat memilih sumber data MaxCompute di lingkungan produksi.Di bilah alat atas tab konfigurasi, klik ikon Jalankan. Di kotak dialog Estimasi Biaya, klik Jalankan. Setelah pernyataan SQL dieksekusi, sepuluh data pertama di tabel bank_data akan ditampilkan di bagian bawah tab konfigurasi. Ini menunjukkan bahwa data di file berhasil diunggah dari mesin lokal Anda ke tabel bank_data.

Langkah 3: Proses data
Pada langkah ini, gunakan node SQL MaxCompute untuk menyaring data yang diunggah ke tabel bank_data. Tujuannya adalah untuk mendapatkan data tentang distribusi tingkat pendidikan di antara orang lajang yang memiliki hipotek. Data yang telah diproses kemudian ditulis ke tabel result_table.
Bangun tautan pemrosesan data
Di sudut kiri atas Konsol DataWorks, klik ikon
dan pilih .Di bilah navigasi atas halaman DataStudio, beralih ke ruang kerja yang dibuat untuk tutorial ini. Di panel navigasi kiri halaman DataStudio, klik ikon
.Di bagian Direktori Ruang Kerja panel DATA STUDIO, klik ikon
dan pilih Buat Alur Kerja. Di kotak dialog Buat Alur Kerja, masukkan nama di bidang Nama dan klik OK untuk menyimpan alur kerja. Dalam tutorial ini, parameter Nama disetel ke dw_basic_case.Di tab konfigurasi alur kerja, seret Node Beban Nol dan MaxCompute SQL dari bagian kiri ke kanvas di sebelah kanan, lalu tentukan nama untuk setiap node.
Tabel berikut mencantumkan nama node yang digunakan dalam tutorial ini beserta fungsionalitasnya.
Jenis Node
Node name
Node functionality
Node beban nolworkshop_startNode ini adalah node beban nol yang digunakan untuk mengelola semua node yang terlibat dalam tutorial ini. Node ini membantu menjelaskan jalur penerusan data. Anda tidak perlu menulis kode untuk node ini.
MaxCompute SQLddl_result_tableNode ini digunakan untuk membuat tabel bernama result_table. Tabel ini digunakan untuk menyimpan data yang telah dibersihkan di tabel bank_data
MaxCompute SQLinsert_result_tableNode ini digunakan untuk menyaring data di tabel bank_data dan menulis data yang disaring ke tabel result_table.
Gambar garis untuk mengonfigurasi dependensi antara node, seperti yang ditunjukkan pada gambar berikut.
CatatanAnda dapat menggambar garis untuk mengonfigurasi dependensi penjadwalan untuk node dalam alur kerja. Anda juga dapat menggunakan fitur penguraian otomatis untuk memungkinkan sistem secara otomatis mengidentifikasi dependensi penjadwalan antar node. Dalam tutorial ini, dependensi penjadwalan antar node dikonfigurasi dengan menggambar garis. Untuk informasi lebih lanjut tentang fitur penguraian otomatis, lihat Gunakan Fitur Penguraian Otomatis.
Di bilah alat atas tab konfigurasi, klik Simpan.
Konfigurasikan node pemrosesan data
Langkah 4: Debug dan jalankan alur kerja
Setelah alur kerja dikonfigurasi, buka halaman konfigurasi alur kerja dw_basic_case. Klik tombol
untuk men-debug dan menjalankan seluruh alur kerja. Jika alur kerja gagal dijalankan, Anda dapat menyelesaikan masalah berdasarkan (log) debug.

Langkah 5: Kueri dan tampilkan data
Setelah data diunggah ke sumber daya komputasi MaxCompute dan diproses di Data Studio, Anda dapat menanyakan result_table di Kueri dan Analisis SQL untuk melakukan analisis data.
Klik ikon
di sudut kiri atas. Di halaman pop-up, klik .Di bawah File Saya, klik . Masukkan nama kustom di kolom File Name dan klik OK.
Di halaman Kueri SQL, konfigurasikan SQL berikut:
SELECT * FROM result_table;Di sudut kanan atas tab konfigurasi file kueri SQL, pilih ruang kerja tempat tabel
result_tableberada dan sumber data MaxCompute yang diinginkan, lalu klik OK.CatatanDalam tutorial ini, ruang kerja dalam mode standar digunakan, dan tabel
result_tablehanya dibuat di lingkungan pengembangan, tidak diterapkan ke lingkungan produksi. Oleh karena itu, Anda harus memilih sumber data MaxCompute di lingkungan pengembangan. Jika menggunakan ruang kerja dalam mode dasar, Anda dapat memilih sumber data MaxCompute di lingkungan produksi.Di bilah alat atas tab konfigurasi, klik ikon Jalankan. Di kotak dialog Estimasi Biaya, klik Jalankan.
Di hasil kueri, klik
untuk melihat hasil sebagai grafik. Anda dapat mengklik
di sudut kanan atas grafik untuk menyesuaikan gaya grafik. Anda juga dapat mengklik Save di sudut kanan atas grafik untuk menyimpannya sebagai kartu. Kemudian, di panel navigasi kiri, Anda dapat mengklik Card (
) untuk melihat kartu yang disimpan.
Informasi tambahan
Untuk detail operasi modul yang terlibat dalam tutorial ini dan deskripsi parameter, lihat topik-topik di direktori Pengembangan Data (Data Studio) (versi baru) dan Analisis Data.
Selain modul yang terlibat dalam tutorial ini, DataWorks mendukung modul dan fitur lainnya seperti Pemodelan Data, Kualitas Data, Penjaga Keamanan Data, Studio Layanan Data, Integrasi Data, serta konfigurasi penjadwalan node untuk menyediakan layanan pemantauan dan O&M data ujung ke ujung. Untuk informasi lebih lanjut, lihat Pemodelan Data, Kualitas Data, Penjaga Keamanan Data, Studio Layanan Data, Integrasi Data, dan Konfigurasi Penjadwalan Node.
Anda juga dapat menjelajahi lebih banyak tutorial DataWorks. Untuk informasi lebih lanjut, lihat Tutorial untuk Berbagai Skenario Bisnis.

