全部产品
Search
文档中心

DataWorks:Kueri dan analisis SQL (baru)

更新时间:Jan 05, 2026

Anda dapat menggunakan pernyataan SQL untuk mengkueri dan menganalisis data secara cepat dari sumber data seperti MaxCompute, EMR Hive, dan Hologres. Topik ini menjelaskan cara mengkueri sumber data menggunakan pernyataan SQL.

Penting

Topik ini menjelaskan versi baru Analisis Data. Untuk informasi mengenai versi lama, lihat Kueri SQL (lama). Anda dapat beralih antara versi baru dan lama Analisis Data melalui bilah navigasi.

Sumber data yang didukung

Kueri SQL mendukung jenis sumber data berikut: MaxCompute, Hologres, EMR, CDH, ADB for PostgreSQL, ADB for MySQL, ClickHouse, StarRocks, MySQL, PostgreSQL, Oracle, SQL Server, Doris, dan SelectDB.

Catatan

Hanya MaxCompute yang mendukung kueri melalui koneksi langsung dan koneksi sumber data. Jenis sumber data lain hanya mendukung kueri pada sumber data yang telah ditambahkan ke ruang kerja.

Izin untuk sumber data

Cakupan sumber data

  • Mode koneksi sumber data: Anda hanya dapat memilih data dari sumber data di ruang kerja tempat Anda memiliki izin. Oleh karena itu, Anda harus terlebih dahulu menghubungi administrator untuk ditambahkan ke ruang kerja sebagai Data Analyst, Developer, O&M, atau Workspace Administrator.

  • Mode koneksi langsung: Anda hanya dapat memilih proyek MaxCompute yang menjadi anggota akun log masuk saat ini. Untuk informasi lebih lanjut tentang cara mengonfigurasi izin untuk proyek MaxCompute, lihat Pengguna dan Izin MaxCompute.

Izin akses sumber data

Anda dapat mengakses sumber data menggunakan dua mode identitas berikut.

Mode identitas akses

Deskripsi

Sumber data yang didukung

Operasi otorisasi

Executor Identity

Identitas akun Alibaba Cloud yang digunakan untuk log masuk ke DataWorks.

MaxCompute dan Hologres.

Hubungi administrator proyek MaxCompute atau instans Hologres yang ditentukan untuk memberikan Anda izin akses sebagai anggota.

Default Access Identity of the Data Source

Identitas akses yang dikonfigurasi saat sumber data dibuat.

Fitur ini berlaku untuk sumber data yang didukung.

Jika akun log masuk Anda saat ini bukan identitas akses default sumber data tersebut, Anda harus menghubungi pengguna dengan izin Workspace Administrator untuk memberikan otorisasi kepada akun Alibaba Cloud Anda.

Penting

Jika kontrol akses berbasis daftar putih IP diaktifkan untuk proyek MaxCompute Anda, Anda harus menambahkan alamat IP dalam daftar putih Analisis Data ke daftar putih IP proyek MaxCompute tersebut.

Mengakses fitur

Log masuk ke Analisis Data DataWorks, beralih ke wilayah target, lalu klik Enter Data Analysis.

  • Jika Anda melihat Go To New DataAnalysis di bilah navigasi, klik untuk beralih ke halaman Analisis Data versi baru.

  • Jika Anda melihat Return To Old DataAnalysis di bilah navigasi, berarti Anda sedang berada di halaman Analisis Data versi baru.

Buat kueri SQL

  1. Arahkan kursor ke My Directory > My Files dan klik image > New SQL File di sebelah kanan.

    Anda juga dapat mengklik New Folder untuk menyesuaikan struktur direktori file kueri SQL Anda.
  2. Di halaman editor SQL, tulis pernyataan SQL.

    Penting

    Anda juga dapat membuat pernyataan SQL dengan cara berikut:

    • Di halaman Katalog Data, setelah Anda menambahkan katalog data, temukan tabel target, klik kanan tabel tersebut, lalu pilih Generate Query SQL.

    • Salin pernyataan SQL yang dibagikan kepada Anda di folder Shared Files.

    • Setelah mengedit pernyataan SQL, Anda dapat mengklik tombol Format di bilah alat untuk memformat kode.

    • Kueri SQL mendukung Copilot. Anda dapat mengklik ikon Copilot (image) di pojok kanan atas untuk menggunakan fitur asisten cerdas, seperti generasi kode dan koreksi kode, guna membantu Anda menulis kode. Selain itu, Copilot mendukung pelengkapan kode otomatis di editor untuk meningkatkan efisiensi pengkodean Anda.

    Contoh SQL

    Sebagai contoh, untuk mengkueri data event publik GitHub di MaxCompute, Anda dapat menggunakan pernyataan SQL berikut:

    -- Enable session-level schema syntax.
    SET odps.namespace.schema=true; 
    -- Query 100 rows of data from the dwd_github_events_odps table.
    SELECT * FROM bigdata_public_dataset.github_events.dwd_github_events_odps WHERE ds='${dt}' LIMIT 100;
    Catatan
    • Saat Anda mengkueri proyek MaxCompute yang telah mengaktifkan sintaks Schema, Anda harus menambahkan perintah SET odps.namespace.schema=true; sebelum pernyataan kueri. Hal ini mengaktifkan sintaks Schema tingkat sesi dan mencegah kegagalan kueri.

    • Secara default, kueri dijalankan terhadap sumber data yang ditentukan dalam Running Configuration saat ini. Untuk mengkueri proyek MaxCompute lain, Anda harus secara eksplisit menentukan nama proyek dalam pernyataan kueri Anda. Misalnya, jika konfigurasi eksekusi Anda menentukan MaxCompute A sebagai sumber daya komputasi dan pernyataan kueri Anda menargetkan tabel di MaxCompute B (SELECT * FROM B.schema_name.table_name WHERE ****), MaxCompute A digunakan sebagai mesin eksekusi untuk mengkueri data dari MaxCompute B.

  3. Setelah menulis pernyataan SQL, klik Run Configurations di sebelah kanan untuk mengonfigurasi kueri SQL. Anda dapat mengonfigurasi parameter seperti Data Source dan Script Parameters.

    image

    • Type: Pilih jenis sumber data target untuk kueri SQL.

    • Computing Resource: Menentukan sumber data target untuk kueri SQL. Jika Anda hanya mengkueri data MaxCompute, Anda dapat menggunakan koneksi langsung atau koneksi sumber data. Untuk jenis sumber data lain, Anda hanya dapat mengkueri data dari sumber data di ruang kerja tempat Anda memiliki izin. Untuk informasi lebih lanjut tentang izin, lihat Izin sumber data.

    • Script Parameters: Jika Anda menggunakan variabel parameter dalam kueri SQL Anda, Anda dapat memberikan nilai ke variabel waktu proses di sini.

      Penting

      Jika penguraian gagal, buka halaman Pengaturan di pojok kiri bawah, cari parsing, lalu aktifkan opsi Enable DataWorks LSP code parameter feature.

  4. Klik Run di bilah alat untuk melihat Executed SQL Content, Run Log, dan Run Results di jendela hasil.

    image

Visualisasikan hasil kueri

Di bilah alat di sebelah kiri hasil kueri, klik ikon image untuk secara otomatis menghasilkan grafik dari hasil tersebut.

Catatan

image

Ekspor dan bagikan hasil

Penting

Jika Anda ingin mengekspor data secara lokal lalu mengimpornya ke sumber data lain, kami menyarankan Anda menggunakan tugas sinkronisasi offline di Data Integration untuk migrasi dan sinkronisasi data yang lebih efisien dan stabil.

Di sebelah kanan hasil kueri SQL, klik Export. Anda dapat mengekspor data dalam format berikut:

  • File lokal: Anda dapat mengunduh hasil kueri ke komputer lokal Anda dalam format CSV.

    Item

    Deskripsi

    Batas unduh

    • Hanya mesin MaxCompute dan EMR yang didukung. Untuk informasi lebih lanjut, lihat Batas unduh data.

    • Jika mekanisme perlindungan data diaktifkan untuk proyek MaxCompute (yaitu, unduhan data dilarang), pengunduhan data menggunakan Analisis Data akan gagal.

    Download Scope

    Anda dapat memilih untuk mengunduh Visible Data atau All Data.

    • Only Data Displayed In The Table: Mengunduh hanya data yang ditampilkan di halaman saat ini. Batas default adalah 10000 baris.

    • All Data: Mengekspor semua hasil kueri dalam batas unduh.

    Metode unduh

    Mendukung Approval Download dan Approval-Free Download.

    • Approval download: Memungkinkan Anda mengonfigurasi aturan Pendeteksian Penipuan untuk mendeteksi risiko dalam operasi pengunduhan data. Saat Anda mengunduh data, Anda harus mengirimkan permintaan persetujuan unduh untuk memastikan kepatuhan dan keamanan penggunaan data.

      Catatan

      Hanya Edisi Perusahaan DataWorks yang mendukung pengaturan dan pengaktifan aturan Pendeteksian Penipuan.

    • Approval-free download: Ini adalah metode default. Tidak diperlukan permintaan persetujuan untuk pengunduhan.

  • Object Storage Service (OSS): Anda dapat mengekspor hasil kueri dalam format tertentu, seperti CSV atau Parquet, ke bucket Object Storage Service (OSS) Alibaba Cloud. Metode ini cocok untuk skenario yang melibatkan pengarsipan volume data besar atau integrasi dengan produk cloud lainnya.

    Pertama kali menggunakan fitur ini, Anda harus memberikan izin DataWorks untuk mengakses sumber daya OSS Anda. Di daftar drop-down File Path, klik tautan One-click Authorization dalam prompt dan ikuti petunjuk di layar untuk menyelesaikan otorisasi RAM.

    Item Konfigurasi

    Deskripsi

    Jalur file

    Klik ikon folder di sebelah kanan untuk memilih Bucket OSS dan direktori tempat Anda ingin menyimpan file hasil.

    Nama file

    Sistem secara otomatis menghasilkan nama file. Anda juga dapat mengubahnya secara manual.

    Jenis teks

    Pilih format file untuk ekspor. Format yang didukung adalah csv, text, orc, dan parquet.

    Pemisah

    Tentukan pembatas antar kolom. Pembatas default adalah koma (,).

    Format pengodean

    Pilih format encoding untuk file, seperti UTF-8 atau GBK.

    CU

    Konfigurasikan jumlah unit komputasi (CU) untuk tugas ekspor ini. Nilai default adalah 1 CU.

    Kelompok sumber daya

    Pilih kelompok sumber daya arsitektur tanpa server untuk menjalankan tugas ekspor ini. Jika Anda tidak memilih kelompok sumber daya, kelompok sumber daya Data Integration yang ditetapkan di DataAnalysis > System Administration akan digunakan secara default.

    Setelah menyelesaikan konfigurasi, klik OK untuk memulai tugas ekspor. Di halaman eksekusi tugas, Anda dapat melihat progres ekspor, log eksekusi, dan detail konfigurasi. Setelah tugas selesai, buka konsol OSS untuk mengunduh file objek yang diekspor ke komputer lokal Anda.

  • Lembar DingTalk: Anda dapat mengekspor hasil ke Lembar DingTalk. Untuk informasi lebih lanjut, lihat Ekspor hasil kueri ke DingTalk.

  • Buku kerja dan Berbagi: Anda dapat menyimpan data ke buku kerja untuk melakukan analisis yang lebih mendetail terhadap data kueri. Anda juga dapat membagikan hasil analisis terbaru dari buku kerja Anda kepada orang lain.