All Products
Search
Document Center

MaxCompute:Data Discovery (DataScan)

Last Updated:Mar 26, 2026
Penting

Fitur ini tersedia dalam pratinjau undangan. Untuk mengaktifkannya, kirimkan Tiket.

Data Discovery secara otomatis memindai bucket Object Storage Service (OSS), mendeteksi format file dan skema, lalu mendaftarkan data tersebut sebagai tabel eksternal di MaxCompute. Setelah terdaftar, Anda dapat langsung melakukan kueri terhadap data tersebut menggunakan SQL atau MaxFrame—tanpa perlu menulis DDL secara manual. MaxCompute menerapkan kontrol akses tingkat enterprise, penyamaran data, dan izin tingkat baris pada seluruh data yang ditemukan.

Cara kerja

Setiap eksekusi task discovery melakukan langkah-langkah berikut:

  1. Memindai path OSS yang Anda tentukan sesuai frekuensi yang dikonfigurasi (setiap 5 menit hingga setiap 7 hari).

  2. Mendeteksi format file dan melakukan inferensi skema dari setiap file data.

  3. Memetakan hierarki folder ke nama tabel dan kolom partisi berdasarkan aturan discovery.

  4. Mendaftarkan tabel, partisi, dan skema yang sesuai sebagai tabel eksternal di Proyek dan skema MaxCompute target.

Setelah setiap eksekusi, Anda dapat segera melakukan kueri terhadap tabel eksternal yang terdaftar dengan SQL.

Kasus penggunaan

Analisis log otomatis: Log aplikasi yang terus-menerus ditulis ke OSS dalam format JSON atau CSV, dipartisi berdasarkan tanggal, secara otomatis terdeteksi dan didaftarkan sebagai tabel eksternal. Analis dapat melakukan kueri terhadap partisi baru dengan SQL segera setelah partisi tersebut muncul—tanpa perlu pipeline ingestion manual.

Spesifikasi

DimensiDetail
Sumber data yang didukungOSS
Format file yang didukungParquet (tidak terkompresi, SNAPPY, ZSTD, GZIP); ORC (tidak terkompresi, SNAPPY, ZLIB); JSON (tidak terkompresi, BZIP2, GZIP, LZ4, DEFLATE); CSV (tidak terkompresi, SNAPPY, GZIP)
Frekuensi discovery5 menit / 15 menit / 60 menit / 1 hari / 7 hari
Aturan pemetaan path ke tabeloss://<LOCATION path>/<foreign table>/<partition (optional)>/<file>
Batas task100 per Akun Alibaba Cloud
Wilayah yang tersediaTiongkok (Beijing), Tiongkok (Shenzhen)

Batasan

  • Wilayah: Data Discovery hanya tersedia di wilayah Tiongkok (Beijing) dan Tiongkok (Shenzhen).

  • Izin: Hanya Pemilik Akun Alibaba Cloud atau pengguna dengan role Datascan_Admin tingkat penyewa yang dapat membuat dan mengelola task discovery.

    RoleIzin
    Datascan_AdminMenampilkan daftar, melihat, membuat, memperbarui, dan menghapus task discovery data.
  • Konflik skema: Jika tabel eksternal yang baru ditemukan memiliki nama yang sama dengan tabel yang telah dibuat pengguna di skema target, task akan melewatkan pembuatan tabel eksternal tersebut.

  • Penghapusan task: Menghapus task tidak menghapus tabel eksternal yang sudah terdaftar. Namun, skemanya tidak lagi diperbarui berdasarkan perubahan di data lake.

Prasyarat

Sebelum memulai, pastikan Anda telah memiliki:

  • Bucket OSS di wilayah yang sama dan dalam Akun Alibaba Cloud yang sama dengan Proyek MaxCompute Anda

  • Koneksi data lake yang dikonfigurasi sebagai kredensial akses untuk bucket OSS

  • Proyek MaxCompute dengan sintaks tingkat skema yang diaktifkan

  • Role tingkat penyewa Datascan_Admin (untuk pengguna Resource Access Management (RAM))

Berikan role Datascan_Admin

Pemilik Akun Alibaba Cloud atau pengguna dengan role tingkat penyewa Super_Administrator atau Admin dapat memberikan role Datascan_Admin.

  1. Login ke Konsol MaxCompute dan pilih wilayah di pojok kiri atas.Konsol MaxCompute

  2. Di panel navigasi kiri, pilih Manage Configurations > Tenants.

  3. Di halaman Tenants, klik tab Roles.

  4. Pilih Datascan_Admin, lalu klik New Authorization di kolom Actions.

  5. Di kotak dialog Newly Added Authorization, tambahkan pengguna yang akan diberi otorisasi, lalu klik OK.

Untuk informasi lebih lanjut tentang role tingkat penyewa, lihat Grant permissions to a tenant-level role.

Buat task discovery

  1. Login ke Konsol MaxCompute dan pilih wilayah di pojok kiri atas.Konsol MaxCompute

  2. Di panel navigasi kiri, pilih MaxLake > Data Discovery.

  3. Di halaman Data Discovery, klik Create a data discovery task.

  4. Pada kotak dialog Create Task, konfigurasikan parameter berikut, lalu klik Create. How the path-to-table mapping rule works: Tugas ini memetakan hirarki folder di bawah jalur Lokasi ke tabel eksternal dan kolom partisi.

    • Baris pertama file CSV digunakan sebagai nama kolom. Task secara otomatis mengatur skip.header.line.count=1 pada tabel eksternal untuk melewati header saat membaca.

    • Karakter quote default adalah tanda kutip ganda ("). Field yang berisi line break, tanda kutip ganda (di-escape sebagai ""), atau koma harus diapit oleh tanda kutip ganda.

    Konfigurasi dasar

    ParameterDeskripsi
    Task NameNama unik untuk task dalam satu penyewa.
    Task DescriptionDeskripsi opsional untuk task.
    Task cycleFrekuensi pemindaian data baru: 5 menit / 15 menit / 60 menit / 1 hari / 7 hari.

    Konfigurasi Data Lake

    ParameterDeskripsi
    ConnectionPilih koneksi data lake sebagai kredensial akses untuk OSS.
    LocationPath OSS yang akan dipindai. Format: oss://<Bucket name>/<OSS path>/. Bucket harus berada di wilayah yang sama dan dalam Akun Alibaba Cloud yang sama dengan task discovery.
    Discovery FormatFormat file yang akan dideteksi: Parquet, ORC, JSON, atau CSV.
    HasilNilai
    Tabel eksternalods_vehicle_gps_raw
    Kolom partisidt, hh
    SkemaDiinferensi dari vin1_2025-09-16_01.parquet

    Catalog Configuration

    ParameterDeskripsi
    ProjectPilih Proyek MaxCompute dengan sintaks tingkat skema yang diaktifkan.
    SchemaPilih skema. Jika tabel eksternal yang baru ditemukan memiliki nama yang sama dengan tabel yang telah dibuat pengguna di skema tersebut, task tidak akan membuat tabel eksternal tersebut.
    oss://<LOCATION path>/<foreign table>/<partition (optional)>/<file>

    Contoh: Jika Location diatur ke oss://maxlake/ dan terdapat file di:

    oss://maxlake/ods_vehicle_gps_raw/dt=2025-09-16/hh=01/vin1_2025-09-16_01.parquet

    Task akan membuat hal berikut: Catatan format CSV

Lihat hasil discovery

  1. Login ke Konsol MaxCompute dan pilih wilayah di pojok kiri atas.Konsol MaxCompute

  2. Di panel navigasi kiri, pilih MaxLake > Data Discovery.

  3. Temukan task target dan klik Browse Results di kolom Operation.

  4. Di halaman detail, tinjau bagian-bagian berikut:

    • Informasi Dasar: Nama discovery, Konfigurasi Discovery, dan Waktu Penemuan Terbaru.

    • Hasil yang baru ditemukan: Tabel eksternal yang ditemukan, termasuk Nama Tabel dan Partisi Tabel. Klik tabel untuk melakukan kueri terhadap skema dan datanya menggunakan SQL.

    • Riwayat Discovery: Riwayat eksekusi yang menampilkan waktu discovery dan jumlah tabel yang ditemukan per eksekusi. Log task untuk 2.000 eksekusi terbaru atau 180 hari terakhir disimpan. Log task yang tidak memenuhi kondisi ini akan dihapus.

Kelola task discovery

  1. Login ke Konsol MaxCompute dan pilih wilayah di pojok kiri atas.Konsol MaxCompute

  2. Di panel navigasi kiri, pilih MaxLake > Data Discovery.

  3. Di halaman Data Discovery, gunakan kontrol berikut di daftar task:

    AksiCara
    Jeda atau lanjutkan taskKlik sakelar Scheduling di kolom Status.
    Jalankan segeraKlik Trigger once immediately di kolom Operation.
    Edit nama, deskripsi, atau jadwal taskKlik Edit di kolom Operation.
    Hapus taskKlik Delete di kolom Operation. Tabel eksternal yang terdaftar tidak dihapus, tetapi skemanya tidak lagi diperbarui.

Langkah berikutnya