Layanan perusahaan sering mengunggah file data seperti formulir standar dan file log ke Object Storage Service (OSS). Namun, data ini sering tidak memiliki manajemen metadata, sehingga sulit untuk dianalisis. Fitur penemuan metadata AnalyticDB for MySQL mendukung pemetaan otomatis jalur OSS, pengelompokan cerdas file, serta deteksi dinamis perubahan bidang untuk membuat dan memperbarui metadata secara otomatis. Anda dapat membuat pekerjaan penemuan metadata untuk menemukan bucket OSS dan file data di wilayah yang sama, lalu mengimpor data dari OSS ke AnalyticDB for MySQL.
Prasyarat
Kluster AnalyticDB for MySQL Enterprise Edition, Basic Edition, atau Data Lakehouse Edition telah dibuat.
Akun database telah dibuat untuk kluster AnalyticDB for MySQL.
Jika menggunakan Akun Alibaba Cloud, Anda hanya perlu membuat akun istimewa.
Jika menggunakan Pengguna Resource Access Management (RAM), Anda harus membuat akun istimewa dan akun standar, serta mengaitkan akun standar dengan Pengguna RAM.
Sebuah bucket Object Storage Service (OSS) telah dibuat di wilayah yang sama dengan kluster AnalyticDB for MySQL.
File data telah diunggah ke bucket OSS. Jalur OSS harus memenuhi kondisi berikut:
Jalur OSS dalam format
<BucketName>/direktori/.../direktori/tabel/fileatau<BucketName>/direktori/.../direktori/tabel/partisi/.../partisi/file.Bucket OSS memiliki setidaknya satu tingkat direktori anak.
File di tabel atau partisi yang sama di jalur OSS berada dalam format yang sama.
File di tabel atau partisi yang sama di jalur OSS memiliki tipe dan jumlah bidang yang sama.
Batasan
Anda hanya dapat membuat satu pekerjaan penemuan metadata untuk setiap kluster di jalur OSS yang sama.
Prosedur
Masuk ke Konsol AnalyticDB for MySQL. Di pojok kiri atas konsol, pilih wilayah. Di panel navigasi sebelah kiri, klik Clusters. Temukan kluster yang ingin Anda kelola dan klik ID kluster.
Di panel navigasi sebelah kiri, pilih .
Di halaman Metadata Discovery, di area Sumber Data OSS, klik Start Wizard.
CatatanJika tombol Start Wizard redup, Anda harus membuat akun istimewa terlebih dahulu.
Di tab OSS Data Source, konfigurasikan parameter sesuai dengan deskripsi dalam tabel berikut.
Item konfigurasi
Parameter
Deskripsi
Datasource Config
Data Warehouse Mode
Penemuan metadata otomatis dibangun untuk gudang data standar berbasis OSS dan menyediakan presisi identifikasi yang tinggi.
CatatanMode gratis tidak didukung.
OSS Directory Location
File umum: jalur penyimpanan OSS dari file. Jalur harus diakhiri dengan garis miring (
/).Hasil pemetaan bervariasi berdasarkan nilai parameter OSS Directory Location. Untuk informasi lebih lanjut, lihat hasil pemetaan.
PentingSaat mengonfigurasi parameter OSS Directory Location, pastikan bahwa setidaknya satu tingkat direktori anak ada setelah OSS Directory Location. Anda tidak dapat memilih direktori induk dari file.
Tabel danau data: direktori tingkat atas dari jalur penyimpanan OSS tabel danau data. Direktori harus diakhiri dengan garis miring (
/). Sebagai contoh, jika direktori tabel Iceberg adalahoss://adb/testdb/iceberg_table/, Anda harus menetapkan lokasi direktori OSS menjadioss://adb/testdb/.
Path Filter Rule (optional)
Tentukan jalur penyimpanan file yang ingin Anda petakan ke AnalyticDB for MySQL.
Termasuk: Semua file yang disimpan di jalur penyimpanan yang ditentukan dipetakan ke AnalyticDB for MySQL.
PentingJika beberapa file disimpan di jalur penyimpanan yang dipilih, file-file tersebut harus memiliki tipe yang sama dan berisi tipe dan jumlah kolom yang sama untuk dipetakan.
Kecualikan: File yang disimpan di jalur penyimpanan yang ditentukan tidak dipetakan ke AnalyticDB for MySQL.
Format Resolver
Pilih resolver format yang sesuai dengan format file. Untuk format file umum, resolver format juga menyediakan fitur penguraian otomatis, yang memanggil resolver untuk format file umum secara berurutan untuk mengurai file.
PentingJika tipe resolver yang dipilih tidak sesuai dengan format file, pemetaan gagal.
Tipe resolver yang didukung:
Common Files:
csv,json,parquet,avro,orc, danotomatis.Data Lake Tables:
iceberg.CatatanFitur tabel danau data sedang dalam pratinjau publik. Untuk menggunakan fitur ini, Submit a ticket untuk menghubungi dukungan teknis.
Configuration Item (optional)
Pengaturan kustom lanjutan. Saat Anda memilih CSV untuk resolver format, Anda dapat mengatur parameter berikut:
Pemisah kolom: menentukan pemisah kolom file data CSV.
Pengenal referensi: menentukan pengenal referensi tabel AnalyticDB for MySQL setelah penguraian.
Mode header tabel: mengidentifikasi header tabel file CSV untuk menentukan nama kolom tabel.
Izinkan bidang kolom tunggal: menentukan apakah mengizinkan baris catatan di file data CSV memiliki hanya satu kolom.
false: Tidak.
true: Ya.
Konfigurasi lainnya: Anda dapat mengonfigurasi parameter untuk menentukan apakah akan menggunakan baris pertama file CSV sebagai nama kolom. Jika Anda memiliki kebutuhan ini, hubungi dukungan teknis.
Scheduling Configuration
Scheduling Frequency
Jika Anda ingin secara berkala mendapatkan perubahan pada kolom atau data di file data, Anda dapat menetapkan frekuensi penjadwalan untuk secara berkala menjalankan pekerjaan penemuan metadata.
Jika data file OSS berubah, data tabel yang dipetakan ulang ke AnalyticDB for MySQL diperbarui berdasarkan aturan Destination Metadata Configuration.
Destination Metadata Configuration
Schema Name
Tetapkan nama skema, yang dipetakan ke nama database di AnalyticDB for MySQL. Secara default, skema baru dibuat untuk setiap pekerjaan penemuan.
Saat Anda menentukan nama database, perhatikan hal-hal berikut:
Nama database tidak boleh sama dengan nama database yang sudah ada di AnalyticDB for MySQL.
Nama database tidak boleh sama dengan nama database pekerjaan penemuan metadata lainnya.
Configuration Item (optional)
Tentukan cara memperbarui tabel yang dipetakan ke AnalyticDB for MySQL saat bidang file OSS berubah atau file OSS dihapus.
File Field Change Rule:
Add Only Columns: Saat kolom ditambahkan ke file OSS, kolom tersebut juga ditambahkan ke tabel yang dipetakan ke AnalyticDB for MySQL setelah pekerjaan penemuan metadata dijalankan kembali.
Ignore Table Updates: Saat kolom atau partisi file OSS diubah, hanya partisi yang disinkronkan ke tabel yang dipetakan ke AnalyticDB for MySQL setelah pekerjaan penemuan metadata dijalankan kembali. Kolom tidak ditambahkan atau dihapus.
Object Deletion Change Rule: Hanya Ignore Deletion Updates yang didukung. Ini berarti jika file OSS dihapus, tabel yang dipetakan ke AnalyticDB for MySQL masih ada setelah pekerjaan penemuan metadata dijalankan kembali.
PentingAnda dapat melakukan Operasi DML pada tabel yang dipetakan ke AnalyticDB for MySQL.
Jika Anda menambahkan kolom ke tabel AnalyticDB for MySQL, kolom tersebut tidak ditimpa dan tetap ada setelah pekerjaan penemuan metadata dijalankan kembali.
Jika Anda menghapus kolom dari tabel yang dipetakan ke AnalyticDB for MySQL, kolom yang dihapus dipetakan kembali ke AnalyticDB for MySQL setelah pekerjaan penemuan metadata dijalankan kembali.
Setelah mengonfigurasi parameter, klik Create.
CatatanSetelah pekerjaan penemuan metadata dibuat, pekerjaan tersebut akan berjalan otomatis pada interval tertentu. Jika ingin menjalankan pekerjaan segera, temukan pekerjaan di daftar pekerjaan dan klik Execute di kolom Actions.
Setelah pekerjaan dimulai, Anda dapat mengelolanya di halaman Job List. Anda dapat melihat status pekerjaan dan memodifikasi konfigurasinya.
CatatanSetelah pekerjaan berhasil dijalankan, Anda dapat membuka halaman untuk melihat database, tabel, dan partisi yang dipetakan ke AnalyticDB for MySQL.
Contoh pemetaan jalur OSS ke AnalyticDB for MySQL
Hasil pemetaan jalur OSS ke AnalyticDB for MySQL bergantung pada dua faktor berikut:
File OSS dan jalurnya.
OSS Directory Location yang dipilih dalam pekerjaan penemuan metadata.
Berdasarkan OSS Directory Location yang dipilih, sistem secara otomatis memetakan direktori tingkat pertama di bawah OSS Directory Location ke nama tabel, serta semua direktori berikutnya di bawah OSS Directory Location ke partisi. Berikut adalah contohnya.
Jalur OSS | Lokasi direktori OSS | Tabel yang dipetakan ke AnalyticDB for MySQL |
oss://adb/Table1/file1.csv oss://adb/Table1/file2.json | oss://adb/ | Tabel tidak dapat dipetakan. Alasan: File di direktori Table1 berada dalam format CSV dan JSON. Format file tidak konsisten. Oleh karena itu, tabel tidak dapat dipetakan. Penting Jika file dalam format yang sama tetapi tipe data bidang dalam file tidak konsisten, tabel juga tidak dapat dipetakan. |
oss://adb/Table2/year/month/day/file3.json oss://adb/Table2/year/month/day/file4.json | oss://adb/ | Tabel yang dipetakan ke AnalyticDB for MySQL adalah tabel terpartisi bernama Catatan Karena tidak ada kunci partisi, partition_num digunakan. |
oss://adb/Table2/ | Tabel yang dipetakan ke AnalyticDB for MySQL adalah tabel terpartisi bernama | |
oss://adb/Table2/year/month/ | Tabel yang dipetakan ke AnalyticDB for MySQL adalah tabel non-partisi bernama | |
oss://adb/Table2/year/month/day/ | Tabel tidak dapat dipetakan. Alasan: Tidak ada tingkat direktori lain setelah OSS Directory Location yang dipilih. | |
oss://adb/Table3/year=2022/month=03/day=01/file5.csv oss://adb/Table3/year=2022/month=03/day=01/file6.csv | oss://adb/ | Tabel yang dipetakan ke AnalyticDB for MySQL adalah tabel terpartisi bernama |
| Tabel tidak dapat dipetakan. Alasan: year=2022 atau month=03 tidak sesuai dengan konvensi penamaan tabel di AnalyticDB for MySQL. | |
oss://adb/Table4/2020/03/30/file7.csv oss://adb/Table3/2020/03/30/file8.csv | oss://adb/ | Tabel yang dipetakan ke AnalyticDB for MySQL adalah tabel terpartisi bernama Catatan Karena tidak ada kunci partisi, partition_num digunakan. |
| Tabel tidak dapat dipetakan. Alasan: 2020 atau 03 tidak sesuai dengan konvensi penamaan tabel di AnalyticDB for MySQL. |