全部产品
Search
文档中心

Hologres:Data tidak terstruktur (Object Table)

更新时间:Dec 24, 2025

Hologres V4.0 dan versi yang lebih baru mendukung Object Table untuk mengakses data tidak terstruktur beserta metadata-nya dari Object Storage Service (OSS). Topik ini menjelaskan sintaks penggunaan Object Table dan menyertakan contoh.

Pendahuluan

Di era artificial intelligence, data tidak terstruktur menjadi pendorong utama inovasi teknologi. Dibandingkan dengan informasi terstruktur dalam database tradisional, data tidak terstruktur—seperti teks, citra, audio, video, dan konten media sosial—mengandung pola perilaku yang lebih autentik serta semantik yang lebih kompleks dalam bentuk mentah dan beragamnya. Memproses dan menganalisis data tidak terstruktur membantu perusahaan membangun keunggulan kompetitif yang lebih kuat serta mengungkap nilai lebih besar dari data mereka. Kemampuan Object Table meliputi:

  • Membaca data tidak terstruktur, seperti file PDF, citra, dan PPT, dari OSS dalam format tabel.

  • Berintegrasi dengan dynamic table incremental refresh dan fungsi penyematan untuk memproses data tidak terstruktur. Anda dapat menghasilkan dan menyimpan embedding untuk data tidak terstruktur langsung di dalam Hologres tanpa memanggil algoritma penyematan eksternal. Fitur ini juga memungkinkan identifikasi perubahan file secara bertahap, sehingga mengurangi komputasi berlebihan dan meningkatkan efisiensi.

  • Berintegrasi dengan fungsi AI, seperti ai_gen, untuk melakukan inferensi dan klasifikasi pada data tidak terstruktur. Anda juga dapat menggabungkan pencarian vektor dan pencarian teks lengkap untuk pengambilan dua saluran guna menganalisis dan mencari data tidak terstruktur.

Dengan menggunakan Object Table Hologres bersama fungsi AI, Anda dapat menerapkan pemrosesan, pengambilan, dan analisis end-to-end terhadap data tidak terstruktur di OSS tanpa memindahkan data keluar dari database atau memanggil layanan eksternal. Hal ini meningkatkan keamanan data dan memperluas cakupan analitik data bisnis Anda.

Batasan

  • Fitur ini hanya didukung di Hologres V4.0 dan versi yang lebih baru.

    Catatan

    Jika instans Anda menggunakan versi sebelum V4.0, lihat Upgrade an instance.

  • Object Table mendukung pembacaan data dari file PDF, PPT, dan citra. File video dan audio tidak didukung.

Sintaks

Buat Object Table

  • Object Table dirancang untuk membaca data tidak terstruktur dan memiliki kumpulan kolom tetap. Anda tidak perlu menentukan kolom saat membuat tabel.

  • Setelah membuat Object Table, Anda harus melakukan refresh sekali untuk mengisi tabel tersebut dengan data.

CREATE OBJECT TABLE [IF NOT EXISTS] [schema_name.]<table_name>
WITH (
  -- Properti khusus Object Table
  path = '<oss_path>',                           -- Wajib
  oss_endpoint = '<oss_endpoint>',           -- Wajib
  role_arn = '<role_arn>',                   -- Wajib
  
  -- Parameter umum
  [orientation = '[column | row | row,column]',]
  [table_group = '[tableGroupName]',]
  [distribution_key = 'columnName[,...]]',]
  [clustering_key = '[columnName{:asc}] [,...]]',]
  [storage_mode = '[hot | cold]',]
  [event_time_column = '[columnName [,...]]',]
  [bitmap_columns = '[columnName [,...]]',]
  [dictionary_encoding_columns = '[columnName [,...]]',]
  [time_to_live_in_seconds = '<non_negative_literal>']
);
  • Parameter wajib

    Parameter

    Wajib

    Deskripsi

    path

    Ya

    Jalur direktori OSS yang berisi file. Object Table mengekstrak metadata dari file dalam direktori ini. Contoh: oss://bucket/dir.

    oss_endpoint

    Ya

    Titik akhir jaringan klasik OSS. Untuk informasi selengkapnya tentang nama domain tiap wilayah, lihat Regions and endpoints. Contoh: oss-ap-southeast-1-internal.aliyuncs.com.

    role_arn

    Ya

    Nama Sumber Daya Alibaba Cloud (ARN) dari peran RAM. Contoh: acs:ram::role-id:role/role-name. Anda dapat login ke RAM console, buka halaman Identity Management > Roles, lalu klik nama peran target untuk mendapatkan ARN-nya.

  • Parameter opsional

    Semua parameter berikut bersifat opsional.

    Parameter

    Deskripsi

    Nilai default

    orientation

    Format penyimpanan Object Table. Penyimpanan berorientasi baris, berorientasi kolom, dan hibrida baris-kolom didukung. Untuk informasi selengkapnya, lihat Table storage formats: Column-oriented, row-oriented, and hybrid row-columnar storage.

    column

    table_group

    kelompok tabel tempat Object Table berada.

    Default Table Group

    distribution_key

    kunci distribusi.

    object_uri

    clustering_key

    kunci pengelompokan.

    object_uri

    storage_mode

    Mode penyimpanan. Nilai yang valid adalah hot (penyimpanan panas) dan cold (penyimpanan dingin). Untuk informasi selengkapnya, lihat Data tiering.

    hot

    event_time_column

    Kunci segmen. Untuk informasi selengkapnya, lihat Event time column (segment key).

    last_modified_at

    bitmap_columns

    Indeks bitmap.

    object_uri:auto,etag:auto

    dictionary_encoding_columns

    Enkode bit: Untuk informasi selengkapnya, lihat Dictionary Encoding.

    object_uri:auto,etag:auto

    time_to_live_in_seconds

    masa hidup data tabel.

    3153600000

Lihat Object Table

Kueri Object Table

Setelah Object Table dibuat, Anda dapat mengkuerinya seperti mengkueri tabel standar.

SELECT * FROM <OBJECT_TABLE_NAME>;

Object Table memiliki kumpulan kolom tetap. Kolom-kolom tersebut dijelaskan sebagai berikut:

Nama kolom

Tipe

Deskripsi

object_uri

TEXT

Jalur file OSS tertentu yang dipetakan.

etag

TEXT

ETag dibuat saat setiap objek dihasilkan. ETag bersifat unik dan mengidentifikasi konten file tertentu.

file

FILE

FILE adalah tipe yang baru didukung. Formatnya mirip JSON dan digunakan untuk menyimpan metadata terperinci. Anda dapat menguraikannya menggunakan fungsi JSON. Isinya mencakup:

  • object_uri: Jalur objek.

  • etag: Pengidentifikasi unik objek.

  • size: Ukuran file.

  • last_modified_at: Waktu objek terakhir dimodifikasi.

  • owner_name: Pemilik file.

  • object_source: OSS.

  • oss_endpoint: Titik akhir OSS yang dipetakan.

  • object_table_id: ID Object Table yang sesuai.

  • role_arn: ARN yang sesuai.

metadata

JSON

Metadata kustom.

Lihat skema tabel Object Table

  • Lihat menggunakan hg_dump_script

    SELECT hg_dump_script('[<schema_name>.]<object_table_name>');
  • Lihat menggunakan tabel sistem hologres.hg_table_properties

    SELECT * FROM hologres.hg_table_properties WHERE table_name = '<object_table_name>';

Refresh Object Table

Setelah Object Table dibuat, Anda harus melakukan refresh sekali untuk mengisinya dengan data. Saat ini, hanya refresh manual yang didukung. Sintaksnya sebagai berikut:

REFRESH OBJECT TABLE [<schema_name>.]<table_name>;

Ubah Object Table

Anda hanya dapat mengubah nama tabel dan skema Object Table. Sintaksnya sebagai berikut:

-- Ubah nama tabel
ALTER OBJECT TABLE [IF EXISTS] <table_name> RENAME TO <new_name>;
-- Ubah skema
ALTER OBJECT TABLE [IF EXISTS] [<schema_name>.]<table_name> SET SCHEMA <new_schema>;

Hapus Tabel Objek

-- Jika recycle bin tabel diaktifkan, Object Table yang dihapus akan otomatis dipindahkan ke recycle bin.
DROP OBJECT TABLE [IF EXISTS] <table_name> [FORCE];

Jika recycle bin diaktifkan untuk database, Object Table yang dihapus akan dipindahkan ke recycle bin. Anda dapat menggunakan perintah untuk memulihkan Object Table tersebut. Tabel yang dipulihkan tetap berupa Object Table. Untuk informasi selengkapnya, lihat Table recycle bin.

Praktik terbaik

Anda dapat menggabungkan Object Table dengan fitur-fitur seperti Dynamic Table, fungsi AI, pencarian vektor, dan pencarian teks lengkap untuk mengotomatiskan pemrosesan, pengambilan, dan analisis data tidak terstruktur. Untuk informasi selengkapnya, lihat: