All Products
Search
Document Center

MaxCompute:Gunakan proyek eksternal dengan FileSystem Catalog untuk membaca dan menulis Data Paimon pada lakehouse

Last Updated:Mar 25, 2026

Topik ini menjelaskan cara membuat Paimon Catalog dan menggunakan Flink untuk menghasilkan data. Anda kemudian dapat membuat proyek eksternal di MaxCompute berdasarkan FileSystem Catalog untuk membaca data langsung dari tabel Paimon.

Catatan penggunaan

  • Hanya tabel format Paimon yang didukung.

  • Penulisan ke tabel Dynamic Bucket tidak didukung.

  • Penulisan ke tabel Cross Partition tidak didukung.

  • Pemetaan tipe data.

Prosedur

Langkah 1: Siapkan data sumber

Jika Anda sudah memiliki data tabel Paimon di Object Storage Service (OSS), lewati langkah ini.

  1. Login ke Konsol OSS dan buat bucket bernama paimon-fs. Untuk informasi selengkapnya, lihat Buat bucket. Di dalam bucket tersebut, buat folder bernama paimon-test.

  2. Login ke Konsol Flink, lalu pilih wilayah di pojok kiri atas.

  3. Klik nama ruang kerja target. Di panel navigasi sebelah kiri, pilih Catalogs .

  4. Pada halaman Catalog List , klik Create Catalog di sebelah kanan. Pada kotak dialog Create Catalog , pilih Apache Paimon, klik Next , lalu konfigurasikan parameter berikut:

    Parameter

    Wajib

    Deskripsi

    metastore

    Wajib

    Tipe metastore. Pada contoh ini, pilih filesystem.

    catalog name

    Wajib

    Nama catalog kustom. Misalnya, paimon-fs-catalog.

    warehouse

    Wajib

    Direktori gudang data yang ditentukan dalam layanan OSS. Pada contoh ini, oss://paimon-fs/paimon-test/.

    fs.oss.endpoint

    Wajib

    Titik akhir layanan OSS. Misalnya, titik akhir untuk wilayah Tiongkok (Hangzhou) adalah oss-cn-hangzhou-internal.aliyuncs.com.

    fs.oss.accessKeyId

    Wajib

    ID AccessKey yang diperlukan untuk mengakses layanan OSS.

    fs.oss.accessKeySecret

    Wajib

    Rahasia AccessKey yang diperlukan untuk mengakses layanan OSS.

  5. Buat tabel Paimon dan tulis data ke dalamnya menggunakan Paimon Catalog.

    1. Di panel navigasi kiri, pilih Development > Scripts.

    2. Pada tab New Script, Anda dapat mengklik image untuk membuat skrip kueri baru.

      Jalankan kode berikut. Sesuaikan nama dalam kode sesuai kebutuhan.

      Catatan

      Karena Flink menggunakan Paimon Catalog, struktur sistem file default Paimon Catalog akan diterapkan: paimon_catalog_name/database_name.db/xxxx. Jika Anda menggunakan engine lain untuk membaca atau menulis data Paimon di direktori OSS ini, ikuti struktur tersebut dan simpan hanya data berformat Paimon. Jika tidak, data dianggap tidak valid dan terjadi error.

      CREATE TABLE `paimon-fs-catalog`.`default`.test_tbl (
          id BIGINT,
          data STRING,
          dt STRING,
          PRIMARY KEY (dt, id) NOT ENFORCED
      ) PARTITIONED BY (dt)
      WITH (
          'bucket' = '3'
      );
      
      INSERT INTO `paimon-fs-catalog`.`default`.test_tbl 
        VALUES (1,'CCC','2024-07-18'), (2,'DDD','2024-07-18'),(3,'EEE','2025-06-18');
  6. Lihat file yang dihasilkan. Login ke Konsol OSS dan lihat tabel Paimon di direktori OSS yang terhubung ke Paimon Catalog.

    image

Langkah 2: Buat sumber data eksternal di MaxCompute

  1. Login ke Konsol MaxCompute, lalu pilih wilayah di pojok kiri atas.

  2. Di panel navigasi sebelah kiri, pilih Manage Configurations > External Data Source.

  3. Pada halaman External Data Source, klik Create External Data Source.

  4. Pada kotak dialog Create External Data Source, konfigurasikan parameter. Tabel berikut menjelaskan parameter tersebut.

    Parameter

    Wajib

    Deskripsi

    External Data Source Type

    Wajib

    Pilih Filesystem Catalog.

    External Data Source Name

    Wajib

    Tentukan nama kustom. Konvensi penamaan sebagai berikut:

    • Nama harus dimulai dengan huruf dan hanya boleh berisi huruf kecil, garis bawah (_), dan angka.

    • Panjang nama tidak boleh melebihi 128 karakter.

    Misalnya, external_fs.

    Description

    Opsional

    Masukkan deskripsi sesuai kebutuhan.

    Region

    Wajib

    Wilayah saat ini dipilih secara default.

    Authentication And Authorization

    Wajib

    Peran RAM Alibaba Cloud dipilih secara default.

    RoleARN

    Wajib

    Nama Sumber Daya Alibaba Cloud (ARN) dari peran RAM. Peran ini harus memiliki izin untuk mengakses layanan Data Lake Formation (DLF) dan OSS.

    1. Login ke Konsol Resource Access Management (RAM).

    2. Di panel navigasi sebelah kiri, pilih Identities > Roles.

    3. Di bagian Basic Information, Anda dapat menemukan ARN.

    Contoh: acs:ram::124****:role/aliyunodpsdefaultrole.

    Storage Type

    • OSS

    • OSS-HDFS

    Endpoint

    Dihasilkan secara otomatis. Titik akhir untuk wilayah Tiongkok (Hangzhou) adalah oss-cn-hangzhou-internal.aliyuncs.com.

    Foreign Server Supplemental Properties

    Opsional

    Atribut tambahan khusus untuk sumber data eksternal. Setelah Anda menentukan properti ini, task yang menggunakan sumber data ini dapat mengakses sistem sumber berdasarkan perilaku yang ditentukan oleh parameter.

    Catatan

    Untuk informasi tentang parameter yang didukung, lihat pembaruan mendatang dalam dokumentasi resmi. Parameter akan dirilis secara bertahap seiring perkembangan produk.

  5. Klik Confirm untuk membuat sumber data eksternal.

  6. Pada halaman External Data Source, temukan sumber data target dan klik Details di kolom Actions.

Langkah 3: Buat proyek eksternal di MaxCompute

  1. Login ke Konsol MaxCompute, lalu pilih wilayah di pojok kiri atas.

  2. Di panel navigasi sebelah kiri, pilih Manage Configurations > Projects.

  3. Pada tab External Project, klik Create Project.

  4. Pada kotak dialog Create Project, konfigurasikan informasi proyek sesuai petunjuk lalu klik OK.

    Parameter

    Wajib

    Deskripsi

    Project Type

    Wajib

    Proyek eksternal dipilih secara default.

    Region

    Wajib

    Wilayah saat ini dipilih secara default dan tidak dapat diubah.

    Project Name (Globally Unique)

    Wajib

    Nama harus dimulai dengan huruf, berisi huruf, angka, dan garis bawah (_), serta panjangnya antara 3 hingga 28 karakter.

    MaxCompute Foreign Server Type

    Opsional

    Pilih Filesystem Catalog.

    MaxCompute Foreign Server

    Opsional

    • Use Existing: Menampilkan daftar sumber data eksternal yang telah dibuat.

    • Create Foreign Server: Membuat dan menggunakan sumber data eksternal baru.

    MaxCompute Foreign Server Name

    Wajib

    • Use Existing: Pilih nama sumber data eksternal yang ada dari daftar drop-down.

    • Sumber data eksternal baru: Anda dapat menggunakan nama sumber data eksternal baru tersebut.

    Authentication and Authorization

    Wajib

    Identitas pelaksana task. Jika peran terkait layanan belum dibuat, buat terlebih dahulu sebelum menggunakan mode ini.

    RoleARN

    Wajib

    ARN dari peran RAM. Peran ini harus memiliki izin untuk mengakses layanan DLF dan OSS.

    1. Login ke Konsol Resource Access Management (RAM).

    2. Di panel navigasi sebelah kiri, pilih Identities > Roles.

    3. Di bagian Basic Information, Anda dapat menemukan ARN.

    Contoh: acs:ram::124****:role/aliyunodpsdefaultrole.

    Storage Type

    • OSS

    • OSS-HDFS

    Endpoint

    Wajib

    Dihasilkan secara default.

    Bucket Catalog

    Wajib

    Pilih bucket OSS lengkap dan direktori sistem file pada tingkat Catalog. Pada contoh ini, oss://paimon-fs/paimon-test/.

    Table Format

    Wajib

    Paimon dipilih secara default.

    Billing Method

    Wajib

    Subscription atau Pay-as-you-go.

    Default Quota

    Wajib

    Pilih kuota yang sudah ada.

    Description

    Opsional

    Deskripsi kustom untuk proyek.

Langkah 4: Baca dan tulis tabel Paimon

  1. Untuk login ke proyek eksternal, pilih tool koneksi.

  2. Buka proyek eksternal yang baru dibuat dan lihat skema Paimon yang ada.

    -- Aktifkan sintaks skema pada tingkat sesi.
    SET odps.namespace.schema=true;
    SHOW schemas;
    
    -- Hasil berikut dikembalikan.
    ID = 20250922********wbh2u7
    default
    
    
    OK
  3. Baca tabel di skema default.

    SET odps.sql.allow.fullscan=true; 
    SELECT * FROM <external_project_name>.default.test_tbl;
    
    -- Hasil berikut dikembalikan.
    +------------+------------+------------+
    | id         | data       | dt         | 
    +------------+------------+------------+
    | 1          | CCC        | 2024-07-18 | 
    | 2          | DDD        | 2024-07-18 | 
    | 3          | EEE        | 2025-06-18 | 
    +------------+------------+------------+
  4. Tulis data ke tabel Paimon yang ada.

    INSERT INTO test_tbl PARTITION(dt='2025-08-26') VALUES(4,'FFF');
    SELECT * FROM test_tbl;
    
    -- Hasil berikut dikembalikan.
    +------------+------------+------------+
    | id         | data       | dt         | 
    +------------+------------+------------+
    | 1          | CCC        | 2024-07-18 | 
    | 2          | DDD        | 2024-07-18 | 
    | 3          | EEE        | 2025-06-18 | 
    | 4          | FFF        | 2025-08-26 | 
    +------------+------------+------------+
  5. Buat tabel di skema baru dan tulis data ke dalamnya.

    Saat Anda membuat tabel dan menulis data ke dalamnya, MaxCompute juga menulis data baru tersebut mengikuti struktur sistem file Paimon Catalog.

    -- Buat skema.
    CREATE schema testschema;
    
    -- Buat tabel di skema baru.
    use schema testschema;
    CREATE TABLE table_test(id INT, name STRING);
    
    -- Masukkan data ke tabel baru dan baca datanya.
    INSERT INTO table_test VALUES (101,'Zhang San'),(102,'Li Si');
    SELECT * FROM table_test;
    
    -- Hasil berikut dikembalikan.
    +------------+------------+
    | id         | name       | 
    +------------+------------+
    | 101        | Zhang San  | 
    | 102        | Li Si      | 
    +------------+------------+
  6. Login ke Konsol OSS. Anda dapat menemukan skema dan tabel baru di direktori bucket proyek eksternal.