Ekspor data lengkap dari Tablestore ke OSS - Tablestore

Anda dapat menggunakan layanan Data Integration di DataWorks untuk mengekspor data lengkap dari Tablestore ke OSS. Hal ini memungkinkan Anda mencadangkan data dengan biaya lebih rendah atau mengekspor data sebagai file ke mesin lokal. Setelah data lengkap diekspor ke OSS, Anda dapat mengunduh file tersebut ke mesin lokal untuk diproses lebih lanjut.

Prasyarat

Sebelum mengekspor data, pastikan prasyarat berikut terpenuhi:

Dapatkan nama instans, titik akhir, ID wilayah, dan informasi lainnya untuk tabel Tablestore sumber.
Buat bucket OSS.
Buat AccessKey untuk akun Alibaba Cloud Anda atau pengguna Resource Access Management (RAM) yang memiliki izin untuk Tablestore dan OSS.
Aktifkan DataWorks dan buat ruang kerja di wilayah tempat bucket OSS atau instans Tablestore Anda berada.
Buat kelompok sumber daya Serverless dan sambungkan ke ruang kerja. Untuk informasi tentang penagihan, lihat Penagihan kelompok sumber daya Serverless.

Catatan

Jika ruang kerja DataWorks dan instans Tablestore Anda berada di wilayah yang berbeda, Anda harus membuat koneksi peering VPC untuk mengaktifkan konektivitas jaringan lintas wilayah.

Buat koneksi peering VPC untuk konektivitas jaringan lintas wilayah

Contoh berikut menunjukkan skenario di mana instans tabel sumber berada di wilayah Tiongkok (Shanghai) dan ruang kerja DataWorks berada di wilayah Tiongkok (Hangzhou).

Sambungkan VPC ke instans Tablestore.
1. Masuk ke Konsol Tablestore. Di bilah navigasi atas, pilih wilayah tempat tabel target berada.
2. Klik alias instans untuk menuju ke halaman Instance Management.
3. Di tab Network Management, klik Attach VPC. Pilih VPC dan vSwitch, masukkan nama VPC, lalu klik OK.
4. Tunggu hingga VPC tersambung. Halaman akan otomatis dimuat ulang untuk menampilkan VPC ID dan VPC Endpoint dalam daftar VPC.
  Catatan
  Saat Anda menambahkan sumber data Tablestore di Konsol DataWorks, Anda harus menggunakan titik akhir VPC ini.
Dapatkan informasi VPC untuk kelompok sumber daya ruang kerja DataWorks.
1. Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah tempat ruang kerja Anda berada. Di panel navigasi sebelah kiri, klik Workspaces untuk menuju ke halaman Workspace List.
2. Klik nama ruang kerja untuk menuju ke halaman Workspace Details. Di panel navigasi kiri, klik Resource Groups untuk melihat kelompok sumber daya yang tersambung ke ruang kerja.
3. Di sebelah kanan kelompok sumber daya target, klik Network Settings. Di bagian Resource Scheduling & Data Integration, lihat ID VPC dari virtual private cloud yang tersambung.
Buat koneksi peering VPC dan konfigurasi entri rute.
1. Masuk ke Konsol VPC. Di panel navigasi sebelah kiri, klik VPC Peering Connections, lalu klik Create Peering Connection.
2. Di halaman Create Peering Connection, masukkan nama untuk koneksi peering dan pilih instans VPC peminta, tipe akun penerima, wilayah penerima, dan instans VPC penerima. Lalu, klik OK.
3. Di halaman VPC Peering Connections, temukan koneksi peering VPC tersebut dan klik Configure Route Entry di kolom Requester VPC dan Accepter VPC.
  Untuk blok CIDR tujuan, masukkan blok CIDR dari VPC peer. Misalnya, saat Anda mengonfigurasi entri rute untuk VPC peminta, masukkan blok CIDR dari VPC penerima. Saat Anda mengonfigurasi entri rute untuk VPC penerima, masukkan blok CIDR dari VPC peminta.

Prosedur

Ikuti langkah-langkah berikut untuk mengonfigurasi dan menjalankan tugas ekspor data.

Langkah 1: Tambahkan sumber data Tablestore

Pertama, konfigurasikan sumber data Tablestore di DataWorks untuk menghubungkan ke data sumber.

Masuk ke Konsol DataWorks. Alihkan ke wilayah tujuan. Di panel navigasi sebelah kiri, pilih Data Integration > Data Integration. Dari daftar tarik-turun, pilih ruang kerja dan klik Go To Data Integration.
Di panel navigasi sebelah kiri, klik Data Source.
Di halaman Data Source List, klik Add Data Source.
Di kotak dialog Add Data Source, cari dan pilih Tablestore sebagai jenis sumber data.

Di kotak dialog Add OTS Data Source, konfigurasikan parameter sumber data seperti yang dijelaskan dalam tabel berikut.

Parameter	Deskripsi
Data Source Name	Nama sumber data harus merupakan kombinasi huruf, angka, dan garis bawah (_). Nama tidak boleh diawali dengan angka atau garis bawah (_).
Data Source Description	Deskripsi singkat tentang sumber data. Panjang deskripsi tidak boleh melebihi 80 karakter.
Region	Pilih wilayah tempat instans Tablestore berada.
Tablestore Instance Name	Nama instans Tablestore.
Endpoint	Titik akhir instans Tablestore. Gunakan titik akhir VPC.
AccessKey ID	ID AccessKey dan Rahasia AccessKey dari akun Alibaba Cloud atau pengguna RAM.
AccessKey Secret

Uji konektivitas kelompok sumber daya.
Saat membuat sumber data, Anda harus menguji konektivitas kelompok sumber daya untuk memastikan bahwa kelompok sumber daya untuk tugas sinkronisasi dapat terhubung ke sumber data. Jika tidak, tugas sinkronisasi data tidak dapat dijalankan.
1. Di bagian Connection Configuration, klik Test Connectivity di kolom Connectivity Status untuk kelompok sumber daya.
2. Setelah uji konektivitas berhasil, Connectivity Status berubah menjadi Connected. Klik Selesai. Sumber data baru muncul dalam daftar sumber data.
  Jika uji konektivitas Fails, gunakan Connectivity Diagnostic Tool untuk memecahkan masalah.

Langkah 2: Tambahkan sumber data OSS

Konfigurasikan sumber data OSS sebagai tujuan ekspor data.

Klik lagi Add Data Source. Di kotak dialog, cari dan pilih OSS sebagai jenis sumber data, lalu konfigurasikan parameter sumber data.

Parameter	Deskripsi
Data Source Name	Nama sumber data harus terdiri dari huruf, angka, dan garis bawah (_). Nama tidak boleh diawali dengan angka atau garis bawah (_).
Data Source Description	Deskripsi singkat tentang sumber data. Panjang deskripsi tidak boleh melebihi 80 karakter.
Access Mode	RAM Role Authorization: Akun layanan DataWorks mengakses sumber data dengan mengasumsikan peran RAM. Jika ini pertama kalinya Anda memilih mode ini, ikuti petunjuk di layar untuk memberikan izin yang diperlukan. Mode Access Key: Akses sumber data menggunakan ID AccessKey dan Rahasia AccessKey dari akun Alibaba Cloud atau pengguna RAM.
Select Role	Parameter ini hanya diperlukan jika Anda mengatur Access Mode ke RAM Role Authorization.
AccessKey ID	Parameter ini hanya diperlukan jika Anda mengatur Access Mode ke Access Key Mode. ID AccessKey dan Rahasia AccessKey dari akun Alibaba Cloud atau pengguna RAM.
AccessKey Secret
Region	Wilayah tempat bucket berada.
Endpoint	Nama domain OSS. Untuk informasi selengkapnya, lihat Wilayah dan titik akhir.
Bucket	Nama bucket.

Setelah Anda mengonfigurasi parameter dan uji konektivitas berhasil, klik Complete untuk menambahkan sumber data.

Langkah 3: Konfigurasi tugas sinkronisasi offline

Buat dan konfigurasikan tugas sinkronisasi data untuk menentukan aturan transfer data dari Tablestore ke OSS.

Buat node tugas

Buka halaman Data Development.
1. Masuk ke Konsol DataWorks.
2. Di bilah navigasi atas, pilih kelompok sumber daya dan wilayah.
3. Di panel navigasi sebelah kiri, pilih Data Development and O&M > Data Development.
4. Pilih ruang kerja yang sesuai dan klik Go To DataStudio.
Di halaman Data Development di Konsol DataStudio, klik ikon di sebelah kanan Project Folder dan pilih New Node > Data Integration > Offline Synchronization.
Di kotak dialog Create Node, Anda dapat memilih Path, mengatur Sumber Data ke Tablestore dan Tujuan Data ke OSS, memasukkan Name, lalu klik Confirm.

Konfigurasi tugas sinkronisasi

Di bawah Project Folder, klik node tugas sinkronisasi offline Anda dan konfigurasikan tugas sinkronisasi di antarmuka tanpa kode atau editor kode.

Antarmuka tanpa kode (default)

Konfigurasikan item berikut:

Data Source: Pilih sumber dan tujuan data.
Runtime Resource: Pilih kelompok sumber daya. Setelah Anda membuat pilihan, sistem secara otomatis menguji konektivitas sumber data.

Data Source:

Table: Anda dapat memilih tabel sumber dari daftar tarik-turun.

Primary Key Range (Start): Kunci primer awal dari rentang yang akan dibaca. Nilainya adalah larik JSON. inf_min merepresentasikan tak hingga negatif.

Jika kunci primer mencakup kolom int bernama id dan kolom string bernama name, konfigurasi berikut adalah contohnya:

Rentang kunci primer yang ditentukan	Data lengkap
`[ { "type": "int", "value": "000" }, { "type": "string", "value": "aaa" } ]`	`[ { "type": "inf_min" }, { "type": "inf_min" } ]`

Primary Key Range (End): Akhir dari rentang kunci primer untuk data yang dibaca, ditentukan sebagai larik JSON. inf_max merepresentasikan tak hingga positif.

Jika kunci primer mencakup kolom int bernama id dan kolom string bernama name, konfigurasi berikut adalah contohnya:

Rentang kunci primer yang ditentukan	Data lengkap
`[ { "type": "int", "value": "999" }, { "type": "string", "value": "zzz" } ]`	`[ { "type": "inf_max" }, { "type": "inf_max" } ]`

Shard Configuration: Konfigurasi shard kustom dalam format larik JSON. Biasanya, Anda dapat membiarkan parameter ini tidak dikonfigurasi dengan mengaturnya ke [].
Jika terjadi hotspot dalam penyimpanan data Tablestore dan kebijakan sharding otomatis Tablestore Reader tidak efektif, kami menyarankan agar Anda menggunakan aturan sharding kustom. Aturan sharding kustom memungkinkan Anda menentukan kunci shard dalam rentang kunci primer. Anda hanya perlu mengonfigurasi kunci shard, bukan semua kunci primer.

Data Destination: Pilih Text Type dan konfigurasikan parameter yang sesuai.
- Text Type: Nilai yang valid adalah csv, text, orc, dan parquet.
- File Name (including Path): Jalur lengkap ke file di bucket OSS. Misalnya, tablestore/resource_table.csv.
- Column Delimiter: Nilai default adalah ,. Jika pemisah adalah karakter non-printable, masukkan pengkodean Unicode-nya, seperti \u001b atau \u007c.
- File Path: Jalur file di bucket OSS. Parameter ini hanya diperlukan untuk jenis file parquet.
- File Name: Nama file di bucket OSS. Parameter ini hanya diperlukan untuk file dalam format parquet.
Destination Field Mapping: Memetakan bidang dari tabel sumber ke file tujuan. Setiap baris merepresentasikan satu bidang dalam format JSON.
- Source Field: Bidang kunci primer dan kolom atribut dari tabel sumber.
  Jika kunci primer mencakup kolom int bernama id dan kolom string bernama name, serta kolom atribut mencakup bidang int bernama age, konfigurasi berikut adalah contohnya:
```
{"name":"id","type":"int"}
{"name":"name","type":"string"}
{"name":"age","type":"int"}
```
- Destination Field: Bidang kunci primer dan kolom atribut dari tabel sumber.
  Jika kunci primer mencakup kolom int bernama id dan kolom string bernama name, serta kolom atribut mencakup bidang int bernama age, konfigurasi berikut adalah contohnya:
```
{"name":"id","type":"int"}
{"name":"name","type":"string"}
{"name":"age","type":"int"}
```

Untuk menyimpan konfigurasi, klik Save di bagian atas halaman.

Editor kode

Klik Code Editor di bagian atas halaman. Editor kode akan terbuka. Edit skrip.

Contoh berikut menunjukkan konfigurasi di mana jenis file tujuan adalah CSV. Tabel sumber memiliki kunci primer yang mencakup kolom int bernama id dan kolom string bernama name. Kolom atribut adalah bidang int bernama age. Saat mengonfigurasi skrip, ganti datasource, nama tabel table, dan nama file tujuan object dalam contoh skrip dengan nilai aktual Anda.

{
    "type": "job",
    "version": "2.0",
    "steps": [
        {
            "stepType": "ots",
            "parameter": {
                "datasource": "source_data",
                "column": [
                    {
                        "name": "id",
                        "type": "int"
                    },
                    {
                        "name": "name",
                        "type": "string"
                    },
                    {
                        "name": "age",
                        "type": "int"
                    }
                ],
                "range": {
                    "begin": [
                        {
                            "type": "inf_min"
                        },
                        {
                            "type": "inf_min"
                        }
                    ],
                    "end": [
                        {
                            "type": "inf_max"
                        },
                        {
                            "type": "inf_max"
                        }
                    ],
                    "split": []
                },
                "table": "source_table",
                "newVersion": "true"
            },
            "name": "Reader",
            "category": "reader"
        },
        {
            "stepType": "oss",
            "parameter": {
                "dateFormat": "yyyy-MM-dd HH:mm:ss",
                "datasource": "target_data",
                "writeSingleObject": false,
                "column": [
                    {
                        "name": "id",
                        "type": "int"
                    },
                    {
                        "name": "name",
                        "type": "string"
                    },
                    {
                        "name": "age",
                        "type": "int"
                    }
                ],
                "writeMode": "truncate",
                "encoding": "UTF-8",
                "fieldDelimiter": ",",
                "fileFormat": "csv",
                "object": "tablestore/source_table.csv"
            },
            "name": "Writer",
            "category": "writer"
        }
    ],
    "setting": {
        "errorLimit": {
            "record": "0"
        },
        "speed": {
            "concurrent": 2,
            "throttle": false
        }
    },
    "order": {
        "hops": [
            {
                "from": "Reader",
                "to": "Writer"
            }
        ]
    }
}

Setelah mengedit skrip, klik Save di bagian atas halaman.

Jalankan tugas sinkronisasi

Klik Run di bagian atas halaman untuk memulai tugas sinkronisasi. Pertama kali menjalankan tugas, Anda harus mengonfirmasi Debug Configuration.

Langkah 4: Lihat hasil sinkronisasi

Setelah tugas sinkronisasi selesai, Anda dapat melihat status eksekusi di log dan memeriksa file hasil di bucket OSS.

Lihat status dan hasil tugas di bagian bawah halaman. Informasi log berikut menunjukkan bahwa tugas sinkronisasi berhasil dijalankan.

2025-11-18 11:16:23 INFO Shell run successfully!
2025-11-18 11:16:23 INFO Current task status: FINISH
2025-11-18 11:16:23 INFO Cost time is: 77.208s

Lihat file di bucket tujuan.
Buka Daftar Bucket. Klik bucket tujuan untuk melihat atau mengunduh file hasil.

Tablestore：Ekspor data lengkap ke OSS