Jika Anda telah mengaktifkan MaxCompute, Anda dapat menjalankan kueri terhadap tabel dalam dataset publik menggunakan Analisis SQL MaxCompute. Hal ini memungkinkan Anda mencoba layanan tersebut dengan cepat. Topik ini menjelaskan dataset publik yang tersedia serta cara melakukan kueri dan analisis data.
Pendahuluan
MaxCompute menyediakan dataset publik dalam beberapa kategori, seperti data event publik GitHub, statistik nasional, data uji kinerja TPC, data perdagangan digital, data layanan kehidupan, dan data saham keuangan. Data ini disimpan dalam skema berbeda di dalam proyek publik BIGDATA_PUBLIC_DATASET di MaxCompute.
Kategori | Pendahuluan | Nama dataset | Nama skema | |
Data event publik GitHub | Developer di GitHub menghasilkan volume besar event saat mengerjakan proyek open source. GitHub mencatat jenis dan detail setiap event, developer, serta repositori kode. Event publik, seperti memberikan bintang pada repositori atau melakukan commit kode, tersedia untuk umum. | Dataset event publik GitHub | github_events | |
Statistik nasional | Berisi data PDB tahunan negara-negara di seluruh dunia dan provinsi-provinsi di Tiongkok. | Dataset statistik nasional | national_data | |
Data kinerja TPC | TPC-DS | TPC-DS adalah benchmark untuk sistem decision support. Benchmark ini memodelkan aspek-aspek umum sistem tersebut, seperti kueri dan maintenance data. Hal ini memungkinkan Anda menjalankan pengujian benchmark pada teknologi baru seperti sistem big data. |
|
|
TPC-H | TPC-H adalah benchmark untuk sistem decision support. Benchmark ini menggunakan serangkaian kueri ad hoc berorientasi bisnis dan modifikasi data konkuren. Benchmark ini menjalankan kueri kompleks pada volume data besar untuk menjawab pertanyaan bisnis utama. |
|
| |
TPCx-BB | TPCx-BB Express Benchmark BB (TPCx-BB) adalah benchmark big data. Benchmark ini mengukur kinerja sistem big data berbasis Hadoop. Benchmark ini mengevaluasi komponen perangkat keras dan perangkat lunak dengan menjalankan 30 kueri analitik umum. |
|
| |
Perdagangan digital | Berisi data dari iklan Taobao, belanja Taobao, dan E-dagang Alibaba. | Dataset perdagangan digital | commerce | |
Layanan kehidupan | Berisi data tentang properti bekas, film dan hasil box office, atribusi nomor ponsel, serta kode pembagian administratif dan perkotaan/pedesaan. | Dataset layanan kehidupan | life_service | |
Saham keuangan | Informasi saham. | Dataset saham keuangan | finance | |
Penafian
Dataset publik yang disediakan oleh MaxCompute hanya ditujukan untuk pengujian produk. Data tersebut tidak diperbarui secara berkala dan akurasinya tidak dijamin. Jangan gunakan data ini di lingkungan produksi.
Pembuatan dan analisis data TPC dalam dataset publik MaxCompute didasarkan pada tolok ukur TPC. Hasilnya tidak dapat dibandingkan dengan hasil tolok ukur TPC yang dipublikasikan karena pengujian yang dijalankan pada dataset publik MaxCompute tidak memenuhi semua persyaratan tolok ukur TPC.
Data uji performa TPC di MaxCompute berasal dari TPC. Anda juga dapat menghasilkan data TPC sendiri. Untuk informasi selengkapnya, lihat dokumentasi resmi TPC.
Catatan penggunaan
Data publik tersedia untuk semua pengguna MaxCompute. Perhatikan hal berikut:
Data untuk dataset publik disimpan dalam Proyek
BIGDATA_PUBLIC_DATASET. Pengguna tidak ditambahkan sebagai anggota ke Proyek ini. Oleh karena itu, Anda harus mengakses data tersebut lintas Proyek. Saat menulis skrip SQL, Anda harus menentukan nama Proyek dan skema sebelum nama tabel. Jika sintaks skema tingkat penyewa tidak diaktifkan, Anda harus mengaktifkan sintaks skema tingkat sesi untuk menjalankan perintah. Contohnya:-- Aktifkan sintaks schema tingkat session. SET odps.namespace.schema=true; -- Kueri 100 catatan dari tabel dwd_github_events_odps. SELECT * FROM bigdata_public_dataset.github_events.dwd_github_events_odps WHERE ds='2024-05-10' limit 100;PentingAnda tidak dikenai biaya untuk penyimpanan data dalam dataset publik. Namun, Anda dikenai biaya untuk computing resources consumed by your queries. Untuk informasi selengkapnya, lihat Computing fees (Pay-as-you-go).
Karena diperlukan akses cross-project, Anda tidak dapat melihat tabel dari dataset publik di Peta Data DataWorks.
Proyek dataset publik menyimpan data berdasarkan skema. Jika sintaks skema tingkat penyewa tidak diaktifkan untuk akun Anda, Anda tidak dapat melihat dataset publik secara langsung di DataWorks Analisis Data. Namun, Anda tetap dapat melakukan kueri terhadap data tersebut dengan menjalankan pernyataan SQL.
Informasi tabel lengkap
Tabel-tabel berikut memberikan informasi rinci tentang tabel-tabel dalam setiap skema proyek publik BIGDATA_PUBLIC_DATASET.
Data event publik GitHub
Nama proyek | BIGDATA_PUBLIC_DATASET |
Nama skema | github_events |
Wilayah yang tersedia | Tiongkok (Hangzhou), Tiongkok (Shanghai), Tiongkok (Beijing), Tiongkok (Zhangjiakou), Tiongkok (Ulanqab), Tiongkok (Shenzhen), Tiongkok (Chengdu) |
Nama dan deskripsi tabel | Developer di GitHub menghasilkan volume besar event saat mengerjakan proyek open source. GitHub mencatat jenis dan detail setiap event, developer, serta repositori kode. Event publik, seperti memberi bintang pada repositori atau melakukan commit kode, tersedia untuk umum. Untuk informasi lebih lanjut tentang jenis event, lihat GitHub Events. MaxCompute memproses dan mengembangkan volume besar data event publik dari GH Archive secara offline untuk menghasilkan tabel-tabel berikut:
Catatan Data dalam tabel berasal dari GH Archive. |
Siklus pembaruan |
|
Kueri skema tabel | |
Contoh kueri | |
Untuk informasi lebih lanjut tentang data dan contoh kueri, lihat Data event publik GitHub. | |
Statistik nasional
Nama proyek | BIGDATA_PUBLIC_DATASET |
Nama skema | national_data |
Wilayah yang tersedia | Tiongkok (Hangzhou), Tiongkok (Shanghai), Tiongkok (Beijing), Tiongkok (Zhangjiakou), Tiongkok (Ulanqab), Tiongkok (Shenzhen), Tiongkok (Chengdu) |
Nama dan deskripsi tabel |
Catatan Data untuk annual_gdp_by_province berasal dari Biro Statistik Nasional Tiongkok. Data untuk annual_gdp_by_country berasal dari International Monetary Fund (IMF). |
Siklus pembaruan | Menyediakan data statis yang tidak diperbarui. |
Kueri skema tabel | |
Contoh kueri | |
Data TPC-DS
Nama proyek | BIGDATA_PUBLIC_DATASET |
Nama skema | tpcds_10g, tpcds_100g, tpcds_1t, tpcds_10t |
Wilayah yang tersedia | Tiongkok (Hangzhou), Tiongkok (Shanghai), Tiongkok (Beijing), Tiongkok (Zhangjiakou), Tiongkok (Ulanqab), Tiongkok (Shenzhen), Tiongkok (Chengdu), Tiongkok (Hong Kong), Jepang (Tokyo), Singapura, Malaysia (Kuala Lumpur), Indonesia (Jakarta), AS (Virginia), AS (Silicon Valley), Inggris (London), Jerman (Frankfurt), UEA (Dubai), Cloud Keuangan Tiongkok (Shanghai), Cloud Keuangan Tiongkok (Beijing) (Pratinjau Undangan), Alibaba Gov Cloud 1 Tiongkok (Beijing), Cloud Keuangan Tiongkok (Shenzhen) |
Nama dan deskripsi tabel | Model TPC-DS mensimulasikan sistem penjualan rantai ritel besar berskala nasional. Model ini mencakup tiga saluran penjualan: toko (outlet fisik), web (online store), dan katalog (pesanan telepon). Setiap saluran menggunakan dua tabel untuk mensimulasikan catatan penjualan dan pengembalian. Model ini juga mencakup tabel dimensi untuk informasi tentang produk, promosi, dan pelanggan. Rinciannya sebagai berikut:
Catatan Data dalam tabel berasal dari TPC. |
Siklus pembaruan | Menyediakan data statis yang tidak diperbarui. |
Kueri skema tabel | |
Contoh kueri | |
Untuk file contoh kueri dengan spesifikasi data berbeda, lihat Data TPC-DS. Untuk informasi lebih lanjut tentang data, lihat spesifikasi standar resmi TPC Benchmark DS. | |
Data TPC-H
Nama proyek | BIGDATA_PUBLIC_DATASET |
Nama skema | tpch_10g, tpch_100g, tpch_1t, tpch_10t |
Wilayah yang tersedia | Tiongkok (Hangzhou), Tiongkok (Shanghai), Tiongkok (Beijing), Tiongkok (Zhangjiakou), Tiongkok (Ulanqab), Tiongkok (Shenzhen), Tiongkok (Chengdu), Tiongkok (Hong Kong), Jepang (Tokyo), Singapura, Malaysia (Kuala Lumpur), Indonesia (Jakarta), AS (Virginia), AS (Silicon Valley), Inggris (London), Jerman (Frankfurt), UEA (Dubai), Cloud Keuangan Tiongkok (Shanghai), Cloud Keuangan Tiongkok (Beijing) (Pratinjau Undangan), Alibaba Gov Cloud 1 Tiongkok (Beijing), Cloud Keuangan Tiongkok (Shenzhen) |
Nama dan deskripsi tabel | TPC-H adalah program benchmark yang digunakan untuk mengevaluasi Pemrosesan Analitik Online (OLAP). Program ini mensimulasikan transaksi antara pemasok dan pembeli mereka. Program ini berisi informasi tentang pesanan, produk, dan pelanggan. Rinciannya sebagai berikut:
Catatan Data dalam tabel berasal dari TPC. |
Siklus pembaruan | Menyediakan data statis yang tidak diperbarui. |
Kueri skema tabel | |
Contoh kueri | |
Untuk informasi lebih lanjut tentang data dan contoh kueri, lihat spesifikasi standar resmi TPC Benchmark H. | |
Data TPCx-BB
Nama proyek | BIGDATA_PUBLIC_DATASET |
Nama skema | tpcxbb_10g, tpcxbb_100g, tpcxbb_1t, tpcxbb_10t |
Wilayah yang tersedia | Tiongkok (Hangzhou), Tiongkok (Shanghai), Tiongkok (Beijing), Tiongkok (Zhangjiakou), Tiongkok (Ulanqab), Tiongkok (Shenzhen), Tiongkok (Chengdu), Tiongkok (Hong Kong), Jepang (Tokyo), Singapura, Malaysia (Kuala Lumpur), Indonesia (Jakarta), AS (Virginia), AS (Silicon Valley), Inggris (London), Jerman (Frankfurt), UEA (Dubai), Cloud Keuangan Tiongkok (Shanghai), Cloud Keuangan Tiongkok (Beijing) (Pratinjau Undangan), Alibaba Gov Cloud 1 Tiongkok (Beijing), Cloud Keuangan Tiongkok (Shenzhen) |
Nama dan deskripsi tabel | TPCx-BB adalah alat benchmark big data. Alat ini mensimulasikan skenario ritel online yang mencakup catatan penjualan dan pengembalian. Alat ini juga berisi informasi tentang produk dan promosi. Rinciannya sebagai berikut:
Catatan Data dalam tabel berasal dari TPC. |
Siklus pembaruan | Menyediakan data statis yang tidak diperbarui. |
Kueri skema tabel | |
Contoh kueri | |
Untuk informasi lebih lanjut tentang data dan contoh kueri, lihat spesifikasi standar resmi TPCx-BB. | |
Dataset perdagangan digital
Nama proyek | BIGDATA_PUBLIC_DATASET |
Nama skema | commerce |
Wilayah yang tersedia | Tiongkok (Hangzhou), Tiongkok (Shanghai), Tiongkok (Beijing), Tiongkok (Zhangjiakou), Tiongkok (Ulanqab), Tiongkok (Shenzhen), Tiongkok (Chengdu) |
Nama dan deskripsi tabel |
Catatan Data dalam tabel berasal dari Tianchi Lab - Dataset Prediksi Click-Through Rate Iklan Display Taobao. |
Siklus pembaruan | Menyediakan data statis. Pembaruan inkremental tidak lagi disediakan. |
Kueri skema tabel | |
Contoh kueri | |
Dataset layanan kehidupan
Nama proyek | BIGDATA_PUBLIC_DATASET |
Nama skema | life_service |
Wilayah yang tersedia | Tiongkok (Hangzhou), Tiongkok (Shanghai), Tiongkok (Beijing), Tiongkok (Zhangjiakou), Tiongkok (Ulanqab), Tiongkok (Shenzhen), Tiongkok (Chengdu) |
Nama dan deskripsi tabel |
|
Siklus pembaruan |
|
Kueri skema tabel | |
Contoh kueri | |
Dataset saham keuangan
Nama proyek | BIGDATA_PUBLIC_DATASET |
Nama skema | finance |
Wilayah yang tersedia | Tiongkok (Hangzhou), Tiongkok (Shanghai), Tiongkok (Beijing), Tiongkok (Zhangjiakou), Tiongkok (Ulanqab), Tiongkok (Shenzhen), Tiongkok (Chengdu) |
Nama dan deskripsi tabel |
|
Siklus pembaruan | Menyediakan data untuk partisi tanggal tetap. Pembaruan inkremental tidak lagi disediakan. |
Kueri skema tabel | |
Contoh kueri | |
Menggunakan dataset publik
Prasyarat
Anda telah mengaktifkan MaxCompute dan membuat proyek. Untuk informasi lebih lanjut, lihat Membuat proyek MaxCompute.
Alat atau platform yang didukung
Prosedur (contoh node Pengembangan Data DataWorks)
Login ke Konsol DataWorks dan pilih wilayah di pojok kiri atas.
Buat node ODPS SQL dan masukkan contoh SQL berikut.
-- Melihat tren PDB setiap provinsi di Tiongkok selama 20 tahun terakhir. SET odps.namespace.schema=true; SET odps.sql.validate.orderby.limit = false; SELECT region, gdp, year FROM bigdata_public_dataset.national_data.annual_gdp_by_province ORDER BY year ASC;Klik
untuk melihat hasil.
Referensi
Untuk informasi lebih lanjut tentang cara mengekspor data MaxCompute, lihat topik-topik berikut: