パブリックデータセットの概要：すぐにクエリ可能なオープンデータ - MaxCompute

MaxCompute をアクティベート済みの場合、MaxCompute SQL 分析を使用して公開データセット内のテーブルをクエリできます。これにより、サービスを迅速に試すことができます。このトピックでは、公開データセットについて説明し、データのクエリと分析方法を解説します。

概要

MaxCompute は、GitHub 公開イベントデータ、国家統計、TPC パフォーマンステストデータ、デジタルコマースデータ、生活サービスデータ、金融株式データなど、いくつかのカテゴリの公開データセットを提供しています。これらのデータは、MaxCompute の BIGDATA_PUBLIC_DATASET 公開プロジェクト内の異なるスキーマに保存されています。

カテゴリ		概要	データセット名	スキーマ名
GitHub 公開イベントデータ		GitHub の開発者がオープンソースプロジェクトで作業する際に生成する大量のイベントデータです。GitHub は、各イベントのタイプ、詳細、開発者、コードリポジトリを記録します。リポジトリへのスター付けやコードのコミットといった公開イベントが利用できます。	GitHub 公開イベントデータセット	github_events
国家統計		世界各国および中国各省の年間 GDP データが含まれます。	国家統計データセット	national_data
TPC パフォーマンスデータ	TPC-DS	TPC-DS は、意思決定支援システムのベンチマークです。クエリやデータメンテナンスなど、これらのシステムの一般的な側面をモデル化しています。これにより、ビッグデータシステムなどの新しいテクノロジーでベンチマークテストを実行できます。	TPC-DS 10 GB パフォーマンステストセット TPC-DS 100 GB パフォーマンステストセット TPC-DS 1 TB パフォーマンステストセット TPC-DS 10 TB パフォーマンステストセット	tpcds_10g tpcds_100g tpcds_1t tpcds_10t
	TPC-H	TPC-H は、意思決定支援システムのベンチマークです。ビジネス指向のアドホッククエリと同時データ変更のセットを使用します。大量のデータに対して複雑なクエリを実行し、主要なビジネス上の問いに答えます。	TPC-H 10 GB パフォーマンステストセット TPC-H 100 GB パフォーマンステストセット TPC-H 1 TB パフォーマンステストセット TPC-H 10 TB パフォーマンステストセット	tpch_10g tpch_100g tpch_1t tpch_10t
	TPCx-BB	TPCx-BB Express Benchmark BB (TPCx-BB) は、ビッグデータベンチマークです。Hadoop ベースのビッグデータシステムのパフォーマンスを測定します。30 の一般的な分析クエリを実行して、ハードウェアおよびソフトウェアコンポーネントを評価します。	TPCx-BB 10 GB パフォーマンステストセット TPCx-BB 100 GB パフォーマンステストセット TPCx-BB 1 TB パフォーマンステストセット TPCx-BB 10 TB パフォーマンステストセット	tpcbb_10g tpcbb_100g tpcbb_1t tpcbb_10t
デジタルコマース		Taobao 広告、Taobao ショッピング、Alibaba E コマースのデータが含まれます。	デジタルコマースデータセット	commerce
生活サービス		中古不動産、映画と興行収入、携帯電話番号の帰属情報、行政区画および都市農村区分コードに関するデータが含まれます。	生活サービスデータセット	life_service
金融株式		株式情報。	金融株式データセット	finance

免責事項

MaxCompute が提供する公開データセットは、プロダクトのテスト専用です。データは定期的に更新されず、その正確性は保証されません。このデータを本番環境で使用しないでください。
MaxCompute 公開データセットにおける TPC データの生成と分析は、TPC ベンチマークに基づいています。MaxCompute 公開データセットで実行されるテストは、すべての TPC ベンチマーク要件を満たしているわけではないため、その結果を公開されている TPC ベンチマークの結果と比較することはできません。
MaxCompute の TPC パフォーマンステストデータは TPC に由来します。TPC データはご自身で生成することも可能です。詳細については、TPC 公式ドキュメントをご参照ください。

注意事項

公開データセットは、すべての MaxCompute ユーザーが利用できます。次の点にご注意ください：

パブリックデータセットのデータは、BIGDATA_PUBLIC_DATASET プロジェクトに格納されています。ユーザーはこのプロジェクトのメンバーとして追加されません。そのため、プロジェクトをまたいでデータにアクセスする必要があります。 SQL スクリプトを記述する際は、テーブル名の前にプロジェクト名とスキーマ名を指定する必要があります。テナントレベルのスキーマ構文が有効になっていない場合、コマンドを実行するには、セッションレベルのスキーマ構文を有効にする必要があります。例：
```
-- セッションレベルのスキーマ構文を有効にします。
SET odps.namespace.schema=true; 
-- dwd_github_events_odps テーブルから 100 件のレコードをクエリします。
SELECT * FROM bigdata_public_dataset.github_events.dwd_github_events_odps WHERE ds='2024-05-10' limit 100;
```
重要
公開データセットのデータストレージ料金は発生しません。ただし、クエリで消費される計算リソースに対しては料金が発生します。詳細については、コンピューティング料金 (従量課金) をご参照ください。
プロジェクト間のアクセスが必要なため、DataWorks のデータマップでは公開データセットのテーブルを表示できません。
公開データセットプロジェクトは、スキーマごとにデータを保存します。ご利用のアカウントでテナントレベルのスキーマ構文が有効になっていない場合、DataWorks のデータ分析で公開データセットを直接表示することはできません。SQL 文を実行することで、引き続きデータをクエリできます。

テーブル詳細情報

以下のテーブルは、BIGDATA_PUBLIC_DATASET 公開プロジェクトの各スキーマ内のテーブルに関する詳細情報を提供します。

GitHub 公開イベントデータ

プロジェクト名	BIGDATA_PUBLIC_DATASET
スキーマ名	github_events
利用可能なリージョン	中国 (杭州)、中国 (上海)、中国 (北京)、中国 (張家口)、中国 (ウランチャブ)、中国 (深セン)、中国 (成都)
テーブル名と説明	GitHub の開発者がオープンソースプロジェクトで作業する際に生成する大量のイベントデータです。GitHub は、各イベントのタイプ、詳細、開発者、コードリポジトリを記録します。リポジトリへのスター付けやコードのコミットといった公開イベントが利用できます。イベントタイプの詳細については、GitHub Events をご参照ください。 MaxCompute は、GH Archive が提供する大量の公開イベントデータをオフラインで処理・開発し、以下のテーブルを生成します： dwd_github_events_odps (GitHub 公開イベントデータのファクトテーブル) dws_overview_by_repo_month (GitHub 公開イベントの月次メトリックの集約テーブル) 説明テーブル内のデータは GH Archive からのものです。
更新サイクル	dwd_github_events_odps：T+1 時間で更新。 dws_overview_by_repo_month：T+1 日で更新。
テーブルスキーマのクエリ	`-- セッションレベルのスキーマ構文を有効にします。 SET odps.namespace.schema=true; -- dwd_github_events_odps テーブルのスキーマをクエリします。他のテーブルをクエリするには、スキーマ名とテーブル名を置き換えてください。 DESC bigdata_public_dataset.github_events.dwd_github_events_odps;`
クエリ例	-- セッションレベルのスキーマ構文を有効にします。 SET odps.namespace.schema=true; -- 過去 1 年間で最もスターが付けられたプロジェクトをランク付けします。(注：この例では、ユーザーがプロジェクトのスターを解除するケースは考慮されていません。) SELECT repo_id, repo_name, COUNT(actor_login) total FROM bigdata_public_dataset.github_events.dwd_github_events_odps WHERE ds>=date_add(getdate(), -365) AND type = 'WatchEvent' GROUP BY repo_id, repo_name ORDER BY total DESC LIMIT 10;
データの詳細とクエリサンプルについては、「GitHub 公開イベントデータ」をご参照ください。

国家統計

プロジェクト名	BIGDATA_PUBLIC_DATASET
スキーマ名	national_data
利用可能なリージョン	中国 (杭州)、中国 (上海)、中国 (北京)、中国 (張家口)、中国 (ウランチャブ)、中国 (深セン)、中国 (成都)
テーブル名と説明	annual_gdp_by_province (中国各省の年間 GDP データ) annual_gdp_by_country (国別の年間 GDP データ) 説明 annual_gdp_by_province のデータは中国国家統計局からのものです。annual_gdp_by_country のデータは国際通貨基金 (IMF) からのものです。
更新サイクル	更新されない静的データを提供します。
テーブルスキーマのクエリ	`-- セッションレベルのスキーマ構文を有効にします。 SET odps.namespace.schema=true; -- annual_gdp_by_province テーブルのスキーマをクエリします。他のテーブルをクエリするには、スキーマ名とテーブル名を置き換えてください。 DESC bigdata_public_dataset.national_data.annual_gdp_by_province;`
クエリ例	`--セッションレベルのスキーマ構文を有効にします。 SET odps.namespace.schema=true; --過去 20 年間の北京の GDP 推移を表示します。 SELECT region, gdp, year FROM bigdata_public_dataset.national_data.annual_gdp_by_province WHERE region='Beijing' ORDER BY year ASC LIMIT 20;`

TPC-DS データ

プロジェクト名	BIGDATA_PUBLIC_DATASET
スキーマ名	tpcds_10g, tpcds_100g, tpcds_1t, tpcds_10t
利用可能なリージョン	中国 (杭州)、中国 (上海)、中国 (北京)、中国 (張家口)、中国 (ウランチャブ)、中国 (深セン)、中国 (成都)、中国 (香港)、日本 (東京)、シンガポール、マレーシア (クアラルンプール)、インドネシア (ジャカルタ)、米国 (バージニア)、米国 (シリコンバレー)、イギリス (ロンドン)、ドイツ (フランクフルト)、UAE (ドバイ)、中国 (上海) 金融クラウド、中国 (北京) 金融クラウド (招待制プレビュー)、中国 (北京) Alibaba Gov Cloud 1、中国 (深セン) 金融クラウド
テーブル名と説明	TPC-DS モデルは、全国展開する大手小売チェーンの販売システムをシミュレートします。これには、店舗 (実店舗)、Web (オンラインストア)、カタログ (電話注文) の 3 つの販売チャネルが含まれます。各チャネルは 2 つのテーブルを使用して、販売と返品のレコードをシミュレートします。このモデルには、製品、プロモーション、顧客に関する情報のディメンションテーブルも含まれます。詳細は次のとおりです： call_center (カスタマーサービスセンターに関する情報) catalog_page (製品カタログに関する情報) catalog_returns (電話注文チャネルからの製品返品レコード) catalog_sales (電話注文チャネルからの製品販売レコード) customer (顧客情報) customer_address (顧客住所情報) customer_demographics (顧客の基本的な信用情報) date_dim (時間ディメンション情報) household_demographics (世帯の基本的な信用情報) income_band (所得情報) inventory (在庫情報) item (製品情報) promotion (製品プロモーション情報) reason (顧客の返品理由) ship_mode (製品配送情報) store (店舗情報) store_returns (実店舗チャネルからの製品返品レコード) store_sales (実店舗チャネルからの製品販売レコード) time_dim (時間ディメンション情報) warehouse (倉庫情報) web_page (製品 Web ページ情報) web_returns (Web チャネルからの製品返品レコード) web_sales (Web チャネルからの製品販売レコード) web_site (製品 Web サイトの基本情報) 説明テーブル内のデータは TPC からのものです。
更新サイクル	更新されない静的データを提供します。
テーブルスキーマのクエリ	`-- セッションレベルのスキーマ構文を有効にします。 SET odps.namespace.schema=TRUE; -- tpcds_10g の call_center テーブルのスキーマをクエリします。他のデータセット仕様のテーブルをクエリするには、スキーマ名とテーブル名を置き換えてください。 DESC bigdata_public_dataset.tpcds_10g.call_center;`
クエリ例	SET odps.namespace.schema=TRUE; SELECT dt.d_year , item.i_brand_id brand_id , item.i_brand brand , SUM(ss_sales_price) sum_agg FROM bigdata_public_dataset.tpcds_10g.date_dim dt , bigdata_public_dataset.tpcds_10g.store_sales , bigdata_public_dataset.tpcds_10g.item WHERE dt.d_date_sk = store_sales.ss_sold_date_sk AND store_sales.ss_item_sk = item.i_item_sk AND item.i_manufact_id = 190 AND dt.d_moy = 12 GROUP BY dt.d_year , item.i_brand , item.i_brand_id ORDER BY dt.d_year, sum_agg DESC, brand_id LIMIT 100;
異なるデータ仕様のクエリサンプルファイルについては、「TPC-DS データ」をご参照ください。データの詳細については、TPC Benchmark DS 公式標準仕様をご参照ください。

TPC-H データ

プロジェクト名	BIGDATA_PUBLIC_DATASET
スキーマ名	tpch_10g, tpch_100g, tpch_1t, tpch_10t
利用可能なリージョン	中国 (杭州)、中国 (上海)、中国 (北京)、中国 (張家口)、中国 (ウランチャブ)、中国 (深セン)、中国 (成都)、中国 (香港)、日本 (東京)、シンガポール、マレーシア (クアラルンプール)、インドネシア (ジャカルタ)、米国 (バージニア)、米国 (シリコンバレー)、イギリス (ロンドン)、ドイツ (フランクフルト)、UAE (ドバイ)、中国 (上海) 金融クラウド、中国 (北京) 金融クラウド (招待制プレビュー)、中国 (北京) Alibaba Gov Cloud 1、中国 (深セン) 金融クラウド
テーブル名と説明	TPC-H は、オンライン分析処理 (OLAP) を評価するために使用されるベンチマークプログラムです。サプライヤーとそのバイヤー間の取引をシミュレートします。注文、製品、顧客に関する情報が含まれています。詳細は次のとおりです： customer (コンシューマー情報) lineitem (オンライン製品情報) nation (国情報) orders (注文情報) part (部品情報) partsupp (サプライヤー部品情報) region (リージョン情報) supplier (サプライヤー情報) 説明テーブル内のデータは TPC からのものです。
更新サイクル	更新されない静的データを提供します。
テーブルスキーマのクエリ	`--セッションレベルのスキーマ構文を有効にします。 SET odps.namespace.schema=TRUE; --tpch_10g の lineitem テーブルのスキーマをクエリします。他のデータセット仕様のテーブルをクエリするには、スキーマ名とテーブル名を置き換えてください。 DESC bigdata_public_dataset.tpch_10g.lineitem;`
クエリ例	SET odps.namespace.schema=TRUE; SET odps.sql.validate.orderby.limit=FALSE; SET odps.sql.hive.compatible=TRUE; SELECT l_returnflag, l_linestatus, sum(l_quantity) AS sum_qty, sum(l_extendedprice) AS sum_base_price, sum(l_extendedprice * (1 - l_discount)) AS sum_disc_price, sum(l_extendedprice * (1 - l_discount) * (1 + l_tax)) AS sum_charge, avg(l_quantity) AS avg_qty, avg(l_extendedprice) AS avg_price, avg(l_discount) AS avg_disc, count(*) AS count_order FROM bigdata_public_dataset.tpch_10g.lineitem WHERE l_shipdate <= date'1998-12-01' - interval '90' DAY GROUP BY l_returnflag, l_linestatus ORDER BY l_returnflag, l_linestatus;
データの詳細とクエリサンプルについては、TPC Benchmark H 公式標準仕様をご参照ください。

TPCx-BB データ

プロジェクト名	BIGDATA_PUBLIC_DATASET
スキーマ名	tpcxbb_10g, tpcxbb_100g, tpcxbb_1t, tpcxbb_10t
利用可能なリージョン	中国 (杭州)、中国 (上海)、中国 (北京)、中国 (張家口)、中国 (ウランチャブ)、中国 (深セン)、中国 (成都)、中国 (香港)、日本 (東京)、シンガポール、マレーシア (クアラルンプール)、インドネシア (ジャカルタ)、米国 (バージニア)、米国 (シリコンバレー)、イギリス (ロンドン)、ドイツ (フランクフルト)、UAE (ドバイ)、中国 (上海) 金融クラウド、中国 (北京) 金融クラウド (招待制プレビュー)、中国 (北京) Alibaba Gov Cloud 1、中国 (深セン) 金融クラウド
テーブル名と説明	TPCx-BB はビッグデータベンチマークツールです。販売と返品のレコードを含むオンライン小売シナリオをシミュレートします。製品とプロモーションに関する情報も含まれています。詳細は次のとおりです： customer (顧客情報) customer_address (顧客住所情報) customer_demographics (顧客の基本的な信用情報) date_dim (時間ディメンション情報) household_demographics (世帯の基本的な信用情報) income_band (所得情報) inventory (在庫情報) item (製品情報) item_marketprices (製品の競合他社価格情報) product_reviews (製品レビュー情報) promotion (製品プロモーション情報) reason (顧客の返品理由) ship_mode (製品配送情報) store (アウトレット情報) store_returns (実店舗チャネルからの製品返品レコード) store_sales (実店舗チャネルからの製品販売レコード) time_dim (時間ディメンション情報) warehouse (倉庫情報) web_clickstreams (Web クリックストリーム情報) web_page (製品 Web ページ情報) web_returns (Web チャネルからの製品返品レコード) web_sales (Web チャネルからの製品販売レコード) web_site (製品 Web サイト情報) 説明テーブル内のデータは TPC からのものです。
更新サイクル	更新されない静的データを提供します。
テーブルスキーマのクエリ	`-- セッションレベルのスキーマ構文を有効にします。 SET odps.namespace.schema=TRUE; -- tpcxbb_10g の web_sales テーブルのスキーマをクエリします。他のデータセット仕様のテーブルをクエリするには、スキーマ名とテーブル名を置き換えてください。 DESC bigdata_public_dataset.tpcxbb_10g.web_sales;`
クエリ例	`SET odps.namespace.schema=TRUE; SELECT * FROM bigdata_public_dataset.tpcxbb_10g.web_sales limit 100;`
データの詳細とクエリサンプルについては、TPCx-BB 公式標準仕様をご参照ください。

デジタルコマースデータセット

プロジェクト名	BIGDATA_PUBLIC_DATASET
スキーマ名	commerce
利用可能なリージョン	中国 (杭州)、中国 (上海)、中国 (北京)、中国 (張家口)、中国 (ウランチャブ)、中国 (深セン)、中国 (成都)
テーブル名と説明	adv_raw_sample (8 日間にわたる Taobao 上の 100 万人以上のランダムサンプリングされたユーザーのディスプレイ広告クリックログで構成される生サンプルのスケルトン) adv_ad_feature (raw_sample テーブル内の一部の広告の基本情報) user_profile (raw_sample 内の全ユーザーの基本情報) behavior_log (22 日間にわたる raw_sample 内の全ユーザーの閲覧、カート追加、いいね、購入などのショッピング行動) 説明テーブル内のデータは Tianchi ラボ - Taobao ディスプレイ広告クリック率予測データセットからのものです。
更新サイクル	静的データを提供します。増分更新は提供されなくなりました。
テーブルスキーマのクエリ	`-- セッションレベルのスキーマ構文を有効にします。 SET odps.namespace.schema=TRUE; -- behavior_log テーブルのスキーマをクエリします。他のテーブルをクエリするには、テーブル名を置き換えてください。 DESC bigdata_public_dataset.commerce.behavior_log;`
クエリ例	`-- セッションレベルのスキーマ構文を有効にします。 SET odps.namespace.schema=TRUE; -- behavior_log を使用して、22 日以内で最も売上の高い製品カテゴリ ID のトップ 3 をカウントします。 SELECT cate, count(btag) sales FROM behavior_log WHERE btag='buy' GROUP BY cate ORDER BY sales DESC LIMIT 3;`

生活サービスデータセット

プロジェクト名	BIGDATA_PUBLIC_DATASET
スキーマ名	life_service
利用可能なリージョン	中国 (杭州)、中国 (上海)、中国 (北京)、中国 (張家口)、中国 (ウランチャブ)、中国 (深セン)、中国 (成都)
テーブル名と説明	movie_basic_info (映画基本情報テーブル) movie_box (興行収入基本情報テーブル) areacode_basic_info_2020 (2020 年の行政区画および都市農村区分コードの基本情報テーブル) phoneno_basic_info_2020 (2020 年の携帯電話番号帰属情報の基本情報テーブル)
更新サイクル	movie_basic_info, movie_box：固定の日付パーティションのデータを提供します。増分更新は提供されなくなりました。 areacode_basic_info_2020, phoneno_basic_info_2020：静的データを提供します。増分更新は提供されなくなりました。
テーブルスキーマのクエリ	`-- セッションレベルのスキーマ構文を有効にします。 SET odps.namespace.schema=TRUE; -- movie_box テーブルのスキーマをクエリします。他のテーブルをクエリするには、テーブル名を置き換えてください。 DESC bigdata_public_dataset.life_service.movie_box;`
クエリ例	`-- セッションレベルのスキーマ構文を有効にします。 SET odps.namespace.schema=TRUE; -- 2017 年 1 月 14 日の興行収入トップ 10 の映画名をクエリします。 SELECT moviename FROM bigdata_public_dataset.life_service.movie_box WHERE ds ='20170114' ORDER BY rank ASC LIMIT 10;`

金融株式データセット

プロジェクト名	BIGDATA_PUBLIC_DATASET
スキーマ名	finance
利用可能なリージョン	中国 (杭州)、中国 (上海)、中国 (北京)、中国 (張家口)、中国 (ウランチャブ)、中国 (深セン)、中国 (成都)
テーブル名と説明	ods_enterprise_share_basic (株式基本情報テーブル) ods_enterprise_share_quarter_cashflow (四半期キャッシュフローレポート) ods_enterprise_share_quarter_growth (四半期事業成長データテーブル) ods_enterprise_share_quarter_operation (四半期財務回転データテーブル) ods_enterprise_share_quarter_profit (四半期損益計算書) ods_enterprise_share_quarter_report (四半期レポート) ods_enterprise_share_trade_h (株価テーブル)
更新サイクル	固定の日付パーティションのデータを提供します。増分更新は提供されなくなりました。
テーブルスキーマのクエリ	`-- セッションレベルのスキーマ構文を有効にします。 SET odps.namespace.schema=TRUE; -- ods_enterprise_share_basic テーブルのスキーマをクエリします。他のテーブルをクエリするには、テーブル名を置き換えてください。 DESC bigdata_public_dataset.finance.ods_enterprise_share_basic;`
クエリ例	`--セッションレベルのスキーマ構文を有効にします。 SET odps.namespace.schema=TRUE; --2017 年 1 月 14 日の株式基本情報データをクエリします。 SELECT * FROM bigdata_public_dataset.finance.ods_enterprise_share_basic WHERE ds ='20170114' LIMIT 10;`

公開データセットの使用

前提条件

MaxCompute をアクティベートし、プロジェクトを作成済みであること。詳細については、「MaxCompute プロジェクトの作成」をご参照ください。

サポートされるツールまたはプラットフォーム

操作手順 (DataWorks データ開発ノードの例)

DataWorks コンソールにログインし、左上のコーナーでリージョンを選択します。
ワークスペースを作成します。
MaxCompute データソースをアタッチします。

ODPS SQL ノードを作成し、次の SQL 例を入力します。

-- 過去 20 年間の中国各省の GDP 推移を表示します。
SET odps.namespace.schema=true; 
SET odps.sql.validate.orderby.limit = false;
SELECT
    region,
    gdp,
    year
FROM
    bigdata_public_dataset.national_data.annual_gdp_by_province
ORDER BY
    year ASC;

をクリックして結果を表示します。

MaxCompute:公開データセットの概要

概要