MaxCompute をアクティベート済みの場合、MaxCompute SQL 分析を使用して公開データセット内のテーブルをクエリできます。これにより、サービスを迅速に試すことができます。このトピックでは、公開データセットについて説明し、データのクエリと分析方法を解説します。
概要
MaxCompute は、GitHub 公開イベントデータ、国家統計、TPC パフォーマンステストデータ、デジタルコマースデータ、生活サービスデータ、金融株式データなど、いくつかのカテゴリの公開データセットを提供しています。これらのデータは、MaxCompute の BIGDATA_PUBLIC_DATASET 公開プロジェクト内の異なるスキーマに保存されています。
カテゴリ | 概要 | データセット名 | スキーマ名 | |
GitHub 公開イベントデータ | GitHub の開発者がオープンソースプロジェクトで作業する際に生成する大量のイベントデータです。GitHub は、各イベントのタイプ、詳細、開発者、コードリポジトリを記録します。リポジトリへのスター付けやコードのコミットといった公開イベントが利用できます。 | GitHub 公開イベントデータセット | github_events | |
国家統計 | 世界各国および中国各省の年間 GDP データが含まれます。 | 国家統計データセット | national_data | |
TPC パフォーマンスデータ | TPC-DS | TPC-DS は、意思決定支援システムのベンチマークです。クエリやデータメンテナンスなど、これらのシステムの一般的な側面をモデル化しています。これにより、ビッグデータシステムなどの新しいテクノロジーでベンチマークテストを実行できます。 |
|
|
TPC-H | TPC-H は、意思決定支援システムのベンチマークです。ビジネス指向のアドホッククエリと同時データ変更のセットを使用します。大量のデータに対して複雑なクエリを実行し、主要なビジネス上の問いに答えます。 |
|
| |
TPCx-BB | TPCx-BB Express Benchmark BB (TPCx-BB) は、ビッグデータベンチマークです。Hadoop ベースのビッグデータシステムのパフォーマンスを測定します。30 の一般的な分析クエリを実行して、ハードウェアおよびソフトウェアコンポーネントを評価します。 |
|
| |
デジタルコマース | Taobao 広告、Taobao ショッピング、Alibaba E コマースのデータが含まれます。 | デジタルコマースデータセット | commerce | |
生活サービス | 中古不動産、映画と興行収入、携帯電話番号の帰属情報、行政区画および都市農村区分コードに関するデータが含まれます。 | 生活サービスデータセット | life_service | |
金融株式 | 株式情報。 | 金融株式データセット | finance | |
免責事項
MaxCompute が提供する公開データセットは、プロダクトのテスト専用です。データは定期的に更新されず、その正確性は保証されません。このデータを本番環境で使用しないでください。
MaxCompute 公開データセットにおける TPC データの生成と分析は、TPC ベンチマークに基づいています。MaxCompute 公開データセットで実行されるテストは、すべての TPC ベンチマーク要件を満たしているわけではないため、その結果を公開されている TPC ベンチマークの結果と比較することはできません。
MaxCompute の TPC パフォーマンステストデータは TPC に由来します。TPC データはご自身で生成することも可能です。詳細については、TPC 公式ドキュメントをご参照ください。
注意事項
公開データセットは、すべての MaxCompute ユーザーが利用できます。次の点にご注意ください:
パブリックデータセットのデータは、
BIGDATA_PUBLIC_DATASETプロジェクトに格納されています。 ユーザーはこのプロジェクトのメンバーとして追加されません。 そのため、プロジェクトをまたいでデータにアクセスする必要があります。 SQL スクリプトを記述する際は、テーブル名の前にプロジェクト名とスキーマ名を指定する必要があります。 テナントレベルのスキーマ構文が有効になっていない場合、コマンドを実行するには、セッションレベルのスキーマ構文を有効にする必要があります。 例:-- セッションレベルのスキーマ構文を有効にします。 SET odps.namespace.schema=true; -- dwd_github_events_odps テーブルから 100 件のレコードをクエリします。 SELECT * FROM bigdata_public_dataset.github_events.dwd_github_events_odps WHERE ds='2024-05-10' limit 100;重要公開データセットのデータストレージ料金は発生しません。ただし、クエリで消費される計算リソースに対しては料金が発生します。詳細については、コンピューティング料金 (従量課金) をご参照ください。
プロジェクト間のアクセスが必要なため、DataWorks のデータマップでは公開データセットのテーブルを表示できません。
公開データセットプロジェクトは、スキーマごとにデータを保存します。ご利用のアカウントでテナントレベルのスキーマ構文が有効になっていない場合、DataWorks のデータ分析で公開データセットを直接表示することはできません。SQL 文を実行することで、引き続きデータをクエリできます。
テーブル詳細情報
以下のテーブルは、BIGDATA_PUBLIC_DATASET 公開プロジェクトの各スキーマ内のテーブルに関する詳細情報を提供します。
GitHub 公開イベントデータ
プロジェクト名 | BIGDATA_PUBLIC_DATASET |
スキーマ名 | github_events |
利用可能なリージョン | 中国 (杭州)、中国 (上海)、中国 (北京)、中国 (張家口)、中国 (ウランチャブ)、中国 (深セン)、中国 (成都) |
テーブル名と説明 | GitHub の開発者がオープンソースプロジェクトで作業する際に生成する大量のイベントデータです。GitHub は、各イベントのタイプ、詳細、開発者、コードリポジトリを記録します。リポジトリへのスター付けやコードのコミットといった公開イベントが利用できます。イベントタイプの詳細については、GitHub Events をご参照ください。 MaxCompute は、GH Archive が提供する大量の公開イベントデータをオフラインで処理・開発し、以下のテーブルを生成します:
説明 テーブル内のデータは GH Archive からのものです。 |
更新サイクル |
|
テーブルスキーマのクエリ | |
クエリ例 | |
データの詳細とクエリサンプルについては、「GitHub 公開イベントデータ」をご参照ください。 | |
国家統計
プロジェクト名 | BIGDATA_PUBLIC_DATASET |
スキーマ名 | national_data |
利用可能なリージョン | 中国 (杭州)、中国 (上海)、中国 (北京)、中国 (張家口)、中国 (ウランチャブ)、中国 (深セン)、中国 (成都) |
テーブル名と説明 |
説明 annual_gdp_by_province のデータは 中国国家統計局 からのものです。annual_gdp_by_country のデータは 国際通貨基金 (IMF) からのものです。 |
更新サイクル | 更新されない静的データを提供します。 |
テーブルスキーマのクエリ | |
クエリ例 | |
TPC-DS データ
プロジェクト名 | BIGDATA_PUBLIC_DATASET |
スキーマ名 | tpcds_10g, tpcds_100g, tpcds_1t, tpcds_10t |
利用可能なリージョン | 中国 (杭州)、中国 (上海)、中国 (北京)、中国 (張家口)、中国 (ウランチャブ)、中国 (深セン)、中国 (成都)、中国 (香港)、日本 (東京)、シンガポール、マレーシア (クアラルンプール)、インドネシア (ジャカルタ)、米国 (バージニア)、米国 (シリコンバレー)、イギリス (ロンドン)、ドイツ (フランクフルト)、UAE (ドバイ)、中国 (上海) 金融クラウド、中国 (北京) 金融クラウド (招待制プレビュー)、中国 (北京) Alibaba Gov Cloud 1、中国 (深セン) 金融クラウド |
テーブル名と説明 | TPC-DS モデルは、全国展開する大手小売チェーンの販売システムをシミュレートします。これには、店舗 (実店舗)、Web (オンラインストア)、カタログ (電話注文) の 3 つの販売チャネルが含まれます。各チャネルは 2 つのテーブルを使用して、販売と返品のレコードをシミュレートします。このモデルには、製品、プロモーション、顧客に関する情報のディメンションテーブルも含まれます。詳細は次のとおりです:
説明 テーブル内のデータは TPC からのものです。 |
更新サイクル | 更新されない静的データを提供します。 |
テーブルスキーマのクエリ | |
クエリ例 | |
異なるデータ仕様のクエリサンプルファイルについては、「TPC-DS データ」をご参照ください。 データの詳細については、TPC Benchmark DS 公式標準仕様をご参照ください。 | |
TPC-H データ
プロジェクト名 | BIGDATA_PUBLIC_DATASET |
スキーマ名 | tpch_10g, tpch_100g, tpch_1t, tpch_10t |
利用可能なリージョン | 中国 (杭州)、中国 (上海)、中国 (北京)、中国 (張家口)、中国 (ウランチャブ)、中国 (深セン)、中国 (成都)、中国 (香港)、日本 (東京)、シンガポール、マレーシア (クアラルンプール)、インドネシア (ジャカルタ)、米国 (バージニア)、米国 (シリコンバレー)、イギリス (ロンドン)、ドイツ (フランクフルト)、UAE (ドバイ)、中国 (上海) 金融クラウド、中国 (北京) 金融クラウド (招待制プレビュー)、中国 (北京) Alibaba Gov Cloud 1、中国 (深セン) 金融クラウド |
テーブル名と説明 | TPC-H は、オンライン分析処理 (OLAP) を評価するために使用されるベンチマークプログラムです。サプライヤーとそのバイヤー間の取引をシミュレートします。注文、製品、顧客に関する情報が含まれています。詳細は次のとおりです:
説明 テーブル内のデータは TPC からのものです。 |
更新サイクル | 更新されない静的データを提供します。 |
テーブルスキーマのクエリ | |
クエリ例 | |
データの詳細とクエリサンプルについては、TPC Benchmark H 公式標準仕様をご参照ください。 | |
TPCx-BB データ
プロジェクト名 | BIGDATA_PUBLIC_DATASET |
スキーマ名 | tpcxbb_10g, tpcxbb_100g, tpcxbb_1t, tpcxbb_10t |
利用可能なリージョン | 中国 (杭州)、中国 (上海)、中国 (北京)、中国 (張家口)、中国 (ウランチャブ)、中国 (深セン)、中国 (成都)、中国 (香港)、日本 (東京)、シンガポール、マレーシア (クアラルンプール)、インドネシア (ジャカルタ)、米国 (バージニア)、米国 (シリコンバレー)、イギリス (ロンドン)、ドイツ (フランクフルト)、UAE (ドバイ)、中国 (上海) 金融クラウド、中国 (北京) 金融クラウド (招待制プレビュー)、中国 (北京) Alibaba Gov Cloud 1、中国 (深セン) 金融クラウド |
テーブル名と説明 | TPCx-BB はビッグデータベンチマークツールです。販売と返品のレコードを含むオンライン小売シナリオをシミュレートします。製品とプロモーションに関する情報も含まれています。詳細は次のとおりです:
説明 テーブル内のデータは TPC からのものです。 |
更新サイクル | 更新されない静的データを提供します。 |
テーブルスキーマのクエリ | |
クエリ例 | |
データの詳細とクエリサンプルについては、TPCx-BB 公式標準仕様をご参照ください。 | |
デジタルコマースデータセット
プロジェクト名 | BIGDATA_PUBLIC_DATASET |
スキーマ名 | commerce |
利用可能なリージョン | 中国 (杭州)、中国 (上海)、中国 (北京)、中国 (張家口)、中国 (ウランチャブ)、中国 (深セン)、中国 (成都) |
テーブル名と説明 |
説明 テーブル内のデータは Tianchi ラボ - Taobao ディスプレイ広告クリック率予測データセット からのものです。 |
更新サイクル | 静的データを提供します。増分更新は提供されなくなりました。 |
テーブルスキーマのクエリ | |
クエリ例 | |
生活サービスデータセット
プロジェクト名 | BIGDATA_PUBLIC_DATASET |
スキーマ名 | life_service |
利用可能なリージョン | 中国 (杭州)、中国 (上海)、中国 (北京)、中国 (張家口)、中国 (ウランチャブ)、中国 (深セン)、中国 (成都) |
テーブル名と説明 |
|
更新サイクル |
|
テーブルスキーマのクエリ | |
クエリ例 | |
金融株式データセット
プロジェクト名 | BIGDATA_PUBLIC_DATASET |
スキーマ名 | finance |
利用可能なリージョン | 中国 (杭州)、中国 (上海)、中国 (北京)、中国 (張家口)、中国 (ウランチャブ)、中国 (深セン)、中国 (成都) |
テーブル名と説明 |
|
更新サイクル | 固定の日付パーティションのデータを提供します。増分更新は提供されなくなりました。 |
テーブルスキーマのクエリ | |
クエリ例 | |
公開データセットの使用
前提条件
MaxCompute をアクティベートし、プロジェクトを作成済みであること。詳細については、「MaxCompute プロジェクトの作成」をご参照ください。
サポートされるツールまたはプラットフォーム
操作手順 (DataWorks データ開発ノードの例)
DataWorks コンソールにログインし、左上のコーナーでリージョンを選択します。
ODPS SQL ノードを作成し、次の SQL 例を入力します。
-- 過去 20 年間の中国各省の GDP 推移を表示します。 SET odps.namespace.schema=true; SET odps.sql.validate.orderby.limit = false; SELECT region, gdp, year FROM bigdata_public_dataset.national_data.annual_gdp_by_province ORDER BY year ASC;
をクリックして結果を表示します。
関連ドキュメント
MaxCompute データをエクスポートする方法の詳細については、次のトピックをご参照ください: