MaxCompute がアクティブ化されると、MaxCompute SQL を使用してパブリックデータセットのデータをクエリおよび分析できます。 これにより、MaxCompute をすぐに使い始めることができます。 このトピックでは、MaxCompute のパブリックデータセットと、MaxCompute SQL を使用してパブリックデータセットのデータをクエリおよび分析する方法について説明します。
はじめに
MaxCompute は、GitHub パブリックイベントデータ、国家統計データ、TPC パフォーマンステストデータ、デジタルビジネスデータ、ライフサービスデータ、金融株式データなどのデータカテゴリに基づいてパブリックデータセットを提供します。 すべてのデータは、MaxCompute のパブリックプロジェクト BIGDATA_PUBLIC_DATASET の異なるスキーマに格納されます。
カテゴリ | 説明 | データセット名 | スキーマ名 | |
GitHub パブリックイベントデータ | 多くの開発者が GitHub でオープンソースプロジェクトを開発し、開発プロセス中に多数のイベントを生成します。 GitHub は、イベントタイプ、イベントの詳細、開発者、コードリポジトリなど、各イベントに関する情報を記録します。 GitHub は、リポジトリにスターを付けるイベントやコードを送信するイベントなど、パブリックイベントも公開しています。 | GitHub パブリックイベントデータセット | github_events | |
国家統計データ | 世界各国の年間国内総生産(GDP)データと中国本土のすべての省のデータが含まれています。 | 国家統計データセット | national_data | |
TPC パフォーマンスデータ | TPC-DS | TPC-DS は、クエリやデータメンテナンスなど、意思決定支援システムのいくつかの一般的に適用可能な側面をモデル化する意思決定支援ベンチマークです。 TPC-DS を使用すると、ビッグデータシステムなどの新しいテクノロジーでベンチマークテストを実行できます。 |
|
|
TPC-H | TPC-H は意思決定支援ベンチマークです。 これは、ビジネス指向のアドホッククエリと同時データ変更のスイートで構成されています。 TPC-H は、大量のデータに対して非常に複雑なクエリを実行し、重要なビジネス上の質問に対する回答を提供する意思決定支援システムを示しています。 |
|
| |
TPCx-BB | TPCx-BB は TPC Express ベンチマークであり、Hadoop ベースのビッグデータシステムのパフォーマンスを測定するために設計されています。 TPCx-BB は、頻繁に実行される 30 の分析クエリを実行することにより、ハードウェアコンポーネントとソフトウェアコンポーネントの両方のパフォーマンスを測定します。 |
|
| |
デジタルビジネスデータ | 淘宝広告データ、淘宝ショッピングデータ、アリババグループの E コマースデータが含まれています。 | デジタルビジネスデータセット | commerce | |
ライフサービスデータ | 中古住宅、映画と興行収入、携帯電話番号の属性、行政、都市、農村の区分コード情報が含まれています。 | ライフサービスデータセット | life_service | |
金融株式データ | 株式情報が含まれています。 | 金融株式データセット | finance |
免責事項
MaxCompute のパブリックデータセットのデータは、製品テスト用です。 データは定期的に更新されず、その精度は保証されていません。 本番プロセスではデータを使用しないでください。
MaxCompute パブリックデータセットの TPC データは、TPC ベンチマークテストに基づいて生成および分析されます。 テスト結果は、リリースされた TPC ベンチマークテストの結果とは異なります。 これは、MaxCompute パブリックデータセットに基づいて実行されるテストが、TPC ベンチマークテストのすべての要件を満たしていないためです。
MaxCompute によって提供される TPC パフォーマンステストデータは、TPC から取得されます。 TPC パフォーマンステストデータを生成することもできます。 TPC パフォーマンステストデータを生成する方法の詳細については、「TPC ドキュメント」をご参照ください。
注意事項
パブリックデータセットは、すべての MaxCompute ユーザーが利用できます。 パブリックデータセットを使用する場合は、次の点に注意してください。
パブリックデータセットのすべてのデータは、MaxCompute の
BIGDATA_PUBLIC_DATASET
プロジェクトに格納されます。 ただし、このプロジェクトにメンバーとしてユーザーは追加されていません。 この場合、プロジェクトをまたいでデータにアクセスする必要があります。 SQL スクリプトを作成する場合は、テーブル名の前にプロジェクト名とスキーマ名を指定します。 テナントレベルのスキーマ構文を有効にしていない場合は、文を実行する前にセッションレベルのスキーマ構文を有効にします。 文の例:-- セッションレベルのスキーマ構文を有効にします。 set odps.namespace.schema=true; -- dwd_github_events_odps テーブルから 100 件のデータレコードをクエリします。 select * from bigdata_public_dataset.github_events.dwd_github_events_odps where ds='2024-05-10' limit 100;
重要パブリックデータセットのデータのストレージに対して課金されることはありません。 ただし、クエリ文を実行すると計算料金が発生します。 詳細については、「Computing pricing (pay-as-you-go)」をご参照ください。
クロスプロジェクトアクセスが必要なため、DataWorks の データマップ ページでパブリックデータセットのテーブルを見つけることはできません。
パブリックデータセットはスキーマごとに格納されます。 テナントレベルのスキーマ構文を有効にしていない場合、DataWorks データ分析 でパブリックデータセットを表示することはできません。 この場合、SQL 文を実行することによってのみパブリックデータセットをクエリできます。
テーブルの詳細
以下のコンテンツでは、パブリックプロジェクト BIGDATA_PUBLIC_DATASET の各スキーマのテーブルの詳細について説明します。
GitHub パブリックイベントデータ
プロジェクト名 | BIGDATA_PUBLIC_DATASET |
スキーマ名 | github_events |
サポートされているリージョン | 中国(杭州)、中国(上海)、中国(北京)、中国(張家口)、中国(ウランチャブ)、中国(深セン)、中国(成都) |
テーブル名と説明 | 多くの開発者が GitHub でオープンソースプロジェクトを開発し、開発プロセス中に多数のイベントを生成します。 GitHub は、イベントタイプ、イベントの詳細、開発者、コードリポジトリなど、各イベントに関する情報を記録します。 GitHub は、リポジトリにスターを付けるイベントやコードを送信するイベントなど、パブリックイベントも公開しています。 イベントタイプの詳細については、「GitHub イベントタイプ」をご参照ください。 MaxCompute は、GH Archive によって提供される大量のパブリックイベントデータをバッチ処理および開発し、次のテーブルを生成します。
説明 テーブルのデータは、GH Archive から取得されます。 |
更新サイクル |
|
スキーマクエリ |
|
クエリの例 |
|
データとクエリの例の詳細は、「GitHub パブリックイベントデータ」をご参照ください。 |
国家統計データ
プロジェクト名 | BIGDATA_PUBLIC_DATASET |
スキーマ名 | national_data |
サポートされているリージョン | 中国(杭州)、中国(上海)、中国(北京)、中国(張家口)、中国(ウランチャブ)、中国(深セン)、中国(成都) |
テーブル名と説明 |
説明 annual_gdp_by_province テーブルのデータは 中国国家統計局 から取得され、annual_gdp_by_country テーブルのデータは 国際通貨基金(IMF) から取得されます。 |
更新サイクル | 固定データが提供され、更新されません。 |
スキーマクエリ |
|
クエリの例 |
|
TPC-DS データ
プロジェクト名 | BIGDATA_PUBLIC_DATASET |
スキーマ名 | tpcds_10g、tpcds_100g、tpcds_1t、および tpcds_10t |
サポートされているリージョン | 中国(杭州)、中国(上海)、中国(北京)、中国(張家口)、中国(ウランチャブ)、中国(深セン)、中国(成都)、中国(香港)、日本(東京)、シンガポール、マレーシア(クアラルンプール)、インドネシア(ジャカルタ)、米国(バージニア)、米国(シリコンバレー)、英国(ロンドン)、ドイツ(フランクフルト)、UAE(ドバイ)、中国東部 2 金融、中国北部 2 金融(プレビュー)、中国北部 2 Ali Gov 1、中国南部 1 金融 |
テーブル名と説明 | TPC-DS モデルは、大規模な全国チェーン小売店の販売システムをシミュレートします。 販売システムには、店舗(実店舗)、Web(オンラインストア)、カタログ(電話注文)の 3 つの販売チャネルがあります。 各チャネルは、1 つのテーブルを使用して販売レコードを格納し、別のテーブルを使用して返品レコードを格納し、複数のディメンションテーブルを使用して製品情報、プロモーション情報、ユーザー情報などの情報を格納します。 テーブルの詳細:
説明 テーブルのデータは、TPC から取得されます。 |
更新サイクル | 固定データが提供され、更新されません。 |
スキーマクエリ |
|
クエリの例 |
|
さまざまなデータ仕様のクエリサンプルファイルの詳細については、「TPC-DS データ」をご参照ください。 データの詳細については、「TPC ベンチマーク DS 標準仕様」をご参照ください。 |
TPC-H データ
プロジェクト名 | BIGDATA_PUBLIC_DATASET |
スキーマ名 | tpch_10g、tpch_100g、tpch_1t、および tpch_10t |
サポートされているリージョン | 中国(杭州)、中国(上海)、中国(北京)、中国(張家口)、中国(ウランチャブ)、中国(深セン)、中国(成都)、中国(香港)、日本(東京)、シンガポール、マレーシア(クアラルンプール)、インドネシア(ジャカルタ)、米国(バージニア)、米国(シリコンバレー)、英国(ロンドン)、ドイツ(フランクフルト)、UAE(ドバイ)、中国東部 2 金融、中国北部 2 金融(プレビュー)、中国北部 2 Ali Gov 1、中国南部 1 金融 |
テーブル名と説明 | TPC-H は、オンライン分析と処理を評価するために使用されるベンチマークです。 TPC-H データは、プロバイダーと購入者の間のビジネス動作をシミュレートします。 TPC-H データには、注文情報、製品情報、ユーザー情報などの情報が含まれています。 テーブルの詳細:
説明 テーブルのデータは、TPC から取得されます。 |
更新サイクル | 固定データが提供され、更新されません。 |
スキーマクエリ |
|
クエリの例 |
|
データとサンプルクエリの詳細については、「TPC ベンチマーク H 標準仕様」をご参照ください。 |
TPCx-BB データ
プロジェクト名 | BIGDATA_PUBLIC_DATASET |
スキーマ名 | tpcxbb_10g、tpcxbb_100g、tpcxbb_1t、および tpcxbb_10t |
サポートされているリージョン | 中国(杭州)、中国(上海)、中国(北京)、中国(張家口)、中国(ウランチャブ)、中国(深セン)、中国(成都)、中国(香港)、日本(東京)、シンガポール、マレーシア(クアラルンプール)、インドネシア(ジャカルタ)、米国(バージニア)、米国(シリコンバレー)、英国(ロンドン)、ドイツ(フランクフルト)、UAE(ドバイ)、中国東部 2 金融、中国北部 2 金融(プレビュー)、中国北部 2 Ali Gov 1、中国南部 1 金融 |
テーブル名と説明 | TPCx-BB は、オンライン小売シナリオをシミュレートするビッグデータベンチマークテストツールです。 TPCx-BB データには、販売レコード、返品レコード、製品情報、プロモーション情報が含まれます。 テーブルの詳細:
説明 テーブルのデータは、TPC から取得されます。 |
更新サイクル | 固定データが提供され、更新されません。 |
スキーマクエリ |
|
クエリの例 |
|
データとクエリの例の詳細は、「TPCx-BB 標準仕様」をご参照ください。 |
デジタルビジネスデータ
プロジェクト名 | BIGDATA_PUBLIC_DATASET |
スキーマ名 | commerce |
サポートされているリージョン | 中国(杭州)、中国(上海)、中国(北京)、中国(張家口)、中国(ウランチャブ)、中国(深セン)、中国(成都) |
テーブル名と説明 |
説明 テーブルのデータは Tianchi Lab - Taobao.com の広告表示/クリックデータ から取得されます。 |
更新サイクル | 固定データが提供され、増分更新は行われません。 |
スキーマクエリ |
|
クエリの例 |
|
ライフサービスデータ
プロジェクト名 | BIGDATA_PUBLIC_DATASET |
スキーマ名 | life_service |
サポートされているリージョン | 中国(杭州)、中国(上海)、中国(北京)、中国(張家口)、中国(ウランチャブ)、中国(深セン)、中国(成都) |
テーブル名と説明 |
|
更新サイクル |
|
スキーマクエリ |
|
クエリの例 |
|
金融株式データ
プロジェクト名 | BIGDATA_PUBLIC_DATASET |
スキーマ名 | finance |
サポートされているリージョン | 中国(杭州)、中国(上海)、中国(北京)、中国(張家口)、中国(ウランチャブ)、中国(深セン)、中国(成都) |
テーブル名と説明 |
|
更新サイクル | 日付固有のパーティションのデータが提供され、増分更新は行われません。 |
スキーマクエリ |
|
クエリの例 |
|
パブリックデータセットの使用
前提条件
MaxCompute がアクティブ化され、MaxCompute プロジェクトが作成されます。 MaxCompute プロジェクトの作成方法の詳細については、「MaxCompute プロジェクトの作成」をご参照ください。
サポートされているツールまたはプラットフォーム
手順(DataWorks ODPS SQL ノードを使用)
DataWorks コンソール にログインし、ワークスペースを作成します。 ワークスペースの作成方法の詳細については、「ワークスペースの作成」をご参照ください。
MaxCompute データソースをワークスペースに関連付けます。 詳細については、「ワークスペースへのデータソースの追加またはクラスターの登録」をご参照ください。
ODPS SQL ノードを作成し、次の SQL 文を入力します。 詳細については、「MaxCompute SQL タスクの開発」をご参照ください。
-- 過去 20 年間の中国本土の各省の GDP 変化傾向をクエリします。 SET odps.namespace.schema=true; SET odps.sql.validate.orderby.limit = false; SELECT region, gdp, year FROM bigdata_public_dataset.national_data.annual_gdp_by_province ORDER BY year ASC;
をクリックし、出力結果を表示します。
参考資料
MaxCompute データエクスポート方法の概要: