すべてのプロダクト
Search
ドキュメントセンター

MaxCompute:パブリックデータセットの概要

最終更新日:Mar 21, 2025

MaxCompute がアクティブ化されると、MaxCompute SQL を使用してパブリックデータセットのデータをクエリおよび分析できます。 これにより、MaxCompute をすぐに使い始めることができます。 このトピックでは、MaxCompute のパブリックデータセットと、MaxCompute SQL を使用してパブリックデータセットのデータをクエリおよび分析する方法について説明します。

はじめに

MaxCompute は、GitHub パブリックイベントデータ、国家統計データ、TPC パフォーマンステストデータ、デジタルビジネスデータ、ライフサービスデータ、金融株式データなどのデータカテゴリに基づいてパブリックデータセットを提供します。 すべてのデータは、MaxCompute のパブリックプロジェクト BIGDATA_PUBLIC_DATASET の異なるスキーマに格納されます。

カテゴリ

説明

データセット名

スキーマ名

GitHub パブリックイベントデータ

多くの開発者が GitHub でオープンソースプロジェクトを開発し、開発プロセス中に多数のイベントを生成します。 GitHub は、イベントタイプ、イベントの詳細、開発者、コードリポジトリなど、各イベントに関する情報を記録します。 GitHub は、リポジトリにスターを付けるイベントやコードを送信するイベントなど、パブリックイベントも公開しています。

GitHub パブリックイベントデータセット

github_events

国家統計データ

世界各国の年間国内総生産(GDP)データと中国本土のすべての省のデータが含まれています。

国家統計データセット

national_data

TPC パフォーマンスデータ

TPC-DS

TPC-DS は、クエリやデータメンテナンスなど、意思決定支援システムのいくつかの一般的に適用可能な側面をモデル化する意思決定支援ベンチマークです。 TPC-DS を使用すると、ビッグデータシステムなどの新しいテクノロジーでベンチマークテストを実行できます。

  • TPC-DS 10 GB パフォーマンステストデータセット

  • TPC-DS 100 GB パフォーマンステストデータセット

  • TPC-DS 1 TB パフォーマンステストデータセット

  • TPC-DS 10 TB パフォーマンステストデータセット

  • tpcds_10g

  • tpcds_100g

  • tpcds_1t

  • tpcds_10t

TPC-H

TPC-H は意思決定支援ベンチマークです。 これは、ビジネス指向のアドホッククエリと同時データ変更のスイートで構成されています。 TPC-H は、大量のデータに対して非常に複雑なクエリを実行し、重要なビジネス上の質問に対する回答を提供する意思決定支援システムを示しています。

  • TPC-H 10 GB パフォーマンステストデータセット

  • TPC-H 100 GB パフォーマンステストデータセット

  • TPC-H 1 TB パフォーマンステストデータセット

  • TPC-H 10 TB パフォーマンステストデータセット

  • tpch_10g

  • tpch_100g

  • tpch_1t

  • tpch_10t

TPCx-BB

TPCx-BB は TPC Express ベンチマークであり、Hadoop ベースのビッグデータシステムのパフォーマンスを測定するために設計されています。 TPCx-BB は、頻繁に実行される 30 の分析クエリを実行することにより、ハードウェアコンポーネントとソフトウェアコンポーネントの両方のパフォーマンスを測定します。

  • TPCx-BB 10 GB パフォーマンステストデータセット

  • TPCx-BB 100 GB パフォーマンステストデータセット

  • TPCx-BB 1 TB パフォーマンステストデータセット

  • TPCx-BB 10 TB パフォーマンステストデータセット

  • tpcbb_10g

  • tpcbb_100g

  • tpcbb_1t

  • tpcbb_10t

デジタルビジネスデータ

淘宝広告データ、淘宝ショッピングデータ、アリババグループの E コマースデータが含まれています。

デジタルビジネスデータセット

commerce

ライフサービスデータ

中古住宅、映画と興行収入、携帯電話番号の属性、行政、都市、農村の区分コード情報が含まれています。

ライフサービスデータセット

life_service

金融株式データ

株式情報が含まれています。

金融株式データセット

finance

免責事項

  • MaxCompute のパブリックデータセットのデータは、製品テスト用です。 データは定期的に更新されず、その精度は保証されていません。 本番プロセスではデータを使用しないでください。

  • MaxCompute パブリックデータセットの TPC データは、TPC ベンチマークテストに基づいて生成および分析されます。 テスト結果は、リリースされた TPC ベンチマークテストの結果とは異なります。 これは、MaxCompute パブリックデータセットに基づいて実行されるテストが、TPC ベンチマークテストのすべての要件を満たしていないためです。

  • MaxCompute によって提供される TPC パフォーマンステストデータは、TPC から取得されます。 TPC パフォーマンステストデータを生成することもできます。 TPC パフォーマンステストデータを生成する方法の詳細については、「TPC ドキュメント」をご参照ください。

注意事項

パブリックデータセットは、すべての MaxCompute ユーザーが利用できます。 パブリックデータセットを使用する場合は、次の点に注意してください。

  • パブリックデータセットのすべてのデータは、MaxCompute の BIGDATA_PUBLIC_DATASET プロジェクトに格納されます。 ただし、このプロジェクトにメンバーとしてユーザーは追加されていません。 この場合、プロジェクトをまたいでデータにアクセスする必要があります。 SQL スクリプトを作成する場合は、テーブル名の前にプロジェクト名とスキーマ名を指定します。 テナントレベルのスキーマ構文を有効にしていない場合は、文を実行する前にセッションレベルのスキーマ構文を有効にします。 文の例:

    -- セッションレベルのスキーマ構文を有効にします。
    set odps.namespace.schema=true; 
    -- dwd_github_events_odps テーブルから 100 件のデータレコードをクエリします。
    select * from bigdata_public_dataset.github_events.dwd_github_events_odps where ds='2024-05-10' limit 100;
    重要

    パブリックデータセットのデータのストレージに対して課金されることはありません。 ただし、クエリ文を実行すると計算料金が発生します。 詳細については、「Computing pricing (pay-as-you-go)」をご参照ください。

  • クロスプロジェクトアクセスが必要なため、DataWorks の データマップ ページでパブリックデータセットのテーブルを見つけることはできません。

  • パブリックデータセットはスキーマごとに格納されます。 テナントレベルのスキーマ構文を有効にしていない場合、DataWorks データ分析 でパブリックデータセットを表示することはできません。 この場合、SQL 文を実行することによってのみパブリックデータセットをクエリできます。

テーブルの詳細

以下のコンテンツでは、パブリックプロジェクト BIGDATA_PUBLIC_DATASET の各スキーマのテーブルの詳細について説明します。

GitHub パブリックイベントデータ

プロジェクト名

BIGDATA_PUBLIC_DATASET

スキーマ名

github_events

サポートされているリージョン

中国(杭州)、中国(上海)、中国(北京)、中国(張家口)、中国(ウランチャブ)、中国(深セン)、中国(成都)

テーブル名と説明

多くの開発者が GitHub でオープンソースプロジェクトを開発し、開発プロセス中に多数のイベントを生成します。 GitHub は、イベントタイプ、イベントの詳細、開発者、コードリポジトリなど、各イベントに関する情報を記録します。 GitHub は、リポジトリにスターを付けるイベントやコードを送信するイベントなど、パブリックイベントも公開しています。 イベントタイプの詳細については、「GitHub イベントタイプ」をご参照ください。

MaxCompute は、GH Archive によって提供される大量のパブリックイベントデータをバッチ処理および開発し、次のテーブルを生成します。

  • dwd_github_events_odps: GitHub パブリックイベントデータを格納するファクトテーブル。

  • dws_overview_by_repo_month: GitHub パブリックイベントの月次メトリックデータを格納する集計テーブル。

説明

テーブルのデータは、GH Archive から取得されます。

更新サイクル

  • dwd_github_events_odps: T + 1 時間ごとに更新されます。

  • dws_overview_by_repo_month: T + 1 日ごとに更新されます。

スキーマクエリ

-- セッションレベルのスキーマ構文を有効にします。
set odps.namespace.schema=true; 
-- dwd_github_events_odps テーブルのスキーマをクエリします。 別のテーブルのスキーマをクエリする場合は、次の文のスキーマ名とテーブル名を置き換えます。
desc bigdata_public_dataset.github_events.dwd_github_events_odps;

クエリの例

-- セッションレベルのスキーマ構文を有効にします。
SET odps.namespace.schema=true; 
-- 前年のスター付きリポジトリのランキングを取得します。 この例では、スターを外すなどの状況は考慮されていないことに注意してください。
SELECT
    repo_id,
    repo_name,
    COUNT(actor_login) total
FROM
    bigdata_public_dataset.github_events.dwd_github_events_odps
WHERE
    ds>=date_add(getdate(), -365)
    AND type = 'WatchEvent'
GROUP BY
    repo_id,
    repo_name
ORDER BY
    total DESC
LIMIT 10;

データとクエリの例の詳細は、「GitHub パブリックイベントデータ」をご参照ください。

国家統計データ

プロジェクト名

BIGDATA_PUBLIC_DATASET

スキーマ名

national_data

サポートされているリージョン

中国(杭州)、中国(上海)、中国(北京)、中国(張家口)、中国(ウランチャブ)、中国(深セン)、中国(成都)

テーブル名と説明

  • annual_gdp_by_province: 中国本土の各省の年間 GDP データを格納します。

  • annual_gdp_by_country: 世界各国の年間 GDP データを格納します。

説明

annual_gdp_by_province テーブルのデータは 中国国家統計局 から取得され、annual_gdp_by_country テーブルのデータは 国際通貨基金(IMF) から取得されます。

更新サイクル

固定データが提供され、更新されません。

スキーマクエリ

-- セッションレベルのスキーマ構文を有効にします。
set odps.namespace.schema=true; 
-- annual_gdp_by_province テーブルのスキーマをクエリします。 別のテーブルのスキーマをクエリする場合は、次の文のスキーマ名とテーブル名を置き換えます。
desc bigdata_public_dataset.national_data.annual_gdp_by_province;

クエリの例

-- セッションレベルのスキーマ構文を有効にします。
SET odps.namespace.schema=true; 
-- 過去 20 年間の北京の GDP 変化傾向をクエリします。
SELECT
    region,
    gdp,
    year
FROM
    bigdata_public_dataset.national_data.annual_gdp_by_province
WHERE
    region='Beijing'
ORDER BY
    year ASC
LIMIT 20;

TPC-DS データ

プロジェクト名

BIGDATA_PUBLIC_DATASET

スキーマ名

tpcds_10g、tpcds_100g、tpcds_1t、および tpcds_10t

サポートされているリージョン

中国(杭州)、中国(上海)、中国(北京)、中国(張家口)、中国(ウランチャブ)、中国(深セン)、中国(成都)、中国(香港)、日本(東京)、シンガポール、マレーシア(クアラルンプール)、インドネシア(ジャカルタ)、米国(バージニア)、米国(シリコンバレー)、英国(ロンドン)、ドイツ(フランクフルト)、UAE(ドバイ)、中国東部 2 金融、中国北部 2 金融(プレビュー)、中国北部 2 Ali Gov 1、中国南部 1 金融

テーブル名と説明

TPC-DS モデルは、大規模な全国チェーン小売店の販売システムをシミュレートします。 販売システムには、店舗(実店舗)、Web(オンラインストア)、カタログ(電話注文)の 3 つの販売チャネルがあります。 各チャネルは、1 つのテーブルを使用して販売レコードを格納し、別のテーブルを使用して返品レコードを格納し、複数のディメンションテーブルを使用して製品情報、プロモーション情報、ユーザー情報などの情報を格納します。 テーブルの詳細:

  • call_center: カスタマーサービスセンターに関する情報を格納します。

  • catalog_page: カタログに関する情報を格納します。

  • catalog_returns: 電話注文を使用して販売された製品の返品レコードを格納します。

  • catalog_sales: 電話注文を使用して販売された製品の販売レコードを格納します。

  • customer: 顧客情報を格納します。

  • customer_address: 顧客の住所情報を格納します。

  • customer_demographics: 顧客に関する基本的な信用情報を格納します。

  • date_dim: 時間ディメンション情報を格納します。

  • household_demographics: 基本的な世帯の信用情報を格納します。

  • income_band: 収益情報を格納します。

  • inventory: 在庫情報を格納します。

  • item: 製品情報を格納します。

  • promotion: 製品のプロモーション情報を格納します。

  • reason: 販売返品理由を格納します。

  • ship_mode: 製品の出荷情報を格納します。

  • store: 加盟店情報を格納します。

  • store_returns: 店舗販売の製品返品レコードを格納します。

  • store_sales: 店舗販売の製品販売レコードを格納します。

  • time_dim: 時間ディメンション情報を格納します。

  • warehouse: 倉庫情報を格納します。

  • web_page: 製品の Web ページ情報を格納します。

  • web_returns: Web 販売の製品返品レコードを格納します。

  • web_sales: Web 販売の製品販売レコードを格納します。

  • web_site: Web サイトに関する基本情報を格納します。

説明

テーブルのデータは、TPC から取得されます。

更新サイクル

固定データが提供され、更新されません。

スキーマクエリ

-- セッションレベルのスキーマ構文を有効にします。
SET odps.namespace.schema=TRUE; 
-- tpcds_10g の call_center テーブルのスキーマをクエリします。 別のデータセットからテーブルスキーマをクエリする場合は、次の文のスキーマ名とテーブル名を置き換えます。
DESC bigdata_public_dataset.tpcds_10g.call_center;

クエリの例

SET odps.namespace.schema=TRUE; 
SELECT dt.d_year ,
       item.i_brand_id brand_id ,
       item.i_brand brand ,
       SUM(ss_sales_price) sum_agg
FROM bigdata_public_dataset.tpcds_10g.date_dim dt ,
     bigdata_public_dataset.tpcds_10g.store_sales ,
     bigdata_public_dataset.tpcds_10g.item
WHERE dt.d_date_sk = store_sales.ss_sold_date_sk
  AND store_sales.ss_item_sk = item.i_item_sk
  AND item.i_manufact_id = 190
  AND dt.d_moy = 12
GROUP BY dt.d_year ,
         item.i_brand ,
         item.i_brand_id
ORDER BY dt.d_year,
         sum_agg DESC,
         brand_id LIMIT 100;

さまざまなデータ仕様のクエリサンプルファイルの詳細については、「TPC-DS データ」をご参照ください。

データの詳細については、「TPC ベンチマーク DS 標準仕様」をご参照ください。

TPC-H データ

プロジェクト名

BIGDATA_PUBLIC_DATASET

スキーマ名

tpch_10g、tpch_100g、tpch_1t、および tpch_10t

サポートされているリージョン

中国(杭州)、中国(上海)、中国(北京)、中国(張家口)、中国(ウランチャブ)、中国(深セン)、中国(成都)、中国(香港)、日本(東京)、シンガポール、マレーシア(クアラルンプール)、インドネシア(ジャカルタ)、米国(バージニア)、米国(シリコンバレー)、英国(ロンドン)、ドイツ(フランクフルト)、UAE(ドバイ)、中国東部 2 金融、中国北部 2 金融(プレビュー)、中国北部 2 Ali Gov 1、中国南部 1 金融

テーブル名と説明

TPC-H は、オンライン分析と処理を評価するために使用されるベンチマークです。 TPC-H データは、プロバイダーと購入者の間のビジネス動作をシミュレートします。 TPC-H データには、注文情報、製品情報、ユーザー情報などの情報が含まれています。 テーブルの詳細:

  • customer: コンシューマー情報を格納します。

  • lineitem: オンライン製品情報を格納します。

  • nation: 国情報を格納します。

  • orders: 注文情報を格納します。

  • part: パーツ情報を格納します。

  • partsupp: サプライヤーパーツ情報を格納します。

  • region: リージョン情報を格納します。

  • supplier: サプライヤー情報を格納します。

説明

テーブルのデータは、TPC から取得されます。

更新サイクル

固定データが提供され、更新されません。

スキーマクエリ

-- セッションレベルのスキーマ構文を有効にします。
SET odps.namespace.schema=TRUE; 
-- tpch_10g の lineitem テーブルのスキーマをクエリします。 別のデータセットからテーブルスキーマをクエリする場合は、次の文のスキーマ名とテーブル名を置き換えます。
DESC bigdata_public_dataset.tpch_10g.lineitem;

クエリの例

SET odps.namespace.schema=TRUE; 
SET odps.sql.validate.orderby.limit=FALSE;
SET odps.sql.hive.compatible=TRUE;
SELECT l_returnflag,
       l_linestatus,
       sum(l_quantity) AS sum_qty,
       sum(l_extendedprice) AS sum_base_price,
       sum(l_extendedprice * (1 - l_discount)) AS sum_disc_price,
       sum(l_extendedprice * (1 - l_discount) * (1 + l_tax)) AS sum_charge,
       avg(l_quantity) AS avg_qty,
       avg(l_extendedprice) AS avg_price,
       avg(l_discount) AS avg_disc,
       count(*) AS count_order
FROM bigdata_public_dataset.tpch_10g.lineitem
WHERE l_shipdate <= date'1998-12-01' - interval '90' DAY
GROUP BY l_returnflag,
         l_linestatus
ORDER BY l_returnflag,
         l_linestatus;

データとサンプルクエリの詳細については、「TPC ベンチマーク H 標準仕様」をご参照ください。

TPCx-BB データ

プロジェクト名

BIGDATA_PUBLIC_DATASET

スキーマ名

tpcxbb_10g、tpcxbb_100g、tpcxbb_1t、および tpcxbb_10t

サポートされているリージョン

中国(杭州)、中国(上海)、中国(北京)、中国(張家口)、中国(ウランチャブ)、中国(深セン)、中国(成都)、中国(香港)、日本(東京)、シンガポール、マレーシア(クアラルンプール)、インドネシア(ジャカルタ)、米国(バージニア)、米国(シリコンバレー)、英国(ロンドン)、ドイツ(フランクフルト)、UAE(ドバイ)、中国東部 2 金融、中国北部 2 金融(プレビュー)、中国北部 2 Ali Gov 1、中国南部 1 金融

テーブル名と説明

TPCx-BB は、オンライン小売シナリオをシミュレートするビッグデータベンチマークテストツールです。 TPCx-BB データには、販売レコード、返品レコード、製品情報、プロモーション情報が含まれます。 テーブルの詳細:

  • customer: 顧客情報を格納します。

  • customer_address: 顧客の住所情報を格納します。

  • customer_demographics: 顧客に関する基本的な信用情報を格納します。

  • date_dim: 時間ディメンション情報を格納します。

  • household_demographics: 基本的な世帯の信用情報を格納します。

  • income_band: 収益情報を格納します。

  • inventory: 在庫情報を格納します。

  • item: 製品情報を格納します。

  • item_marketprices: 競合他社の製品価格情報を格納します。

  • product_reviews: 製品のレビュー情報を格納します。

  • promotion: 製品のプロモーション情報を格納します。

  • reason: 販売返品理由を格納します。

  • ship_mode: 製品の出荷情報を格納します。

  • store: 店舗情報を格納します。

  • store_returns: 店舗販売の製品返品レコードを格納します。

  • store_sales: 店舗販売の製品販売レコードを格納します。

  • time_dim: 時間ディメンション情報を格納します。

  • warehouse: 倉庫情報を格納します。

  • web_clickstreams: Web ページのクリック情報を格納します。

  • web_page: 製品の Web ページ情報を格納します。

  • web_returns: Web 販売の製品返品レコードを格納します。

  • web_sales: Web 販売の製品販売レコードを格納します。

  • web_site: 製品の Web サイト情報を格納します。

説明

テーブルのデータは、TPC から取得されます。

更新サイクル

固定データが提供され、更新されません。

スキーマクエリ

-- セッションレベルのスキーマ構文を有効にします。
SET odps.namespace.schema=TRUE; 
-- tpcxbb_10g の web_sales テーブルのスキーマをクエリします。 別のデータセットからテーブルスキーマをクエリする場合は、次の文のスキーマ名とテーブル名を置き換えます。
DESC bigdata_public_dataset.tpcxbb_10g.web_sales;

クエリの例

SET odps.namespace.schema=TRUE; 
select * FROM bigdata_public_dataset.tpcxbb_10g.web_sales limit 100;

データとクエリの例の詳細は、「TPCx-BB 標準仕様」をご参照ください。

デジタルビジネスデータ

プロジェクト名

BIGDATA_PUBLIC_DATASET

スキーマ名

commerce

サポートされているリージョン

中国(杭州)、中国(上海)、中国(北京)、中国(張家口)、中国(ウランチャブ)、中国(深セン)、中国(成都)

テーブル名と説明

  • adv_raw_sample: 8 日以内に 100 万人を超えるユーザーの広告クリックのログからランダムにサンプリングされた生データを格納します。

  • adv_ad_feature: raw_sample テーブルの一部の広告に関する基本情報を格納します。

  • user_profile: raw_sample テーブルのすべてのユーザーに関する基本情報を格納します。

  • behavior_log: 22 日以内の raw_sample テーブルのすべてのユーザーのショッピング行動を格納します。 行動には、閲覧、ショッピングカートへの追加、お気に入りに追加、購入が含まれます。

説明

テーブルのデータは Tianchi Lab - Taobao.com の広告表示/クリックデータ から取得されます。

更新サイクル

固定データが提供され、増分更新は行われません。

スキーマクエリ

-- セッションレベルのスキーマ構文を有効にします。
SET odps.namespace.schema=TRUE; 
-- behavior_log テーブルのスキーマをクエリします。 別のテーブルのスキーマをクエリする場合は、次の文のテーブル名を置き換えます。
DESC bigdata_public_dataset.commerce.behavior_log;

クエリの例

-- セッションレベルのスキーマ構文を有効にします。
SET odps.namespace.schema=TRUE; 
-- 製品の売上高に基づいて、22 日以内の behavior_log テーブルの上位 3 つの製品カテゴリの ID をクエリします。
SELECT cate,
       count(btag) sales
FROM behavior_log
WHERE btag='buy'
GROUP BY cate
ORDER BY sales DESC LIMIT 3;

ライフサービスデータ

プロジェクト名

BIGDATA_PUBLIC_DATASET

スキーマ名

life_service

サポートされているリージョン

中国(杭州)、中国(上海)、中国(北京)、中国(張家口)、中国(ウランチャブ)、中国(深セン)、中国(成都)

テーブル名と説明

  • movie_basic_info: 映画の基本情報を格納します。

  • movie_box: 興行収入の基本情報を格納します。

  • areacode_basic_info_2020: 2020 年の行政、都市、農村の区分コードの基本情報を格納します。

  • phoneno_basic_info_2020: 2020 年の携帯電話番号の属性の基本情報を格納します。

更新サイクル

  • movie_basic_info と movie_box: 日付固有のパーティションのデータが提供され、増分更新は行われません。

  • areacode_basic_info_2020 と phoneno_basic_info_2020: 固定データが提供され、増分更新は行われません。

スキーマクエリ

-- セッションレベルのスキーマ構文を有効にします。
SET odps.namespace.schema=TRUE; 
-- movie_box テーブルのスキーマをクエリします。 別のテーブルのスキーマをクエリする場合は、次の文のテーブル名を置き換えます。
DESC bigdata_public_dataset.life_service.movie_box;

クエリの例

-- セッションレベルのスキーマ構文を有効にします。
SET odps.namespace.schema=TRUE;
-- 興行収入に基づいて、2017 年 1 月 14 日に最も人気のある映画トップ 10 の名前をクエリします。
SELECT moviename
FROM bigdata_public_dataset.life_service.movie_box
WHERE ds ='20170114'
ORDER BY rank ASC LIMIT 10;

金融株式データ

プロジェクト名

BIGDATA_PUBLIC_DATASET

スキーマ名

finance

サポートされているリージョン

中国(杭州)、中国(上海)、中国(北京)、中国(張家口)、中国(ウランチャブ)、中国(深セン)、中国(成都)

テーブル名と説明

  • ods_enterprise_share_basic: 株式の基本情報を格納します。

  • ods_enterprise_share_quarter_cashflow: 四半期ごとのキャッシュフロー情報を格納します。

  • ods_enterprise_share_quarter_growth: 四半期ごとの事業成長データを格納します。

  • ods_enterprise_share_quarter_operation: 四半期ごとの財務回転データを格納します。

  • ods_enterprise_share_quarter_profit: 四半期ごとの利益情報を格納します。

  • ods_enterprise_share_quarter_report: 四半期報告情報を格納します。

  • ods_enterprise_share_trade_h: 株価情報を格納します。

更新サイクル

日付固有のパーティションのデータが提供され、増分更新は行われません。

スキーマクエリ

-- セッションレベルのスキーマ構文を有効にします。
SET odps.namespace.schema=TRUE; 
-- ods_enterprise_share_basic テーブルのスキーマをクエリします。 別のテーブルのスキーマをクエリする場合は、次の文のテーブル名を置き換えます。
DESC bigdata_public_dataset.finance.ods_enterprise_share_basic;

クエリの例

-- セッションレベルのスキーマ構文を有効にします。
SET odps.namespace.schema=TRUE;
-- 2017 年 1 月 14 日の株式の基本情報をクエリします。
SELECT *
FROM bigdata_public_dataset.finance.ods_enterprise_share_basic
WHERE ds ='20170114' LIMIT 10;

パブリックデータセットの使用

前提条件

MaxCompute がアクティブ化され、MaxCompute プロジェクトが作成されます。 MaxCompute プロジェクトの作成方法の詳細については、「MaxCompute プロジェクトの作成」をご参照ください。

サポートされているツールまたはプラットフォーム

手順(DataWorks ODPS SQL ノードを使用)

  1. DataWorks コンソール にログインし、ワークスペースを作成します。 ワークスペースの作成方法の詳細については、「ワークスペースの作成」をご参照ください。

  2. MaxCompute データソースをワークスペースに関連付けます。 詳細については、「ワークスペースへのデータソースの追加またはクラスターの登録」をご参照ください。

  3. ODPS SQL ノードを作成し、次の SQL 文を入力します。 詳細については、「MaxCompute SQL タスクの開発」をご参照ください。

    -- 過去 20 年間の中国本土の各省の GDP 変化傾向をクエリします。
    SET odps.namespace.schema=true; 
    SET odps.sql.validate.orderby.limit = false;
    SELECT
        region,
        gdp,
        year
    FROM
        bigdata_public_dataset.national_data.annual_gdp_by_province
    ORDER BY
        year ASC;
  4. image.png をクリックし、出力結果を表示します。 image.png

参考資料

MaxCompute データエクスポート方法の概要:

  • ダウンロード: 指定されたインスタンスのデータまたは実行結果をローカル環境にダウンロードすることをサポートします。

  • アンロード: Object Storage Service (OSS) や Hologres などの外部ストレージにデータをエクスポートすることをサポートします。