DataWorksでデータ分析を使用する方法 - DataWorks - Alibaba Cloud ドキュメントセンター

DataWorks のデータ分析機能は、データ分析と共有のためのツールです。さまざまなデータソースに接続し、SQL クエリを実行し、スプレッドシートを使用して日常的なデータ抽出と分析を管理できます。このトピックでは、MaxCompute エンジンと SQL クエリを使用してパブリックデータセットを分析する方法を説明し、データ分析の基本機能を紹介します。

機能

DataWorks は、さまざまなビジネスシナリオ向けの公開データセットを提供します。このトピックでは、Alibaba e-commerce データセット（commerce_ali_e_commerce テーブル）を使用して、データ分析機能の使用を開始する方法を説明します。

Alibaba eコマースデータセット：さまざまな期間における Taobao の注文詳細の統計情報が含まれています。
- この表には、約 100 万人のユーザーを対象に November 25, 2017 から December 3, 2017 までの期間に行われた、クリック、購入、カート追加、お気に入り登録などのランダムなアクションが記録されています。
- ユーザー数: 987,994。製品数: 4,162,024。総アクション数: 100,150,807。
データ分析機能の詳細については、「データ分析」をご参照ください。
パブリックデータセットは、次のリージョンで利用できます：中国 (上海)、中国 (北京)、中国 (深圳)、中国 (杭州)、中国 (成都)、中国 (張家口)、中国 (ウランチャブ)。

権限

データ分析に必要な権限が必要です。権限の完全なリストについては、「データ分析のプリセットロールの権限」をご参照ください。
ユーザーにロールを付与する方法については、「ワークスペースメンバーの追加とロールおよび権限の管理」をご参照ください。

前提条件

MaxCompute データソースが設定済みである必要があります。詳細については、「MaxComputeコンピューティングリソースのバインド」をご参照ください。

SQL クエリへのアクセス

DataWorks コンソールにログインします。左側のナビゲーションウィンドウで、[DataAnalysis] > [SQLクエリ] を選択します。表示されるページで、ドロップダウンリストから目的のワークスペースを選択し、[SQLクエリに移動] をクリックします。

ステップ1：データのクエリ

この例では、さまざまな期間の Taobao の注文詳細を含む Alibaba e コマースデータセット (commerce_ali_e_commerce) を使用します。SQL Query 機能を使用してデータセットのクエリと並べ替えを行い、その結果を分析して共有します。

SQL Query に移動します。

次のいずれかの方法でアクセスできます。
- データ分析ホームページのShortcutsエリアで、SQL QueryをクリックしてSQL Query ページを開きます。
- データ分析モジュールで、左側のナビゲーションペインの SQL Query をクリックして、SQL Query ページを開きます。
Temporary Fileを作成します。

左側のペインで、My Files の横にあるアイコンをクリックし、Create File を選択して、プロンプトに従って SQL クエリファイルを作成します。SQL クエリファイルを作成するその他の方法については、「SQL クエリ (旧)」をご参照ください。
説明
- このトピックでは、DataWorks が提供する公開データセットを使用します。初めて SQL Query にアクセスすると、Welcome Page ページが表示されます。このページで Go to DataAnalysis > [MaxCompute] をクリックすると、Alibaba eコマースデータセット (commerce_ali_e_commerce) のクエリを生成できます。
- さらに多くの公開データセットを検索するには、Data Analysis > SQL Queryに移動し、Public Data ディレクトリを検索します。
クエリの Data Source を選択します。

一時ファイルのエディターで、右上隅のアイコンをクリックします。クエリのワークスペース、エンジン、データソースを選択します。この例では、先ほど設定した MaxCompute データソースを選択します。

コードを編集して実行します。

コードエディタで、次のコードを編集して実行します。编辑代码

このクエリは、パブリックデータセットを使用して、期間別に Taobao の注文をカウントし、ソートします。

SET odps.namespace.schema = true
;

SELECT  CASE    WHEN CAST(SUBSTR(behavior_time, 12, 2) AS BIGINT) >= 0
                    AND CAST(SUBSTR(behavior_time, 12, 2) AS BIGINT) <= 3 THEN '00:00-03:00'
                WHEN CAST(SUBSTR(behavior_time, 12, 2) AS BIGINT) >= 4
                    AND CAST(SUBSTR(behavior_time, 12, 2) AS BIGINT) <= 7 THEN '04:00-07:00'
                WHEN CAST(SUBSTR(behavior_time, 12, 2) AS BIGINT) >= 8
                    AND CAST(SUBSTR(behavior_time, 12, 2) AS BIGINT) <= 11 THEN '08:00-11:00'
                WHEN CAST(SUBSTR(behavior_time, 12, 2) AS BIGINT) >= 12
                    AND CAST(SUBSTR(behavior_time, 12, 2) AS BIGINT) <= 15 THEN '12:00-15:00'
                WHEN CAST(SUBSTR(behavior_time, 12, 2) AS BIGINT) >= 16
                    AND CAST(SUBSTR(behavior_time, 12, 2) AS BIGINT) <= 19 THEN '16:00-19:00'
                WHEN CAST(SUBSTR(behavior_time, 12, 2) AS BIGINT) >= 20
                    AND CAST(SUBSTR(behavior_time, 12, 2) AS BIGINT) <= 23 THEN '20:00-23:00'
        END AS order_time
        ,COUNT(*) AS order_count
FROM    bigdata_public_dataset.commerce.commerce_ali_e_commerce
GROUP BY order_time
ORDER BY COUNT(*) DESC
LIMIT   100
;

クエリ結果を表示します。

アイコンをクリックして、SQL コードを実行します。

ステップ2：データの分析

ステップ1 のクエリ結果ページで、左側にある Display アイコンをクリックし、次に編集アイコンをクリックすると、グラフ編集ページが開きます。ビジネス要件に基づいて、グラフの情報を編集できます。

ステップ3：データの共有

SQL クエリの結果をスプレッドシートにエクスポートし、他のユーザーとオンラインで共同作業することで、結果を共有できます。

クエリ結果をエクスポートします。

ステップ 1 では、クエリ結果ページで右側のアイコンをクリックし、ドロップダウンメニューから Workbook and share を選択します。
Spreadsheet ページに移動します。

Spreadsheet ページでは、クエリ結果を同期できます。スプレッドシートの操作の詳細については、「スプレッドシート」をご参照ください。
クエリ結果を共有します。

ページの右上隅で、Share をクリックします。受信者は、URL またはアクセスコードを使用してスプレッドシートにアクセスできます。受信者には編集権限または閲覧のみの権限を付与できます。

分享数据

次のステップ

SQL クエリの詳細については、「SQL クエリ (旧)」をご参照ください。
スプレッドシートの操作の詳細については、「スプレッドシート」をご参照ください。