このトピックでは、住宅購入グループ分析を通して、DataWorks のデータ開発とデータ分析プロセスを簡単に理解できるようにガイドします。
はじめに
このチュートリアルでは、住宅購入データに基づいて、異なるグループの住宅購入状況を分析します。 このチュートリアルでは、DataWorks を使用して、オンプレミス データを bank_data という名前の MaxCompute テーブルにアップロードし、MaxCompute SQL ノードを使用してユーザー グループを分析して、result_table という名前のテーブルを取得します。 最後に、result_table に基づいて簡単な可視化と分析を実行し、ユーザー グループのプロファイル データを取得します。
このチュートリアルでは、シミュレートされたデータに基づいて DataWorks の機能を紹介します。 実際のビジネス シナリオでは、ビジネス データに基づいて調整する必要があります。
次の図は、このチュートリアルでのデータ転送パスとデータ開発プロセスを示しています。
データ分析が完了すると、住宅購入データから次のグループ分析プロファイルを取得できます。住宅ローンを組んでいる独身者の教育レベルは、主に university.degree
と high.school
です。
準備
DataWorks の有効化
ワークスペースの作成
リソースグループを作成し、ワークスペースに関連付ける
MaxCompute プロジェクトを作成し、計算リソースとしてワークスペースに関連付ける
手順
このチュートリアルでは、DataWorks を使用して、このチュートリアル用に提供されたテストデータを MaxCompute プロジェクトにアップロードし、Data Studio でワークフローを作成してテストデータをクレンジングおよび書き込む必要があります。 また、ワークフローをデバッグおよび実行し、SQL ステートメントを実行して実行結果をクエリおよび検証する必要があります。
ステップ 1:MaxCompute テーブルを作成する
テストデータをアップロードする前に、DataWorks のデータカタログ機能を使用して、アップロードするテストデータを格納する bank_data
という名前のテーブルを MaxCompute プロジェクトに作成する必要があります。
DataWorks コンソール にログインします。 上部のナビゲーションバーで、目的のリージョンを選択します。 DataWorks コンソールの左側のナビゲーションウィンドウで、 を選択します。 表示されるページで、[ワークスペースの選択] ドロップダウンリストから目的のワークスペースを選択し、[Data Studio に移動]Data Studio をクリックします。
Data Studio ページの左側のナビゲーションウィンドウで、
アイコンをクリックして [データカタログ] ウィンドウに移動します。
(オプション) MaxCompute プロジェクトがデータカタログとして DataWorks に追加されていない場合は、MaxCompute の横にある
アイコンをクリックして [DataWorks データソース]データソース タブに移動します。 DataWorks データソース タブで、既に計算リソースまたはデータソースとしてワークスペースに追加されている MaxCompute プロジェクトを MaxCompute データカタログとして追加します。
データカタログウィンドウで、[MaxCompute] をクリックします。 MaxCompute セクションで、データカタログとして追加された MaxCompute プロジェクトの下の [テーブル]おめでとうございます! フォルダに MaxCompute テーブルを作成します。
説明MaxCompute プロジェクトでスキーマ機能が有効になっている場合は、MaxCompute プロジェクトの下の [テーブル] フォルダに MaxCompute テーブルを作成する前に、MaxCompute プロジェクトでスキーマを開く必要があります。
このチュートリアルでは、標準モードのワークスペースを使用しており、開発環境でのみデバッグを実行する必要があります。 したがって、開発環境の MaxCompute プロジェクトにのみ
bank_data
テーブルを作成する必要があります。 基本モードのワークスペースを使用する場合は、本番環境の MaxCompute プロジェクトにのみbank_data
テーブルを作成する必要があります。
[テーブル] の横にある
アイコンをクリックして、テーブル作成タブに移動します。
テーブル作成タブの [DDL] セクションに次の SQL コードを入力します。 次に、システムはテーブルのすべての情報を自動的に生成します。
CREATE TABLE IF NOT EXISTS bank_data ( age BIGINT COMMENT '年齢', job STRING COMMENT '職種', marital STRING COMMENT '婚姻状況', education STRING COMMENT '学歴', default STRING COMMENT 'クレジットカードの有無', housing STRING COMMENT '住宅ローン', loan STRING COMMENT 'ローン', contact STRING COMMENT '連絡先情報', month STRING COMMENT '月', day_of_week STRING COMMENT '曜日', duration STRING COMMENT '期間', campaign BIGINT COMMENT 'キャンペーン中の連絡回数', pdays DOUBLE COMMENT '最後の連絡からの経過時間', previous DOUBLE COMMENT '顧客との連絡回数', poutcome STRING COMMENT '前回のマーケティングキャンペーンの結果', emp_var_rate DOUBLE COMMENT '雇用変化率', cons_price_idx DOUBLE COMMENT '消費者物価指数', cons_conf_idx DOUBLE COMMENT '消費者信頼感指数', euribor3m DOUBLE COMMENT 'ユーロ預金金利', nr_employed DOUBLE COMMENT '従業員数', y BIGINT COMMENT '定期預金の有無' );
構成タブの上部にあるツールバーで、[デプロイ] をクリックして、開発環境の MaxCompute プロジェクトに
bank_data
テーブルを作成します。bank_data
テーブルが作成されたら、MaxCompute セクションでテーブル名をクリックして、テーブルの詳細情報を表示します。
ステップ 2:bank_data
テーブルにデータをアップロードする
banking.csv ファイルをオンプレミス マシンにダウンロードし、ファイル内のデータを MaxCompute プロジェクトに作成された bank_data
テーブルにアップロードします。 詳細については、制限 を参照してください。
ファイル内のデータをアップロードする前に、スケジューリング用のリソースグループとデータアップロード用の Data Integration 用のリソースグループを指定していることを確認してください。 詳細については、制限 を参照してください。
DataWorks コンソールの左上隅にある
アイコンをクリックし、 を選択します。
[アップロードとダウンロード] ページの [最近のアップロードレコード] セクションで、[データのアップロード] をクリックします。 [データのアップロード] ページで、次の表を参照してパラメータを構成します。
セクション
説明
[データソース]
[ローカルファイル] を選択します。
[アップロードするデータを指定]
[ファイルの選択]
オンプレミス マシンにダウンロードされた
banking.csv
ファイルをアップロードします。[デスティネーションテーブルの構成]
[計算エンジン]
[MaxCompute] を選択します。
[MaxCompute プロジェクト名]
bank_data
テーブルが属する MaxCompute プロジェクトを選択します。[デスティネーションテーブルの選択]
bank_data
を選択します。[アップロードされたファイルのデータのプレビュー]
[順序によるマッピング] をクリックして、ファイル内のデータと
bank_data
テーブルのフィールド間のマッピングを完了します。説明名前の末尾が
.csv
、.xls
、.xlsx
、.json
のファイルをオンプレミス マシンからアップロードできます。名前の末尾が .xls または .xlsx のファイルをアップロードすると、デフォルトでファイルの最初のシートがアップロードされます。
名前の末尾が
.csv
のファイルをアップロードする場合、ファイルのサイズは 5 GB を超えることはできません。 その他の種類のファイルの場合、ファイルサイズは 100 MB を超えることはできません。
[データのアップロード] をクリックして、CSV ファイルのデータを
bank_data
テーブルにアップロードします。データが bank_data テーブルに書き込まれているかどうかを確認します。
データがアップロードされた後、SQL クエリ 機能を使用して、データが
bank_data
テーブルに書き込まれているかどうかを確認できます。DataWorks コンソールの左上隅にある
アイコンをクリックし、 を選択します。
[SQL クエリ] ウィンドウで、
[マイファイル] の横にあるアイコンをクリックし、[ファイルの作成] を選択します。 [ファイルの作成] ダイアログボックスで、ビジネス要件に基づいて [ファイル名] パラメータを構成し、[OK] をクリックします。
ファイルの構成タブで、次の SQL ステートメントを入力します。
SELECT * FROM bank_data limit 10;
SQL クエリ ファイルの構成タブの右上隅で、
bank_data
テーブルが属するワークスペースと目的の MaxCompute データソースを選択し、[OK] をクリックします。説明このチュートリアルでは、標準モードのワークスペースを使用しており、
bank_data
テーブルは開発環境でのみ作成されます。 したがって、開発環境の MaxCompute データソースを選択する必要があります。 基本モードのワークスペースを使用する場合は、本番環境の MaxCompute データソースを選択できます。構成タブの上部にあるツールバーで、[実行] アイコンをクリックします。 [コストの見積もり] ダイアログボックスで、[実行] をクリックします。 SQL ステートメントが実行された後、構成タブの下部に表示される bank_data テーブルの最初の 10 個のデータレコードを表示できます。 これは、ファイル内のデータがオンプレミス マシンから bank_data テーブルに正常にアップロードされたことを示しています。
ステップ 3:データを処理する
このステップでは、MaxCompute SQL ノードを使用して、bank_data
テーブルにアップロードされたデータをフィルタリングして、住宅ローンを組んでいる独身者の学歴の分布に関するデータを取得し、処理済みデータを result_table
テーブルに書き込む必要があります。
データ処理リンクを構築する
DataWorks コンソールの左上隅にある
アイコンをクリックし、 を選択します。
Data Studio ページの上部にあるナビゲーションバーで、このチュートリアル用に作成されたワークスペースに切り替えます。 Data Studio ページの左側のナビゲーションウィンドウで、
アイコンをクリックします。
データ Studio ウィンドウの [ワークスペースディレクトリ] セクションで、
アイコンをクリックし、[ワークフローの作成] を選択します。 [ワークフローの作成] ダイアログボックスで、[名前] フィールドに名前を入力し、[OK] をクリックしてワークフローを保存します。 このチュートリアルでは、[名前] パラメータは
dw_basic_case
に設定されています。ワークフローの構成タブで、左側のセクションから [ゼロロードノード] と [MaxCompute SQL] を右側のキャンバスにドラッグし、ノードの名前を指定します。
次の表に、このチュートリアルで使用されているノード名とノードの機能を示します。
ノードタイプ
[ノード名]
[ノード機能]
ゼロロードノード
workshop_start
このノードは、このチュートリアルに関連するすべてのノードを管理するために使用される ゼロロードノード です。 このノードは、データ転送パスを明確にするのに役立ちます。 このノードのコードを記述する必要はありません。
MaxCompute SQL
ddl_result_table
このノードは、result_table という名前のテーブルを作成するために使用されます。 このテーブルは、bank_data テーブルのクレンジング済みデータを格納するために使用されます。
MaxCompute SQL
insert_result_table
このノードは、bank_data テーブルのデータをフィルタリングし、フィルタリングされたデータを result_table テーブルに書き込むために使用されます。
次の図に示すように、線を描画してノード間の依存関係を構成します。
説明線を描画して、ワークフロー内のノードの スケジューリングの依存関係 を構成できます。 また、自動解析機能を使用して、システムがノード間のスケジューリングの依存関係を自動的に識別できるようにすることもできます。 このチュートリアルでは、線を描画することでノード間のスケジューリングの依存関係を構成します。 自動解析機能の詳細については、自動解析機能を使用する を参照してください。
構成タブの上部にあるツールバーで、[保存] をクリックします。
データ処理ノードを構成する
ステップ 4:ワークフローをデバッグして実行する
dw_basic_case
ワークフローが構成されたら、Data Studio ページでワークフローをデバッグおよび実行して、ワークフローの構成が正しいかどうかを確認できます。 ワークフローをデバッグおよび実行するには、ワークフローの構成タブに再度移動する必要があります。
ワークフローの内部ノードの開発が完了したら、ワークフローの構成タブに切り替え、構成タブの上部にあるツールバーの [保存] アイコンをクリックしてワークフローを保存します。
ワークフローが保存されたら、構成タブの上部にあるツールバーの [実行] アイコンをクリックして、ワークフローをデバッグおよび実行します。
ワークフローの実行が完了したら、結果を表示します。 次の図は、期待される結果を示しています。
ステップ 5:データをクエリして表示する
データが MaxCompute 計算リソースにアップロードされ、Data Studio で処理された後、データをクエリしてデータ分析結果を表示できます。
DataWorks コンソールの左上隅にある
アイコンをクリックし、 を選択します。
[SQL クエリ] ウィンドウで、
[マイファイル] の横にあるアイコンをクリックし、[ファイルの作成] を選択します。 [ファイルの作成] ダイアログボックスで、ビジネス要件に基づいて [ファイル名] パラメータを構成し、[OK] をクリックします。
ファイルの構成タブで、次の SQL ステートメントを入力します。
SELECT * FROM result_table;
SQL クエリ ファイルの構成タブの右上隅で、
result_table
テーブルが属するワークスペースと目的の MaxCompute データソースを選択し、[OK] をクリックします。説明このチュートリアルでは、標準モードのワークスペースを使用しており、
result_table
テーブルは開発環境でのみ作成され、本番環境にはデプロイされません。 したがって、開発環境の MaxCompute データソースを選択する必要があります。 基本モードのワークスペースを使用する場合は、本番環境の MaxCompute データソースを選択できます。構成タブの上部にあるツールバーで、[実行] アイコンをクリックします。 [コストの見積もり] ダイアログボックスで、[実行] をクリックします。
追加情報
このチュートリアルに関連するモジュールの操作の詳細とパラメータの説明については、Data Studio (新バージョン) および データ分析 ディレクトリのトピックを参照してください。
このチュートリアルに関連するモジュールに加えて、DataWorks は、データモデリング、Data Quality、データセキュリティガード、DataService Studio、Data Integration、ノードスケジューリング構成などの他のモジュールと機能もサポートしており、エンドツーエンドのデータ監視と運用保守サービスを提供します。 詳細については、データモデリング、Data Quality、データセキュリティガード、DataService Studio、Data Integration、ノードスケジューリング構成 を参照してください。
他の DataWorks チュートリアルも体験できます。 詳細については、さまざまなビジネスシナリオのチュートリアル を参照してください。