このトピックでは、住宅購入グループ分析を通して、DataWorks のデータ開発プロセスとデータ分析プロセスを簡単に理解できるようにガイドします。
はじめに
このチュートリアルでは、住宅購入データに基づいて、異なるグループの住宅購入状況を分析します。 このチュートリアルでは、DataWorks を使用して、オンプレミスデータを bank_data という名前の MaxCompute テーブルにアップロードし、MaxCompute SQL ノードを使用してユーザーグループを分析して、result_table という名前のテーブルを取得します。 最後に、result_table に基づいて簡単な可視化と分析を実行し、ユーザーグループのプロファイルデータを取得します。
このチュートリアルでは、シミュレートされたデータに基づいて DataWorks の機能を示しています。 実際のビジネスシナリオでは、ビジネスデータに基づいて調整する必要があります。
次の図は、このチュートリアルでのデータ転送パスとデータ開発プロセスを示しています。
データ分析が完了すると、住宅購入データから次のグループ分析プロファイルを取得できます。住宅ローンを組んでいる独身者の教育レベルは、主に university.degree と high.school です。

準備
DataWorks の有効化
ワークスペースの作成
リソースグループを作成してワークスペースにアタッチする
MaxCompute 計算リソースを作成してアタッチする
手順
このチュートリアルでは、DataWorks を使用して、このチュートリアル用に提供されたテストデータを MaxCompute プロジェクトにアップロードし、Data Studio でワークフローを作成してテストデータをクレンジングおよび書き込む必要があります。 また、ワークフローをデバッグして実行し、SQL ステートメントを実行して実行結果をクエリおよび検証する必要があります。
ステップ 1:MaxCompute テーブルを作成する
テストデータをアップロードする前に、DataWorks のデータカタログ機能を使用して、アップロードするテストデータを格納する bank_data という名前のテーブルを MaxCompute プロジェクトに作成する必要があります。
DataWorks コンソール にログインします。 上部のナビゲーションバーで、目的のリージョンを選択します。 DataWorks コンソールの左側のナビゲーションウィンドウで、 を選択します。 表示されるページで、[ワークスペースの選択] ドロップダウンリストから目的のワークスペースを選択し、[Data Studio に移動] をクリックします。
Data Studio ページの左側のナビゲーションウィンドウで、
アイコンをクリックして [データカタログ] ウィンドウに移動します。(オプション) MaxCompute プロジェクトがデータカタログとして DataWorks に追加されていない場合は、MaxCompute の横にある
アイコンをクリックして [DataWorks データソース] タブに移動します。 [DataWorks データソース] タブで、すでに計算リソースまたはデータソースとしてワークスペースに追加されている MaxCompute プロジェクトを MaxCompute データカタログとして追加します。[データカタログ] ウィンドウで、[MaxCompute] をクリックします。 MaxCompute セクションで、データカタログとして追加された MaxCompute プロジェクトの下の [テーブル] フォルダに MaxCompute テーブルを作成します。
説明MaxCompute プロジェクトでスキーマ機能が有効になっている場合は、MaxCompute プロジェクトでスキーマを開いてから、MaxCompute プロジェクトの下の [テーブル] フォルダに MaxCompute テーブルを作成する必要があります。
このチュートリアルでは、標準モードのワークスペースが使用され、デバッグは開発環境でのみ実行する必要があります。 したがって、
bank_dataテーブルは、開発環境の MaxCompute プロジェクトにのみ作成する必要があります。 基本モードのワークスペースを使用する場合は、bank_dataテーブルを本番環境の MaxCompute プロジェクトにのみ作成する必要があります。
[テーブル] の横にある
アイコンをクリックして、テーブル作成タブに移動します。テーブル作成タブの [DDL] セクションに次の SQL コードを入力します。 その後、システムによってテーブルのすべての情報が自動的に生成されます。
CREATE TABLE IF NOT EXISTS bank_data ( age BIGINT COMMENT '年齢', job STRING COMMENT '職種', marital STRING COMMENT '結婚状況', education STRING COMMENT '学歴', default STRING COMMENT 'クレジットカードの所持有無', housing STRING COMMENT '住宅ローン', loan STRING COMMENT 'ローン', contact STRING COMMENT '連絡先情報', month STRING COMMENT '月', day_of_week STRING COMMENT '曜日', duration STRING COMMENT '期間', campaign BIGINT COMMENT 'キャンペーン中の連絡回数', pdays DOUBLE COMMENT '最後の連絡からの経過時間', previous DOUBLE COMMENT '顧客との連絡回数', poutcome STRING COMMENT '前回のマーケティングキャンペーンの結果', emp_var_rate DOUBLE COMMENT '雇用変化率', cons_price_idx DOUBLE COMMENT '消費者物価指数', cons_conf_idx DOUBLE COMMENT '消費者信頼感指数', euribor3m DOUBLE COMMENT 'ユーロ預金金利', nr_employed DOUBLE COMMENT '従業員数', y BIGINT COMMENT '定期預金の所持有無' );構成タブの上部にあるツールバーで、[デプロイ] をクリックして、開発環境の MaxCompute プロジェクトに
bank_dataテーブルを作成します。bank_dataテーブルが作成されたら、MaxCompute セクションでテーブル名をクリックして、テーブルの詳細情報を表示します。
ステップ 2:bank_data テーブルにデータをアップロードする
banking.csv ファイルをオンプレミスマシンにダウンロードし、ファイル内のデータを MaxCompute プロジェクトに作成された bank_data テーブルにアップロードします。 詳細については、制限 を参照してください。
ファイル内のデータをアップロードする前に、スケジューリング用のリソースグループとデータアップロード用の Data Integration のリソースグループを指定していることを確認してください。 詳細については、制限 を参照してください。
DataWorks コンソールの左上隅にある
アイコンをクリックし、 を選択します。[アップロードとダウンロード] ページの [最近のアップロードレコード] セクションで、[データのアップロード] をクリックします。 [データのアップロード] ページで、次の表を参照してパラメータを構成します。
セクション
説明
データソース
[ローカルファイル] を選択します。
アップロードするデータの指定
ファイルの選択
オンプレミスマシンにダウンロードした
banking.csvファイルをアップロードします。デスティネーションテーブルの構成
計算エンジン
[MaxCompute] を選択します。
MaxCompute プロジェクト名
bank_dataテーブルが属する MaxCompute プロジェクトを選択します。デスティネーションテーブルの選択
bank_dataを選択します。アップロードされたファイルのデータのプレビュー
[順序によるマッピング] をクリックして、ファイル内のデータと
bank_dataテーブルのフィールド間のマッピングを完了します。説明名前の末尾が
.csv、.xls、.xlsx、.jsonのファイルをオンプレミスマシンからアップロードできます。名前の末尾が .xls または .xlsx のファイルをアップロードする場合、デフォルトではファイルの最初のシートがアップロードされます。
名前の末尾が
.csvのファイルをアップロードする場合、ファイルサイズは 5 GB を超えることはできません。 その他の種類のファイルの場合、ファイルサイズは 100 MB を超えることはできません。
[データのアップロード] をクリックして、CSV ファイルのデータを
bank_dataテーブルにアップロードします。データが bank_data テーブルに書き込まれているかどうかを確認します。
データがアップロードされた後、SQL クエリと分析 機能を使用して、データが
bank_dataテーブルに書き込まれているかどうかを確認できます。左上隅にある
アイコンをクリックします。 ポップアップページで、 をクリックします。[マイファイル] の後、 をクリックします。 カスタムの [ファイル名] を入力し、[OK] をクリックします。
[SQL クエリ] ページで、次の SQL を構成します。
SELECT * FROM bank_data limit 10;SQL クエリファイルの構成タブの右上隅で、
bank_dataテーブルが属するワークスペースと目的の MaxCompute データソースを選択し、[OK] をクリックします。説明このチュートリアルでは、標準モードのワークスペースが使用され、
bank_dataテーブルは開発環境にのみ作成されます。 したがって、開発環境の MaxCompute データソースを選択する必要があります。 基本モードのワークスペースを使用する場合は、本番環境の MaxCompute データソースを選択できます。構成タブの上部にあるツールバーで、[実行] アイコンをクリックします。 [コストの見積もり] ダイアログボックスで、[実行] をクリックします。 SQL ステートメントが実行された後、構成タブの下部に表示される bank_data テーブルの最初の 10 個のデータレコードを表示できます。 これは、ファイル内のデータがオンプレミスマシンから bank_data テーブルに正常にアップロードされたことを示しています。

ステップ 3:データを処理する
このステップでは、MaxCompute SQL ノードを使用して、bank_data テーブルにアップロードされたデータをフィルタリングして、住宅ローンを組んでいる独身者の学歴の分布に関するデータを取得し、処理済みデータを result_table テーブルに書き込む必要があります。
データ処理リンクを構築する
DataWorks コンソールの左上隅にある
アイコンをクリックし、 を選択します。Data Studio ページの上部にあるナビゲーションバーで、このチュートリアル用に作成されたワークスペースに切り替えます。 Data Studio ページの左側のナビゲーションウィンドウで、
アイコンをクリックします。[ワークスペースディレクトリ] セクションの [DATA STUDIO] ウィンドウで、
アイコンをクリックし、[ワークフローの作成] を選択します。 [ワークフローの作成] ダイアログボックスで、[名前] フィールドに名前を入力し、[OK] をクリックしてワークフローを保存します。 このチュートリアルでは、[名前] パラメータは dw_basic_caseに設定されています。ワークフローの構成タブで、左側のセクションから [ゼロロードノード] と [MaxCompute SQL] を右側のキャンバスにドラッグし、ノードの名前を指定します。
次の表に、このチュートリアルで使用されるノード名とノードの機能を示します。
ノードタイプ
ノード名
ノード機能
ゼロロードノードworkshop_startこのノードは、このチュートリアルに関連するすべてのノードを管理するために使用される ゼロロードノード です。 このノードは、データ転送パスを明確にするのに役立ちます。 このノードのコードを記述する必要はありません。
MaxCompute SQLddl_result_tableこのノードは、result_table という名前のテーブルを作成するために使用されます。 このテーブルは、bank_data テーブルのクレンジング済みデータを格納するために使用されます。
MaxCompute SQLinsert_result_tableこのノードは、bank_data テーブルのデータをフィルタリングし、フィルタリングされたデータを result_table テーブルに書き込むために使用されます。
次の図に示すように、線を描画してノード間の依存関係を構成します。
説明線を描画して、ワークフロー内のノードの スケジューリングの依存関係 を構成できます。 また、自動解析機能を使用して、システムがノード間のスケジューリングの依存関係を自動的に識別できるようにすることもできます。 このチュートリアルでは、線を描画することによってノード間のスケジューリングの依存関係が構成されます。 自動解析機能の詳細については、自動解析機能を使用する を参照してください。
構成タブの上部にあるツールバーで、[保存] をクリックします。
データ処理ノードを構成する
ステップ 4:ワークフローをデバッグして実行する
ワークフローを構成した後、dw_basic_case ワークフロー構成ページに移動します。
ボタンをクリックして、ワークフロー全体をデバッグして実行します。 ワークフローが実行に失敗した場合、デバッグログに基づいて問題のトラブルシューティングを行うことができます。

ステップ 5:データをクエリして表示する
データが MaxCompute 計算リソースにアップロードされ、Data Studio で処理された後、SQL クエリと分析 で result_table をクエリしてデータ分析を実行できるようになりました。
左上隅にある
アイコンをクリックします。 ポップアップページで、 をクリックします。[マイファイル] の後、 をクリックします。 カスタムの [ファイル名] を入力し、[OK] をクリックします。
[SQL クエリ] ページで、次の SQL を構成します。
SELECT * FROM result_table;SQL クエリファイルの構成タブの右上隅で、
result_tableテーブルが属するワークスペースと目的の MaxCompute データソースを選択し、[OK] をクリックします。説明このチュートリアルでは、標準モードのワークスペースが使用され、
result_tableテーブルは開発環境にのみ作成され、本番環境にはデプロイされません。 したがって、開発環境の MaxCompute データソースを選択する必要があります。 基本モードのワークスペースを使用する場合は、本番環境の MaxCompute データソースを選択できます。構成タブの上部にあるツールバーで、[実行] アイコンをクリックします。 [コストの見積もり] ダイアログボックスで、[実行] をクリックします。
クエリ結果で、
をクリックして結果をチャートとして表示します。 チャートの右上隅にある
をクリックして、チャートスタイルをカスタマイズできます。また、チャートの右上隅にある [保存] をクリックして、カードとして保存することもできます。その後、左側のナビゲーションウィンドウで [カード] (
) をクリックすると、保存したカードを表示できます。
追加情報
このチュートリアルに関連するモジュールの操作の詳細とパラメータの説明については、データ開発 (Data Studio) (新バージョン) および データ分析 ディレクトリのトピックを参照してください。
このチュートリアルに関連するモジュールに加えて、DataWorks は、データモデリング、Data Quality、データセキュリティガード、DataService Studio、Data Integration、ノードスケジューリング構成などの他のモジュールと機能もサポートしており、エンドツーエンドのデータ監視と O&M サービスを提供します。 詳細については、データモデリング、Data Quality、データセキュリティガード、DataService Studio、Data Integration、ノードスケジューリング構成 を参照してください。
他の DataWorks チュートリアルも体験できます。 詳細については、さまざまなビジネスシナリオのチュートリアル を参照してください。

