全部產品
Search
文件中心

DataWorks:基礎:購房群體簡單分析

更新時間:Nov 14, 2025

本案例指導您完成購房群體分析,協助您掌握DataWorks的資料開發與資料分析流程。

案例介紹

本案例基於使用者買房資料,分析不同群體的購房情況。通過DataWorks進行資料開發和資料分析。將本機資料通過DataWorks上傳至MaxCompute的bank_data表,通過MaxCompute SQL任務節點分析使用者群體,得到result_table表。基於result_table表做簡單可視化展示分析,得到群體畫像。

說明

本案例基於類比資料示範功能,實際應用中需要結合業務資料進行調整。

本案例的資料流轉和資料開發的商務程序圖如下所示。

完成資料分析之後,您將從購房資料中得到如下群體分析畫像:貸款買房單身人士的受教育水平以university.degreehigh.school為主。

image

準備工作

開通DataWorks

本教程以華東2(上海)地區為例,介紹DataWorks快速入門,您需要登入DataWorks管理主控台,切換至華東2(上海)地區,查看該地區是否開通DataWorks。

說明

本教程以華東2(上海)為例,在實際使用中,請根據實際業務資料所在位置確定開通地區:

  • 如果您的業務資料位元於阿里雲的其他雲端服務,請選擇與其相同的地區。

  • 如果您的業務在本地,需要通過公網訪問,請選擇與您實際地理位置較近的地區,以降低訪問延遲。

全新使用者

如果您為新使用者,首次使用DataWorks,將顯示如下內容,表示當前地區尚未開通DataWorks,需要單擊0元組合購買

image

  1. 配置組合購買頁相關參數。

    參數

    說明

    樣本

    地區

    選擇需要開通DataWorks的地區。

    華東2(上海)

    DataWorks版本

    選擇需要購買的DataWorks版本。

    說明

    本教程以基礎版為例,所有版本均可體驗本教程所涉及的功能,您可以參考DataWorks各版本功能詳情,根據實際業務需要,選擇合適的DataWorks版本。

    基礎版

  2. 單擊確認訂單並支付,完成後續支付。

開通過但已到期

如果您在華東2(上海)地區曾經開通過DataWorks,但DataWorks版本已到期,則會出現如下提示,需要單擊購買版本

image

  1. 配置購買頁相關參數。

    參數

    說明

    樣本

    版本

    選擇需要購買的DataWorks版本。

    說明

    本教程以基礎版為例,所有版本均可體驗本教程所涉及的功能,您可以參考DataWorks各版本功能詳情,根據實際業務需要,選擇合適的DataWorks版本。

    基礎版

    地區

    選擇需要開通DataWorks的地區。

    華東2(上海)

  2. 單擊立即購買,完成後續支付。

重要

您在購買DataWorks版本後,如未找到相關DataWorks版本,可進行以下操作:

  • 等待幾分鐘重新整理頁面,系統更新可能會有延遲。

  • 查看所在地區是否與購買DataWorks版本地區一致,防止因地區選擇問題,未找到相關DataWorks版本。

已開通

如果您在華東2(上海)地區已開通DataWorks,將會進入DataWorks概覽頁,可直接進行下一步。

建立工作空間

  1. 前往DataWorks工作空間列表頁,切換至華東2(上海)地區,單擊建立工作空間

  2. 建立工作空間頁面,自訂工作空間名稱,開啟使用新版資料開發(Data Studio),然後單擊建立工作空間

    說明

    2025年02月18日後,主帳號在華東2(上海)地區首次開通DataWorks並建立工作空間時,預設啟用新版資料開發,介面將不展示使用新版資料開發(Data Studio)參數。

建立資源群組並綁定工作空間

  1. 前往DataWorks資源群組列表頁,切換至華東2(上海)地區,單擊建立資源群組

  2. 在資源群組購買頁面,配置如下參數。

    參數

    說明

    資源群組名稱

    自訂。

    Virtual Private Cloud交換器(V-Switch)

    選擇已有的VPC和交換器,如當前地區沒有,請單擊參數說明中對應的控制台連結前往建立。

    服務關聯角色

    根據頁面提示,建立AliyunServiceRoleForDataWorks服務關聯角色

  3. 單擊立即購買,完成後續支付。

  4. 前往DataWorks資源群組列表頁,切換至華東2(上海)地區,找到已建立的資源群組,單擊操作列的綁定工作空間

  5. 綁定工作空間頁面,找到已建立的DataWorks工作空間,單擊其操作列的綁定

建立並綁定MaxCompute計算資源

本教程需要建立MaxCompute專案並將其綁定為DataWorks計算資源,用於後續接收資料並進行巨量資料分析。

  1. 前往DataWorks工作空間列表頁,切換至華東2(上海)地區,找到已建立的工作空間,單擊工作空間名稱,進入空間詳情頁。

  2. 在左側導覽列單擊計算資源,進入計算資源頁面,單擊綁定計算資源,選擇MaxCompute類型。配置如下關鍵參數,建立MaxCompute專案並將其綁定為DataWorks的計算資源。

    說明

    表中未說明的參數保持預設值即可。

    參數

    描述

    MaxCompute專案

    在下拉選擇框中單擊建立,填寫如下參數。

    • 專案名稱:自訂,全網唯一。

    • 計算資源付費類型:選擇隨用隨付

      說明

      如果隨用隨付不可選,請單擊隨用隨付後的去開通,完成MaxCompute服務的開通。

    • 預設Quota:下拉選擇預設已存在的Quota。

    預設訪問身份

    選擇阿里雲主帳號

    計算資源執行個體名

    在後續任務運行時,通過計算資源執行個體名稱來選擇任務啟動並執行計算資源,方便識別,例如本教程命名為MaxCompute_Source

  3. 單擊確認

操作步驟

在本案例中,您將通過DataWorks將本教程提供的測試資料上傳至MaxCompute專案,並在DataWorks的資料開發中產生工作流程,對測試資料進行基本的清洗和寫入操作。同時,您還將對工作流程進行調試運行,並通過SQL查詢驗證運行結果等操作。

一、建立表

上傳測試資料前,通過DataWorks的資料目錄在MaxCompute專案中建立用來儲存上傳資料的bank_data表。

  1. 登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資料開發與營運 > 資料開發,在下拉框中選擇對應工作空間後單擊進入Data Studio

  2. 在資料開發頁面單擊左側導覽列的image按鈕,進入資料目錄頁面。

  3. (可選)若您的MaxCompute專案未添加至資料目錄,則需單擊MaxCompute目錄後的image按鈕,進入DataWorks 資料來源頁簽,將已添加為計算資源或資料來源的MaxCompute專案,添加至MaxCompute目錄下。

  4. 單擊開啟MaxCompute目錄,選擇需要建立MaxCompute計算資源的專案,在檔案夾下建立MaxCompute表。

    說明
    • 若您的MaxCompute開啟了schema,則需在選擇建立MaxCompute計算資源的專案後,開啟目標schema後,才可在檔案夾下建立MaxCompute表。

    • 本樣本以標準模式工作空間為例,且僅在開發環境調試,所以僅需在開發環境對應的MaxCompute專案下建立bank_data表,若您使用的是簡單模式工作空間,則只需在生產環境對應的MaxCompute專案下建立bank_data表即可。

  5. 單擊表目錄右側的image按鈕,添加並進入建立表的編輯頁面。

    在表編輯頁面右側DDL模組鍵入以下SQL代碼,系統將自動產生所有表資訊。

    CREATE TABLE IF NOT EXISTS bank_data (
        age             BIGINT   COMMENT '年齡',
        job             STRING   COMMENT '工作類型',
        marital         STRING   COMMENT '婚否',
        education       STRING   COMMENT '教育程度',
        `default`       STRING   COMMENT '是否有信用卡',
        housing         STRING   COMMENT '房貸',
        loan            STRING   COMMENT '貸款',
        contact         STRING   COMMENT '聯絡途徑',
        month           STRING   COMMENT '月份',
        day_of_week     STRING   COMMENT '星期幾',
        duration        STRING   COMMENT '期間',
        campaign        BIGINT   COMMENT '本次活動聯絡的次數',
        pdays           DOUBLE   COMMENT '與上一次聯絡的時間間隔',
        previous        DOUBLE   COMMENT '之前與客戶聯絡的次數',
        poutcome        STRING   COMMENT '之前行銷活動的結果',
        emp_var_rate    DOUBLE   COMMENT '就業變化速率',
        cons_price_idx  DOUBLE   COMMENT '消費者物價指數',
        cons_conf_idx   DOUBLE   COMMENT '消費者信心指數',
        euribor3m       DOUBLE   COMMENT '歐元存款利率',
        nr_employed     DOUBLE   COMMENT '職工人數',
        y               BIGINT   COMMENT '是否有定期存款'
    );
  6. 在編輯頁面,單擊發布按鈕,在開發環境對應MaxCompute專案中建立bank_data表。

  7. 完成bank_data表建立後,即可在資料目錄下單擊表名,查看錶的詳細資料。

二、上傳資料

下載banking.csv檔案至本地,通過DataWorks的使用限制功能將檔案上傳至MaxCompute專案建立的bank_data中。

重要

進行檔案上傳前,須保證已為資料上傳功能指定調度資源群組Data Integration資源群組,詳情可參見資料上傳使用限制

  1. 單擊左上方image表徵圖,在彈出頁面中單擊全部產品 > Data Integration > 上傳與下載,進入上傳與下載頁面。

  2. 單擊最近上傳模組的資料上傳按鈕,進入資料上傳配置頁面,可參考以下配置。

    參數

    描述

    資料來源

    本地檔案。

    指定待上傳資料

    選擇檔案

    上傳已下載至本地的banking.csv檔案。

    設定目標表

    目標引擎

    MaxCompute

    MaxCompute專案名稱

    選擇bank_data表所在的MaxCompute專案。

    選擇目標表

    選擇bank_data表作為目標表。

    上傳檔案資料預覽

    單擊按順序映射,完成檔案資料與bank_data表欄位對應。

    說明
    • 本地檔案支援上傳.csv.xls.xlsx.json類型的檔案。

    • 表格檔案預設上傳檔案的第一個Sheet。

    • .csv檔案最大支援5GB,其他檔案最大支援100MB

  3. 單擊資料上傳,將下載的CSV檔案內的資料上傳至MaxCompute計算資源內的bank_data表中。

  4. 確認資料上傳成功。

    在資料上傳成功後,您可通過SQL查詢(舊版)來確認bank_data表中是否已寫入資料。

    1. 單擊左上方image表徵圖,在彈出頁面中單擊全部產品 > 資料分析 > SQL查詢

    2. 在我的檔案後單擊image > 建立檔案,自訂檔案名稱後單擊確定

    3. 在SQL查詢頁面,配置如下SQL。

      SELECT * FROM bank_data limit 10;
    4. 在右上方選擇bank_data表所在的工作空間和MaxCompute資料來源後單擊確定

      說明

      本樣本以標準模式工作空間為例,且bank_data表僅在開發環境建立,選擇資料來源時,必須選擇開發環境的MaxCompute資料來源。若您使用的是簡單模式工作空間,選擇生產環境的MaxCompute資料來源即可。

    5. 單擊頂部的運行按鈕,在成本預估頁面,單擊運行,運行成功之後,在頁面下方您將獲得bank_data的前10條記錄。此時,表示您成功上傳本機資料至bank_data表。

      image

三、加工資料

使用MaxCompute SQL節點將上傳至bank_data表的資料進行過濾,獲得單身人士貸款買房的受教育水平分布數量資料,並將資料寫入新的result_table表中。

搭建資料加工鏈路

  1. 單擊左上方的表徵圖表徵圖,選擇全部產品 > 資料開發與營運 > DataStudio(資料開發),進入資料開發頁面。

  2. 在頁面頂部切換至本教程建立好的工作空間,在左側導覽列單擊image,進入資料開發

  3. 專案目錄地區,單擊image,選擇建立工作流程,設定工作流程名稱,本教程設定為dw_basic_case,單擊確認儲存工作流程,進入工作流程編排頁面。

  4. 進入工作流程編排頁面後,從左側拖拽虛擬節點MaxCompute SQL節點至畫布中,分別設定節點名稱。

    本教程節點名稱樣本及作用如下:

    節點類型

    節點名稱

    節點作用

    image 虛擬節點

    workshop_start

    用於統籌管理整個購房群體分析簡單教程,可使資料流轉路徑更清晰。該節點為空跑任務,無須編輯代碼。

    image MaxCompute SQL

    ddl_result_table

    用於建立result_table,用來寫入清洗後的bank_data表資料。

    image MaxCompute SQL

    insert_result_table

    用於將bank_data資料進行過濾後寫入result_table表。

  5. 手動拖拽連線,配置各節點的上遊節點。最終效果如下:

    image

    說明

    工作流程中支援通過手動連線方式設定各節點的上下遊依賴關係,也支援在子節點中,使用代碼解析自動識別節點上下遊依賴關係。本教程採用手動連線方式,代碼解析的更多資訊,請參見自動解析依賴

  6. 在節點工具列單擊儲存

配置資料加工節點

配置ddl_result_table節點

本節點建立result_table表,用於儲存insert_result_table查詢的單身人士貸款買房的受教育水平分布數量資料。

  1. 在工作流程編輯頁面中,滑鼠移至上方至ddl_result_table節點上,單擊開啟節點,為insert_result_table節點提供寫入單身人士貸款買房的受教育水平分布數量的目標表。

  2. 將如下代碼粘貼至節點編輯頁面。

    CREATE TABLE IF NOT EXISTS result_table(
      education STRING COMMENT'教育程度',
      num       BIGINT COMMENT'人數'
    );
  3. 配置調試參數。

    在MaxCompute SQL節點編輯頁面右側單擊調試配置

    • 配置計算資源參數,選擇準備工作時綁定的MaxCompute計算資源以及其對應的計算配額。

    • 配置資源群組參數,選擇準備工作時購買的Serverless資源群組。

  4. 在節點工具列單擊儲存

配置insert_result_table節點

本節點將基於bank_data表進行加工過濾,獲得單身人士貸款買房的受教育水平分布數量資料,並將資料寫入result_table表中,以便後續資料分析與圖表展示。

  1. 在工作流程編輯頁面中,滑鼠移至上方至insert_result_table節點上,單擊開啟節點

  2. 將如下代碼粘貼至節點編輯頁面。

    INSERT OVERWRITE TABLE result_table --插入資料至result_table中。
    SELECT
      education,
      COUNT(marital) AS num
    FROM bank_data
    WHERE 
      housing = 'yes'
      AND marital = 'single'
    GROUP BY
    education;
  3. 配置調試參數。

    在MaxCompute SQL節點編輯頁面右側單擊調試配置

    • 配置計算資源參數,選擇準備工作時綁定的MaxCompute計算資源以及其對應的計算配額。

    • 配置資源群組參數,選擇準備工作時購買的Serverless資源群組。

  4. 在節點工具列單擊儲存

四、調試運行

工作流程配置完成後,需要您在dw_basic_case工作流程編排頁面,單擊image按鈕,調試運行整個工作流程,驗證工作流程是否可以正常運行。若運行失敗,則可根據調試作業記錄進行排查。

image

五、資料查詢與展示

您已經將上傳至MaxCompute計算資源的資料,經過資料開發處理,在SQL查詢(舊版)中可查詢result_table資料,並且進行分析。

  1. 單擊左上方image表徵圖,在彈出頁面中單擊全部產品 > 資料分析 > SQL查詢

  2. 在我的檔案後單擊image > 建立檔案,自訂檔案名稱後單擊確定

  3. 在SQL查詢頁面,配置如下SQL。

    SELECT * FROM result_table;
  4. 在右上方選擇result_table表所在的工作空間MaxCompute資料來源後單擊確定

    說明

    本樣本以標準模式工作空間為例,且result_table表僅在開發環境建立,未發布至生產環境,所以選擇資料來源時,必須選擇開發環境的MaxCompute資料來源。若您使用的是簡單模式工作空間,選擇生產環境的MaxCompute資料來源即可。

  5. 單擊頂部的運行按鈕,在成本預估頁面,單擊運行

  6. 在查詢結果中單擊image,查看可視化圖表結果,您可以單擊圖表右上方的image自訂圖表樣式。

  7. 您也可以單擊圖表右上方儲存,將圖表儲存為卡片,然後在左側導覽列單擊卡片image)查看。

    image

下一步

附錄:資源釋放與清理

如果您需要釋放本次教程所建立的資源,具體操作步驟如下:

  1. 停止周期任務。

    1. 登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資料開發與營運 > 營運中心,在下拉框中選擇對應工作空間後單擊進入營運中心

    2. 周期任務營運 > 周期任務中,勾選所有之前建立的周期任務(工作空間root節點無需下線),然後在底部單擊操作 > 下線節點

  2. 刪除資料開發節點並解除綁定MaxCompute計算資源。

    1. 進入DataWorks工作空間列表頁,在頂部切換至目標地區,找到目標工作空間,單擊操作列的快速進入 > Data Studio,進入Data Studio。

    2. 在Data Studio左側導覽列單擊image,進入資料開發頁面,然後在專案目錄地區找到已建立好的工作流程,右鍵工作流程,單擊刪除

    3. 在左側導覽列,單擊image > 計算資源管理,找到已綁定的MaxCompute計算資源,單擊解除綁定。在確認視窗中勾選選項後按照指引完成解除綁定。

  3. 刪除MaxCompute專案。

    前往MaxCompute專案管理頁面,找到已建立的MaxCompute專案,單擊操作列的刪除,按照指引完成刪除。

  4. 刪除DataWorks工作空間。

    1. 登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的工作空間,在工作空間列表找到需刪除的DataWorks空間,單擊操作列的image按鈕,選擇刪除工作空間。

    2. 刪除工作空間彈窗內,單擊確認刪除工作空間。