全部產品
Search
文件中心

E-MapReduce:使用說明

更新時間:Jul 01, 2024

本文介紹如何在E-MapReduce上配置及訪問Hue,通過使用Hue可以在瀏覽器端與Hadoop叢集進行互動來分析處理資料。

前提條件

  • 已設定安全性群組訪問。

    重要

    設定安全性群組規則時要針對有限的IP範圍。禁止在配置的時候對0.0.0.0/0開放規則。

  • 已開啟8888連接埠。

注意事項

EMR-3.35.0及後續版本或EMR-4.9.0及後續版本的Hadoop叢集,需要注意以下資訊:

  • 當您需要使用Hue的Workflow作業時,請在Hue配置頁簽,刪除app_blacklist參數值中的jobbrowserjobbrowser

  • 當您需要使用Hue通過介面瀏覽或者操作HDFS系統的目錄時,請在Hue配置頁簽,刪除app_blacklist參數值中的filebrowser,並啟動HDFS服務的HttpFS組件。httpfs

查看初始密碼

Hue服務預設在第一次運行時,如果未設定管理員則將第一個登入使用者佈建為管理員。因此出於安全考慮,E-MapReduce將預設為Hue服務建立一個名為admin的管理員帳號,並為其設定一個隨機的初始密碼。您可以通過以下方式查看該管理員帳號的初始密碼:

  1. 登入阿里雲E-MapReduce控制台

  2. 在頂部功能表列處,根據實際情況選擇地區和資源群組

  3. 單擊上方的叢集管理頁簽。

  4. 叢集管理頁面,單擊相應叢集所在行的詳情

  5. 單擊左側導覽列中的叢集服務,在叢集服務列表中,選擇Hue

  6. 單擊配置頁簽,找到admin_pwd參數,該參數對應的值就是隨機密碼。

    重要

    admin_pwd僅為admin帳號的初始密碼,在E-MapReduce控制台上更改該密碼不會同步到Hue中。如果需要更改admin帳號在Hue中的登入密碼,您可以使用該初始密碼登入Hue,然後在Hue的使用者管理模組中進行修改,或者重設帳號密碼

訪問Hue

  1. 叢集管理頁面,單擊相應叢集所在行的詳情

  2. 在頁面左側導覽列中,單擊訪問連結與連接埠

  3. 單擊Hue服務所在行的連結。

  4. 輸入Hue帳號和對應的密碼。

建立使用者帳號

  1. 叢集管理頁面,單擊相應叢集所在行的詳情

  2. 主執行個體組地區擷取Master節點的公網IP。

  3. 登入Master節點,具體步驟請參見登入叢集

  4. 執行以下命令,建立新帳號。

    /opt/apps/hue/build/env/bin/hue createsuperuser
  5. 輸入新使用者名稱、電子郵件,然後輸入密碼,再次輸入密碼後,按Enter鍵。

    如果提示Superuser created successfully,則說明新帳號建立成功,稍後用新帳號登入Hue即可。

重設帳號密碼

  1. 使用SSH方式登入到叢集主節點,詳情請參見登入叢集

  2. 執行以下命令,查看Hue的路徑。

    ps aux | grep hue

    例如回顯資訊如下。 check hue file

    說明

    本樣本中擷取到Hue的路徑為/opt/apps/hue/build/env/bin/hue

  3. 執行以下命令,重設使用者密碼。

    from django.contrib.auth.models import User
    user = User.objects.get(username='your username')  //輸入待重設密碼的使用者名稱。
    user.set_password('your new password') //輸入新密碼。
    user.save()
    說明

    您可以按下鍵盤的ctrl+D按鍵組合退出Shell。

    樣本如下:change password

添加配置

  1. 叢集管理頁面,單擊相應叢集所在行的詳情

  2. 在頁面左側導覽列中,單擊叢集服務 > Hue

  3. 單擊配置頁簽。

  4. 服務配置地區,單擊hue

  5. 單擊右上方的自訂配置,添加配置的Key和Value值,

    $section_path.$real_key

    參數資訊如下:

    • $real_key即為需要添加的實際的Key,例如hive_server_host

    • $section_path可以通過hue.ini檔案查看。

      例如:通過hue.ini檔案可以看出hive_server_host屬於[beeswax]這個section下,則$section_pathbeeswax

      說明

      綜上可見,添加的Key為beeswax.hive_server_host。如果需要修改hue.ini檔案中的多級section([desktop] -> [[ldap]] -> [[[ldap_servers]]] -> [[[[users]]]] ->user_name_attr)下的值,則需要配置key為desktop.ldap.ldap_servers.users.user_name_attr

調整YARN隊列

HUE進行SQL互動查詢時,需要向YARN申請資源進行計算,如果需要對計算資源進行管理和隔離,則需要配置HiveSQL和SparkSQL的對應隊列。

  1. 叢集管理頁面,單擊相應叢集所在行的詳情

  2. 修改或添加自訂配置。

    • HiveSQL需要根據不同引擎設定HiveServer2。

      重要

      本文的QUEUENAME為需要配置的隊列名稱。

      1. 單擊左側導覽列的叢集服務 > Hive

      2. 單擊配置頁簽。

      3. 單擊服務配置地區的hiveserver2-site頁簽。

      4. 單擊右上方的自訂配置添加相應如下配置:

        引擎

        配置項

        說明

        Hive on MR

        mapreduce.job.queuename

        QUEUENAME

        Hive on Tez

        tez.queue.name

        Hive on Spark

        spark.yarn.queue

        說明

        若需修改配置,可直接在服務配置頁面修改配置項的值。

    • SparkSQL使用SparkThriftServer,在Spark組件上修改spark-thriftServer配置或添加自訂配置:

      1. 單擊左側導覽列的叢集服務 > Spark

      2. 單擊配置頁簽。

      3. 單擊服務配置地區的spark-thriftServer頁簽。

      4. 單擊右上方的自訂配置,添加spark.yarn.queue為QUEUENAME。

  3. 重啟Hue所在叢集的HiveServer2和Spark的ThriftServer。

    1. 叢集管理頁面,單擊叢集服務 > Hive

    2. 組件列表地區,單擊HiveServer2所在行的重啟

      輸入相關資訊,單擊確定

    3. 叢集管理頁面,單擊叢集服務 > Spark

    4. 組件列表地區,單擊ThriftServer所在行的重啟

      輸入相關資訊,單擊確定