すべてのプロダクト
Search
ドキュメントセンター

Object Storage Service:EMRクラスターでImpalaを使用してOSS-HDFSに格納されているデータを照会する

最終更新日:Dec 20, 2023

このトピックでは、E-MapReduce (EMR) クラスターでImpalaを使用して、OSS-HDFSに格納されているデータを照会する方法について説明します。

前提条件

  • EMR V3.42.0以降、またはEMR V5.8.0以降のクラスターが作成され、Impalaサービスが選択されています。 詳細については、「クラスターの作成」をご参照ください。

  • バケットのOSS-HDFSが有効になり、OSS-HDFSに対するアクセス許可が付与されます。 OSS-HDFSを有効にする方法の詳細については、「OSS-HDFSの有効化とアクセス許可の付与」をご参照ください。

手順

  1. EMRクラスターにログインします。

    1. EMRコンソールにログインします。 左側のナビゲーションウィンドウで、[ECS上のEMR] をクリックします。

    2. 作成したEMRクラスターをクリックします。

    3. [ノード] タブをクリックし、ノードグループの左側にある [+] をクリックします。

    4. ECSインスタンスのIDをクリックします。 [インスタンス] ページで、インスタンスIDの横にある [接続] をクリックします。

    SSHキーペアまたはSSHパスワードを使用してWindowsまたはLinuxでクラスターにログインする方法の詳細については、「クラスターにログインする」をご参照ください。

  2. ターミナルで次のコマンドを実行して、Impalaに接続します。

    詳細については、「Impalaへの接続」をご参照ください。

    impala-shell -iコア-1-1
  3. Impalaを使用して、OSS-HDFSに保存されたデータを照会します。

    1. データベースを作成します。

      CREATE DATABASEストアLOCATION 'oss://<bucket-name>.<endpoint>/impala';
    2. データベースを使用します。

      使用ストア;
    3. テーブルを作成します。

      外部テーブルの作成customer_demographics ()
       'cd_demo_sk 'INT、
       'cd_gender' ストリング、
       'cd_marital_status 'ストリング、
       'cd_education_status 'ストリング、
       'cd_purchase_estimate 'INT、
       'cd_credit_rating 'ストリング、
       'cd_dep_count 'INT、
       'cd_dep_employed_count 'INT、
       'cd_dep_college_count 'INT)
      PARQUETとして保管されています。
    4. テーブルにデータを挿入します。

      customer_demographicsに挿入
      値
        (1、「男性」、「シングル」、「卒業生」、1000、「AAA」、2、1、1) 、
        (2、「女性」、「結婚」、「学部」、2000、「BBB」、3、2、2);
      
    5. テーブルのデータを照会します。

      select * from customer_demographics;