EMR で Spark SQL ジョブを実行 - E-MapReduce (EMR)

このトピックでは、Spark SQLジョブを構成する方法について説明します。

前提条件

プロジェクトが作成されていること。詳細については、「プロジェクトの管理」をご参照ください。

手順

データプラットフォームタブに移動します。
1. Alibaba Cloudアカウントを使用して、Alibaba Cloud EMRコンソールにログオンします。
2. 上部のナビゲーションバーで、クラスターが存在するリージョンを選択し、ビジネス要件に基づいてリソースグループを選択します。
3. [データプラットフォーム] タブをクリックします。
表示されるページの [プロジェクト] セクションで、管理するプロジェクトを見つけ、[アクション] 列の [ジョブの編集] をクリックします。

Spark SQLジョブを作成します。

左側の [ジョブの編集] ペインで、操作を実行するフォルダーを右クリックし、[ジョブの作成] を選択します。

[ジョブの作成] ダイアログボックスで、[名前] と [説明] を指定し、SparkSQL[ジョブの種類] ドロップダウンリストからを選択します。

説明デフォルトでは、Spark SQLジョブは yarn-client モードで送信されます。

次のコマンド構文を使用して、Spark SQLジョブを送信できます。

spark-sql [options] [cli options] {SQL_CONTENT}

次の表は、コマンド構文のパラメーターについて説明しています。

パラメーター	説明
options	次の操作を実行して構成する SPARK_CLI_PARAMS パラメーターの設定：ジョブページの右上隅にある [ジョブ設定] をクリックします。 [ジョブ設定] パネルで、[詳細設定] タブをクリックします。 [環境変数] セクションの `SPARK_CLI_PARAMS="--executor-memory 1g --executor-cores"` アイコンをクリックし、などの SPARK_CLI_PARAMS パラメーターの設定を追加します。
cli options	例： `-e <quoted-query-string>` : 引用符で囲まれた SQL ステートメントが実行されることを示します。 `-f <filename>`: ファイル内の SQL ステートメントが実行されることを示します。
SQL_CONTENT	入力する SQL ステートメント。

[OK] をクリックします。

ジョブの内容を編集します。

[コンテンツ] フィールドに Spark SQL ステートメントを入力します。

例：

-- SQL statement example 
-- SQLステートメントのサイズは 64 KB を超えることはできません。
show databases;
show tables;
-- LIMIT 2000 が SELECT ステートメントに自動的に追加されます。
select * from test1;

[保存] をクリックします。