Apache Spark を使用して Lindorm インスタンスにデータを一括ロードするには、ご利用の Lindorm インスタンスを Lindorm Tunnel Service (LTS) インスタンスに接続する Spark データソースを追加します。これは、Lindorm コンソールまたは LTS Web UI のいずれかから実行できます。
前提条件
開始する前に、以下があることを確認してください。
Lindorm Tunnel Service (LTS) インスタンス
Lindorm Distributed Processing System (LDPS) がアクティブ化された Lindorm インスタンス。詳細については、「インスタンスの作成」をご参照ください。
同じ VPC にある Lindorm インスタンスと LTS インスタンス。異なる VPC にある場合は、詳細については、「VPC の接続」をご参照ください。
(LTS Web UI メソッドのみ) ご利用の Lindorm インスタンスの HDFS namenode ホスト名。これらの値を取得するには、チケットを送信してください。
Lindorm コンソールからの Spark データソースの追加
Lindorm コンソールにログインします。
[インスタンス] ページで、エンジンタイプが [LTS] のインスタンスの ID をクリックします。
左側のナビゲーションウィンドウで、[データソース] をクリックします。
[コンピュートエンジンデータソース] タブをクリックし、次に [データソースの追加] をクリックします。
[データソースの追加] ダイアログボックスで、以下のパラメーターを設定します。
パラメーター 説明 インスタンスタイプ Lindorm を選択します。 リージョン Lindorm インスタンスがデプロイされているリージョンを選択します。 インスタンス ID ご利用の Lindorm インスタンスの ID を選択します。選択したインスタンスでは LDPS がアクティブ化されている必要があります。詳細については、「LDPS のアクティブ化と構成の変更」をご参照ください。 [OK]をクリックします。Spark データソースのステータスが[Associated]と表示されたら、データソースが正常に追加されます。
LTS Web UI からの Spark データソースの追加
LTS Web UI にログインします。詳細については、「LTS のアクティブ化とログイン」をご参照ください。
左側のナビゲーションウィンドウで、[データソース管理] > [データソースの追加] を選択します。
「[データソースの追加]」ページで、以下のパラメーターを設定します。
パラメーター 説明 名前 lts_bulkload_sparkと入力します。データソースタイプ Spark を選択します。 パラメーター 以下の JSON 構成を入力します。各プレースホルダーをご利用の実際の値に置き換えてください。 { "virtualClusterName": "<ldps-access-token>", "hdfsUri": "hdfs://<namenode1-hostname>:8020,<namenode2-hostname>:8020", "sparkEndpoint": "http://192.168.XX.XX:10099" }パラメーター 説明 値の取得方法 virtualClusterNameLDPS JAR アドレスのアクセストークンです。 インスタンス詳細ページで、左側のナビゲーションウィンドウの [データベース接続] に移動し、[コンピュートエンジン] タブをクリックします。 hdfsUriLindorm インスタンスの HDFS エンドポイントです。フォーマット: hdfs://<namenode1-hostname>:8020,<namenode2-hostname>:8020チケットを起票して、namenode ホスト名 ( <namenode1-hostname>と<namenode2-hostname>) を取得します。sparkEndpointLDPS の JAR VPC アドレスです。フォーマット: http://<ip-address>:10099インスタンス詳細ページで、左側のナビゲーションウィンドウの [データベース接続] に移動し、[コンピュートエンジン] タブをクリックします。 [追加] をクリックします。