ArgoDB コンピュートソースの作成 - Dataphin - Alibaba Cloud ドキュメントセンター

Dataphin は、オフラインコンピュートエンジンとして ArgoDB の統合をサポートしており、Dataphin プロジェクト内でオフラインコンピューティングタスクの処理を可能にします。このトピックでは、ArgoDB コンピュートソースを作成する手順の概要を説明します。

前提条件

TDH Inceptor メタデータウェアハウスコンピュートエンジンが初期化され、Dataphin インスタンスのコンピューティングエンジンとして設定されていることを確認します。詳細については、「TDH をコンピューティングエンジンとして使用してメタデータウェアハウスを初期化する」および「Dataphin インスタンスのコンピューティングエンジンを TDH または ArgoDB に設定する」をご参照ください。

説明

ArgoDB コンピュートソースの作成をサポートしているのは、TDH Inceptor メタデータウェアハウスコンピュートエンジンのみであることに注意してください。他のメタデータウェアハウスコンピュートエンジンはこの機能を提供していません。

背景情報

Transwarp によって開発された ArgoDB は、Hadoop + MPP ハイブリッドアーキテクチャを代替できる分散分析データベースです。標準 SQL 構文でビジネス開発を促進し、マルチモデルデータ分析、リアルタイムデータ処理、ストレージとコンピューティングのデカップリング、異種サーバーハイブリッドデプロイメントなどの高度な機能を提供します。

制限事項

以下に概説するように、MySQL メタデータベース、ArgoDB システムデータベース、または HMS をメタデータ取得方法として使用する場合、特定のメタデータを取得できない、または不正確な場合があります。
- メタデータ取得方法 が MySQL メタデータベース または HMS に設定されている場合:
  - アセットの概要、データセクション、およびプロジェクトデータボリュームを取得できません。
  - アセットディレクトリ内のテーブルデータボリューム、パーティションデータボリューム、およびパーティションレコード数は取得できません。
  - リソース管理のストレージ関連メトリックが不正確な場合があります。
  - メタデータウェアハウス共有モデルの dim_dataphin_table および dim_dataphin_partition のデータボリュームとレコード数は取得できません。
- メタデータ取得方法 が ArgoDB システムデータベース に設定されている場合:
  - アセットディレクトリ内のパーティションレコード数情報は取得できません。
  - アセットディレクトリ内の holodesk テーブルのデータボリュームとパーティションデータボリュームは取得できません。
  - メタデータウェアハウス共有モデルの dim_dataphin_table および dim_dataphin_partition のレコード数と、holodesk 形式のテーブルのデータボリュームは取得できません。
HDFS 接続情報が Kerberos 認証なし に設定され、ArgoDB 構成が LDAP 認証なし に設定されている場合、予期しない問題が発生する可能性があります。続行する前に、Dataphin の運用およびデプロイメントチームに相談してください。
その他の使用制限事項は次のとおりです。
- ArgoDB をコンピューティングエンジンとして使用する場合、テーブル管理はサポートされていません。
- ソルト付きハッシュアルゴリズム (ソルト付き SHA256、ソルト付き SHA384、ソルト付き SHA512、ソルト付き MD5 を含む) とガウスノイズ脱感作アルゴリズム (GaussianNoise) はサポートされていません。
- Oracle、IBM DB2、Teradata などのダイアレクト、および Oracle と DB2 のストアドプロシージャはサポートされていません。SQL の実行でエラーが発生する可能性があります。
- 範囲パーティションテーブルは、DQL 文と、限定された DDL 文と DML 文のセットのみをサポートします。

手順

Dataphin ホームページに移動し、[計画] をクリックします。
左側のナビゲーションウィンドウで、[プロジェクト] > [コンピューティングソース] を選択します。
[コンピューティングソース] ページで、[+ コンピューティングソースを追加] をクリックし、ドロップダウンメニューから [argodb コンピューティングソース] を選択します。

[コンピューティングソースの作成] ページで、必要なパラメーターを入力します。

a. コンピューティングエンジンソースの基本情報を構成します。

パラメーター	説明
コンピューティングソースの種類	[argodb] をコンピューティングソースの種類として選択します。
コンピューティングソース名	名前は次の基準に準拠する必要があります。漢字、数字、英大文字と英小文字、アンダースコア (_)、およびハイフン (-) のみを含めます。 64 文字以内とします。
コンピューティングソースの説明	コンピューティングソースの簡単な説明を入力します。

b. クラスタの基本情報を構成します。

パラメーター	説明
namenode	デフォルトでは、コンピューティング設定で構成された NameNode パラメーター値になります。変更は許可されていません。
core-site.xml、hdfs-site.xml、hive-site.xml、その他の構成ファイル	HDFS 構成ファイル core-site.xml と hdfs-site.xml、および Hive 構成ファイル hive-site.xml をアップロードします。追加の構成ファイルが必要な場合は、その他の構成ファイルセクションにアップロードします。
認証タイプ	ARGODB クラスタで Kerberos 認証を使用する場合は、認証方式として Kerberos を選択します。Kerberos は、対称鍵暗号ベースの身元認証プロトコルであり、クライアント認証 (SSO) 後に HBase や HDFS などの複数のサービスにアクセスできます。 Kerberos 認証を選択したら、Krb5 認証ファイルをアップロードするか、KDC サーバーアドレスを構成します。 Krb5 ファイル構成: Kerberos 認証に必要な Krb5 ファイルをアップロードします。 KDC サーバーアドレス: Kerberos 認証を容易にするために KDC サーバーアドレスを指定します。複数のアドレスを入力できます。コンマで区切ります。

c. [HDFS 接続情報エリアのパラメーター]を構成します。

パラメーター

説明">説明

実行ユーザー名、パスワード

MapReduce タスクの実行、HDFS の読み取りと書き込み、その他の操作に使用される、コンピューティング実行マシンにログインするために必要なユーザー名とパスワードを入力します。

重要

指定された資格情報に MapReduce タスクを送信するために必要な権限があることを確認してください。

認証タイプ

HDFS が Kerberos 認証で保護されている場合は、認証方式として Kerberos を選択します。Kerberos は、サービスの身元認証を提供し、シングルサインオン (SSO) をサポートしているため、認証されたクライアントは HBase や HDFS などの複数のサービスにアクセスできます。

Kerberos 認証を選択したら、Keytab ファイルをアップロードし、プリンシパルアドレスを構成します。
- Keytab ファイル: Kerberos 認証に必要な Keytab ファイルをアップロードします。
- プリンシパル: Kerberos 認証ユーザー名を指定します。
認証が選択されていない場合は、HDFS アクセスのユーザー名を構成します。

d. ArgoDB 構成エリアパラメーター を構成します。

パラメーター	説明
JDBC URL	`jdbc:hive2://InceptorServerIP:Port/Database` の形式で Hive Server の JDBC 接続アドレスを入力します。
認証タイプ	エンジンの構成に基づいて、ArgoDB に適切な認証方式を選択します。オプションには、[認証なし]、[LDAP]、および [kerberos] があります。 [認証なし]: 追加の認証は必要ありません。 [LDAP]: LDAP アクセスのユーザー名とパスワードを構成します。 [kerberos]: Kerberos 認証ファイルをアップロードし、プリンシパルを指定します。
開発環境タスクの実行ユーザー	選択した認証方式に応じて、実行ユーザー名とパスワードを構成するか、Kerberos 認証ファイルをアップロードして、開発環境のタスクのプリンシパルを指定します。
定期スケジュールタスクの実行ユーザー	認証方式に基づいて、定期スケジュールタスクの実行ユーザー名とパスワードを構成するか、Kerberos 認証ファイルをアップロードしてプリンシパルを指定します。
優先タスクキュー	優先実行ユーザーとして [デフォルトの実行ユーザーを使用] と [カスタム] のいずれかを選択できます。 [カスタム] を選択したら、それぞれの優先順位に従ってタスクを実行するユーザー名を構成します。説明優先キューは、Hadoop クラスタ上に異なる Yarn キューを作成することでリソースを割り当て、対応する優先順位のタスクをそれぞれの Yarn キューで実行します。

e. ArgoDB メタデータ接続情報を構成します。

パラメーター	説明
メタデータ取得方法	メタデータ取得には、メタデータベースと HMS のいずれかを選択します。HMS を使用する場合、hdfs-site.xml、hive-site.xml、および core-site.xml 構成ファイルをアップロードし、認証方式を構成します。
データベースの種類	メタデータベースの種類として ArgoDB を選択します。現在、システムは ArgoDB をサポートしています。
JDBC URL	`jdbc:postgresql://<host>:<port>/<database name>` の形式でメタデータベースの接続アドレスを入力します。
ユーザー名、パスワード	メタデータベースログインのユーザー名とパスワードを入力します。説明タスクが適切に実行されるように、ユーザーに必要なデータベース権限があることを確認してください。

[接続テスト] をクリックして、構成を確認します。
接続テストが成功したら、[送信] をクリックして、ArgoDB コンピュートソースの作成を完了します。

次の手順

ArgoDB コンピュートソースを確立したら、プロジェクトに関連付けることができます。詳細な手順については、「汎用プロジェクトを作成する」をご参照ください。