R&D プラットフォームは、開発プロセス中のロック および Analyze コマンド の同時実行性を制御するのに役立ちます。このトピックでは、編集ロック、オブジェクトの送信、クエリ高速化 およびストレージボリューム更新設定 を構成する方法について説明します。
制限事項
ストレージボリューム更新設定機能は、コンピューティングエンジンが E-MapReduce 3.x、E-MapReduce 5.x、CDH 5.x、CDH 6.x、FusionInsight 8.x、Cloudera Data Platform 7.x、AsiaInfo DP 5.3、ArgoDB、TDH 6.x、StarRocks、SelectDB、または Doris の場合に利用できます。
SelectDB および Doris コンピューティングエンジンは、テーブル管理設定または標準モデリングのデフォルト コンピューティングエンジンモジュールをサポートしていません。
権限の説明
R&D プラットフォームの設定の管理 権限と スーパー管理者 または システム管理者 の権限を持つカスタムユーザーロールのみが R&D プラットフォームを設定できます。
R&D プラットフォームへのアクセス
Dataphin ホームページの上部ナビゲーションバーで、[管理ハブ] > [システム設定] を選択します。
左側のナビゲーションウィンドウで、[プラットフォーム設定] > [研究開発プラットフォーム] を選択します。
編集ロック
[編集ロック] セクションで、編集アイコンをクリックし、排他的編集ロックスイッチを有効にして、ロックを構成します。
パラメータ
説明
排他編集ロック
無効の場合、ユーザーは互いのロック状態を上書きできます。有効な場合、ユーザーがオブジェクトをロックした後、他のユーザーはロックを手動で解除するか、ロックの有効期限が切れるまで編集できません。その後初めて、他のユーザーはオブジェクトをロックして編集できます。
ロック期間
ユーザーがロック期間内に編集操作を実行しない場合、排他ロックは無効になり、他のユーザーが取得できます。デフォルトは [30分] で、最小は [5分]、最大は [120分] です。
オブジェクトを閉じると自動的に解放
オブジェクト編集タブを閉じると、ロックが自動的に解除されます。
送信成功時に自動解放
送信が成功すると、ロックが自動的に解除されます。送信が失敗した場合、ロックは解除されません。
[OK] をクリックして、編集ロック設定を完了します。
初期システム構成に戻すには、[デフォルトに戻す] をクリックします。
クエリ高速化
クエリ高速化が有効になっている場合、分析プラットフォームのすべてのアドホッククエリと SQL ユニットクエリの高速化をサポートします。このスイッチをオフにすると、すべてのアドホッククエリと分析プラットフォーム SQL ユニットのクエリ高速化スイッチが非表示になり、クエリ高速化はサポートされません。
クエリ高速化は、MaxCompute コンピュートエンジンのみをサポートします。
ストレージボリューム更新設定
ステップ 2:統合、リアルタイム開発、その他のタスクを通じて HDFS に直接書き込まれたデータテーブルの場合、Hive はデフォルトでストレージボリューム情報(テーブルストレージボリュームとパーティションストレージボリュームを含む)を更新しません。そのため、ターゲットテーブルのストレージボリューム情報はアセットディレクトリに表示されません。Dataphin は、データテーブルの更新後に Analyze コマンドを自動的に実行して最新のストレージボリューム情報を取得する機能を提供しています。 でこれを設定できます。
[ストレージボリューム更新設定] セクションで、編集アイコンをクリックし、自動ストレージボリューム更新スイッチを有効にして、同時接続数を構成します。
自動ストレージボリューム更新: デフォルトでは無効になっています。有効にすると、Dataphin はタスクが正常に実行された後、Hive ターゲットテーブルに対して Analyze コマンドを自動的に実行して、ストレージボリューム情報を更新します。統合タスクとリアルタイム開発タスクが多く、Hive Server のパフォーマンスが良い場合は、同時接続数を調整して更新コマンドの全体的な実行時間を短縮し、翌日にアセットディレクトリで最新のストレージボリューム情報をクエリできるようにすることができます。高い同時実行性は、より多くの計算リソースを消費し、他のタスクの通常の動作に影響を与える可能性があることに注意してください。ビジネスシナリオに基づいて、同時接続数を適切に構成してください。
最大接続数: Analyze コマンドを実行するための最大同時接続数を設定できます。デフォルトは 5 で、1 から 200 までの正の整数を設定できます。
重要自動ストレージボリューム更新が有効になっている場合、Analyze コマンドの実行時間が 24 時間を超えると、システムは計算リソースを節約するために実行中または待機中のコマンドを自動的に終了します。
[OK] をクリックして、ストレージボリューム更新設定を完了します。
説明自動ストレージボリューム更新が無効から有効に変更され、確認されると、構成された同時接続数がすぐに有効になります。高い同時実行性は、より多くの計算リソースを消費し、他のタスクの通常の動作に影響を与える可能性があることに注意してください。ビジネスシナリオに基づいて、同時接続数を適切に構成してください。
自動ストレージボリューム更新が有効から無効に変更された場合、実行中または待機中の Analyze コマンドは影響を受けません。後続の統合、リアルタイム開発、およびその他のタスクのターゲットテーブルのストレージボリュームは自動的に更新されません。 Hive で Analyze コマンドを実行することにより、情報を手動で更新できます。
ノードタスク関連設定
[ノードタスク関連設定] セクションで、[編集] アイコンをクリックして、新しいタスクのデフォルトのスケジュール時間とオブジェクト送信ルールを構成します。
新規
パラメータ
説明
デフォルトの優先度
統合タスク、計算タスク、および論理テーブルタスクを作成する際のデフォルトの優先度。 [最低]、[低]、または [中] を選択できます。デフォルトは「中」です。
デフォルトのスケジュール時間
間隔内でランダム
デフォルトの時間間隔は [00:00~03:00] で、デフォルトのランダム時間間隔は [5] 分です。
時間間隔の終了時刻は、開始時刻よりも大きくする必要があります。有効な時間範囲は 00:00~23:59 で、hh:mm 形式です。
ランダム時間間隔の有効な範囲は、1 から 30 までの正の整数です。
固定時間
デフォルトの固定時間は [00:00] です。
有効な時間範囲は 00:00~23:59 で、hh:mm 形式です。
Python のデフォルトバージョン
Python 計算タスクの作成、Python オフラインコンピューティングテンプレートの作成、および Python サードパーティパッケージのインストールに使用されるデフォルトの Python バージョン。 [Python 2.7]、[Python 3.7]、または [Python 3.11] を選択できます。デフォルトは Python 3.7 です。
説明デフォルトのスケジュール時間は、デフォルトで「間隔内でランダム」に設定されています。必要に応じて「固定時間」に変更できます。
オフラインタスク(統合タスク、計算タスク、論理テーブル)を作成する場合、スケジュール時間はここで構成されたデフォルトのスケジュール時間を自動的に使用します。
デフォルトのスケジュール時間が「間隔内でランダム」に設定されている場合、構成されたルールに従ってランダムな時間が生成されます。
デフォルトのスケジュール時間が「固定時間」に設定されている場合、構成された時間が使用されます。
実行
SQL にアカウントとパスワードのグローバル変数が含まれている場合、Logview URL を非表示にする: SQL のアカウントとパスワードのグローバル変数は、MaxCompute logview SQL にプレーンテキストとして表示されるため、リークが発生する可能性があります。このオプションはデフォルトでは無効になっています。
この構成を有効にすると、MAXCOMPUTE_SQL および論理テーブル タスクにアカウントとパスワードのグローバル変数が含まれている場合、アカウントとパスワードのグローバル変数を参照する SQL の logview URL は、開発環境の実行ログとデータ プレビュー ログ、および本番環境の O&M ログに表示されなくなります。 logview URL は
現在の SQL はアカウント パスワード グローバル変数 {dp_glb_xxx} を使用しているため、logview URL は非表示になっています。現在の SQL はアカウントとパスワードタイプのグローバル変数「{dp_glb_xxx}」を使用しているため、logview URL は非表示になっています。に置き換えられます。説明この構成は、コンピューティングエンジンが MaxCompute の場合にのみサポートされます。
送信
パラメータ
説明
オフライン開発オブジェクト送信の自動依存関係解析
有効にすると、オフライン開発オブジェクト (SQL 計算タスクや論理テーブルタスクなど) が送信されるたびに依存関係解析が自動的にトリガーされ、上流依存関係リストが更新されて上流依存関係が見落とされるのを防ぎます。
論理テーブル送信のフィールドタイプの検証
有効にすると、論理テーブルが送信されるときに、フィールド計算ロジックの戻り値の型がフィールドの型と互換性があるかどうかがシステムによってチェックされます。一致しない場合、システムは送信をブロックして、データエラーを引き起こす可能性のある暗黙の型変換を防ぎます。
オフライン削除
開発環境で公開済みオブジェクトの削除を許可する: 有効にすると、本番環境に公開されたオブジェクト (計算タスク、統合タスク、論理テーブル、アトミックメトリック、ビジネスフィルタ、派生メトリックなど) を開発環境で直接削除できます。
重要削除されたオブジェクトは復元できません。開発環境で、削除タスクを本番環境に公開せずに開発オブジェクトを削除すると、対応する開発オブジェクトが存在しなくなるため、対応する本番オブジェクトを変更できなくなります。
デフォルトの依存関係サイクルと依存関係ポリシー
[デフォルトの依存関係サイクル] と [デフォルトの依存関係ポリシー] を変更できます。
デフォルトの依存関係サイクル: [現在のサイクル (当日)]、[前のサイクル (前日)]、[過去24時間]、または [前の N サイクル] を選択できます。前の N サイクルの場合、N はデフォルトで 2 であり、空にすることはできません。
デフォルトの依存関係ポリシー: [最初のインスタンス]、[最も近いインスタンス]、[すべてのインスタンス]、または [最後のインスタンス] を選択できます。
初期デフォルトの依存関係サイクルとポリシーを次の表に示します。
現在のノードスケジュールサイクル
上流ノードスケジュールサイクル
上流ノードは自己依存しているか
デフォルトの依存関係サイクル
デフォルトの依存関係ポリシー
毎日/毎週/毎月
日
はい/いいえ
現在のサイクル (当日)
最後のインスタンス
毎日/毎週/毎月
毎時/毎分
いいえ
現在のサイクル (当日)
すべてのインスタンス
毎日/毎週/毎月
毎時/毎分
はい
現在のサイクル (当日)
最後のインスタンス
毎月/毎週/毎日/毎時/毎分
毎月/毎週
はい
現在のサイクル (当日)
最後のインスタンス
毎月/毎週/毎日/毎時/毎分
毎月/毎週
いいえ
現在のサイクル (当日)
最後のインスタンス
毎時/毎分
毎日
はい/いいえ
現在のサイクル (当日)
最後のインスタンス
毎時/毎分
毎時/毎分
はい/いいえ
現在のサイクル (当日)
最後のインスタンス
構成が完了したら、[OK] をクリックします。
初期システム構成に戻すには、[デフォルトに戻す] をクリックします。
テーブル管理設定
StarRocks、GaussDB データウェアハウスサービス (DWS)、Doris、および SelectDB コンピュートエンジンは、テーブル管理設定をサポートしていません。
[テーブル管理設定] セクションで、[編集] アイコンをクリックして、SQL を使用してテーブルを削除した後にテーブル削除保留リリースアイテムを自動的に生成する と テーブル管理でテーブルを削除するときに保留リリースアイテムを生成する を構成します。
SQL を使用してテーブルを削除した後にテーブル削除保留リリース アイテムを自動的に生成する: デフォルトで有効になっています。有効にすると、開発環境のアドホック クエリまたは SQL 計算タスクで
drop table文を実行した後、システムはテーブル削除の保留リリース アイテムを自動的に生成します。無効にすると、開発環境でdrop table table_name文を実行しても、テーブル削除の保留リリース アイテムは生成されません。テーブル管理でテーブルを削除するときに保留リリースアイテムを生成する: デフォルトで有効になっています。有効にすると、テーブル管理でテーブルを削除するときに、システムは対応する保留リリースアイテムを生成します。無効にすると、テーブル管理でテーブルを削除しても、対応する保留リリースアイテムは生成されません。
[デフォルトのストレージ形式]/[外部テーブルのデフォルトのストレージ形式] を構成します。次の表に示すように、コンピューティングエンジンによってサポートされるストレージ形式は異なります。
説明コンピュートエンジンが AnalyticDB for PostgreSQL の場合、[デフォルトのストレージフォーマット] は設定できません。
[外部テーブルのデフォルトのストレージフォーマット] は、コンピュートエンジンが MaxCompute の場合にのみ設定できます。
次の表の - は、サポートされていないことを示します。

エンジンのデフォルト(create table 文で指定可能)
Hudi
Delta(Delta Lake)
paimon
iceberg
Kudu
Parquet
Avro
rcfile
ORC
テキストファイル
シーケンスファイル
バイナリファイル
CSV
テキスト
JSON
MaxCompute
-
-
-
-
-
-
サポート対象
サポート対象
サポート対象
サポート対象
サポート対象
サポート対象
-
-
-
-
Lindorm(Compute Engine)
サポート対象
-
-
-
サポート対象
-
サポート対象
サポート対象
サポート対象
サポート対象
サポート対象
サポート対象
-
-
-
-
Databricks
サポート対象
-
サポート対象
-
-
-
サポート対象
サポート対象
-
サポート対象
-
-
サポート対象
サポート対象
サポート対象
サポート対象
Amazon EMR
サポート対象
サポート対象
サポート対象
サポート対象
サポート対象
サポート対象
サポート対象
サポート対象
サポート対象
サポート対象
サポート対象
サポート対象
-
-
-
-
Transwarp TDH 6.x
Transwarp TDH 9.3.x
サポート対象
-
-
サポート対象
サポート対象
-
サポート対象
サポート対象
サポート対象
サポート対象
サポート対象
サポート対象
-
-
-
-
CDH 5.x
CDH 6.x
E-MapReduce 3.x
E-MapReduce 5.x
Cloudera Data Platform 7.x
Huawei FusionInsight 8.x
AsiaInfo DP 5.3
サポート対象
サポート対象
サポート対象
サポート対象
サポート対象
サポート対象
サポート対象
サポート対象
サポート対象
サポート対象
サポート対象
サポート対象
-
-
-
-
MaxCompute コンピュートエンジンを使用する物理テーブルおよび論理テーブルのデフォルトのライフサイクルを設定できます。デフォルトでは、この値は空で、ライフサイクルが設定されていないことを意味します。1 から 36,500 までの整数を入力するか、[7]、[14]、[30]、または [360] 日をすばやく選択できます。
説明デフォルトのライフサイクルは、コンピュートエンジンが MaxCompute の場合にのみ設定できます。
設定が完了したら、[OK] をクリックします。
初期システム構成を復元するには、[デフォルトの復元] をクリックします。
標準モデリングのデフォルトのコンピュートエンジン
Hadoop コンピュート エンジンを搭載した Dataphin インスタンスでは、Hive、Impala、Spark など、標準モデリングのデフォルト コンピュート エンジンを設定できます。コンピュート エンジンには、次の制限があります。
プロジェクトに対応するコンピュート ソースで対応するタスクが有効になっていない場合、システムは自動的に Hive コンピュート エンジンに切り替わります。詳細については、「Hadoop コンピュート ソースを作成する」をご参照ください。
Hive:Kudu フォーマットで保存されているソース テーブルを読み取ることができません。
Impala:Kudu フォーマットで保存されているソース テーブルを読み取ることができますが、現在は論理テーブルを Kudu として保存することはサポートしていません。Kudu フォーマットのソース テーブルがない場合はお勧めしません。
説明コンピュート エンジンが Amazon EMR の場合、Impala はサポートされていません。
Spark:Kudu フォーマットで保存されているソース テーブルを読み取ることができません。
クエリ高速化
MCQA クエリ高速化を有効にすると、分析プラットフォーム上のすべての MAX_COMPUTE_SQL アドホッククエリとすべての SQL ユニットクエリを高速化できます。この機能が無効になっている場合、現在のテナントは MCQA クエリ高速化を使用できません。
クエリ高速化は、MaxCompute コンピュートエンジンでのみサポートされます。