プロジェクトは Dataphin の基本的な組織単位であり、マルチユーザーの分離とアクセス制御の主要な境界として機能します。Dataphin サービスを有効化した後、プラットフォームを使用するにはプロジェクトを作成する必要があります。このトピックでは、プロジェクトの作成方法について説明します。
前提条件
開始する前に、次の要件が満たされていることを確認してください。
ストリーム処理とバッチ処理を統合するタスクを開発するには、ビジネスニーズに基づいてストリームバッチ統合をサポートするコンピュートソースを作成する必要があります。詳細については、以下をご参照ください。
Dataphin のコンピュートエンジンとして MaxCompute を選択し、標準化モデリング、アドホッククエリ、MaxCompute SQL コンピュートタスクなどの機能を使用する必要がある場合は、プロジェクトを作成する前に MaxCompute コンピュートソースを作成する必要があります。詳細については、「MaxCompute コンピュートソースの作成」をご参照ください。
コンピュートエンジンとして MaxCompute を選択した場合は、Hologres コンピュートソースを作成することもできます。Hologres コンピュートソースをプロジェクトにアタッチすると、アドホッククエリや HOLOGRES_SQL コンピュートタスクなどの機能を使用できます。詳細については、「Hologres コンピュートソースの作成」をご参照ください。
Dataphin のコンピュートエンジンとして Hadoop を選択し、標準化モデリング、アドホッククエリ、Hive SQL コンピュートタスクなどの機能を使用する必要がある場合は、プロジェクトを作成する前に Hadoop コンピュートソースを作成する必要があります。詳細については、「Hadoop コンピュートソースの作成」をご参照ください。
Dataphin のコンピュートエンジンとして Transwarp TDH を選択し、標準化モデリング、アドホッククエリ、INCEPTOR_SQL コンピュートタスクなどの機能を使用する必要がある場合は、プロジェクトを作成する前に TDH Inceptor コンピュートソースを作成する必要があります。詳細については、「TDH Inceptor コンピュートソースの作成」をご参照ください。
Dataphin のコンピュートエンジンとして ArgoDB を選択し、アドホッククエリや ARGODB_SQL コンピュートタスクなどの機能を使用する必要がある場合は、プロジェクトを作成する前に ArgoDB コンピュートソースを作成する必要があります。詳細については、「ArgoDB コンピュートソースの作成」をご参照ください。
Dataphin のコンピュートエンジンとして StarRocks を選択し、アドホッククエリや STARROCKS_SQL コンピュートタスクなどの機能を使用する必要がある場合は、プロジェクトを作成する前に StarRocks コンピュートソースを作成する必要があります。詳細については、「StarRocks コンピュートソースの作成」をご参照ください。
Dataphin のコンピュートエンジンとして Amazon EMR を選択し、アドホッククエリやコンピュートタスクなどの機能を使用する必要がある場合は、プロジェクトを作成する前に Amazon EMR コンピュートソースを作成する必要があります。詳細については、「Amazon EMR コンピュートソースの作成」をご参照ください。
Dataphin のコンピュートエンジンとして SelectDB または Doris を選択し、アドホッククエリや SELECTDB_SQL または DORIS_SQL コンピュートタスクなどの機能を使用する必要がある場合は、プロジェクトを作成する前に SelectDB または Doris コンピュートソースを作成する必要があります。詳細については、「SelectDB または Doris コンピュートソースの作成」をご参照ください。
背景情報
Dataphin は、次の 2 つの開発モードのプロジェクトをサポートしています。
Dev-Prod モード: このモードでプロジェクトを作成すると、システムは自動的に開発環境 (Dev プロジェクト) と本番環境 (Prod プロジェクト) を生成します。この分離により、本番環境でのデータセキュリティが確保されます。このモードは、複雑な管理ニーズ、明確な役割を持つデータ開発者の大規模なチーム、およびコンピューティングとストレージのための十分な予算がある場合に推奨されます。
Basic モード: このモードでプロジェクトを作成すると、システムは自動的に開発環境と本番環境を統合した Basic プロジェクトを生成します。このモードは、データ本番プロセスを簡素化し、開発効率を優先し、柔軟な役割を持つ開発者がいて、コンピューティングとストレージの予算が限られている場合に推奨されます。
権限の説明
スーパー管理者、システム管理者、および組織単位のアーキテクトはプロジェクトを作成できます。
スーパー管理者、システム管理者、および組織単位のアーキテクトは、データテーブルへの読み取りおよび書き込みの権限リクエストを有効または無効にできます。
手順
Dataphin のホームページで、トップメニューバーから [プランニング] > [プロジェクト] を選択します。
[プロジェクト管理] ページで、[一般プロジェクトの作成] をクリックして [プロジェクトの作成] ダイアログボックスを開きます。
[プロジェクトの作成] ダイアログボックスで、[Dev-Prod モード] または [Basic モード] を選択し、[次へ] をクリックします。
重要プロジェクトを Basic モードから Dev-Prod モードにアップグレードすることはできません。Basic モードには、本番環境に直接変更を加えるリスクもあります。したがって、モードは慎重に選択してください。
Basic モードを選択した場合は、データ本番の安定性を確保するために、プロジェクトメンバーを慎重に管理する必要があります。
[プロジェクトの作成] ダイアログボックスで、パラメーターを設定します。
[Dev-Prod モード] と [Basic モード] のパラメーターは同じです。次の例では [Dev-Prod モード] を使用します。
パラメーター
説明
業務部門
データセクション
プロジェクトが属する業務部門を選択します。
基本情報
共通英語名
プロジェクトの共通英語名を入力します。命名規則は次のとおりです。
文字、数字、アンダースコア (_) を使用できます。
LD_ で始めることはできません。
長さは 64 文字を超えることはできません。
開発環境プロジェクトの英語名には、デフォルトで `_dev` サフィックスが付きます。
説明コンピュートエンジンが MaxCompute の場合、プロジェクトの共通英語名を対応する MaxCompute プロジェクト名と同じに設定することをお勧めします。
共通名
プロジェクトの共通名を入力します。命名規則は次のとおりです。
漢字、数字、文字、アンダースコア (_)、ハイフン (-) を使用できます。
LD_ で始めることはできません。
長さは 64 文字を超えることはできません。
コンピュートソースタイプ
コンピュートソースタイプを選択し、対応するコンピュートソースを選択します。
重要プロジェクトにアタッチされているコンピュートソースは、別のプロジェクトにアタッチすることはできません。
Dev プロジェクトと Prod プロジェクトのコンピュートソースは同じである必要があります。
Dataphin コンピュートエンジンが MaxCompute として初期化されている場合、オフラインエンジンとして [MaxCompute] または [Hologres] を選択できます。MaxCompute を選択した場合は、[機械学習] PAI を有効にすることもできます。
Dataphin は Platform for AI (PAI) と統合して、基本的なアルゴリズムスケジューリングを提供します。PAI で、ビジュアルモデリング用のワークスペースを作成するときに、MaxCompute ベースのコンピューティングリソースグループを選択します。詳細については、「Platform for AI」の AI コンピューティングリソースグループの概要をご参照ください。PAI を有効にする場合は、次のパラメーターを設定します。
PAI リージョン: Dataphin インスタンスと同じリージョンを選択します。
アクセス方法: PAI のアクセス方法を選択します。[VPC] および [インターネット] のアクセス方法がサポートされています。
AccessKey ID、AccessKey Secret: PAI にアクセスする必要があるアカウントの AccessKey ID と AccessKey シークレットを設定します。
PAI プロジェクト名: PAI プロジェクトを選択します。
現在の Dataphin プロジェクトにアタッチされている MaxCompute プロジェクトは、PAI にアタッチされている MaxCompute プロジェクトと同じにすることをお勧めします。
オフラインエンジンとして StarRocks を選択し、エンジンが外部カタログのデータベースからのものである場合、標準化モデリング、Data Integration を使用したデータ書き込み、およびアドホッククエリの完全な結果のダウンロードはサポートされません。
プロジェクトのデフォルトリソースグループ
このプロジェクトで作成されたタスクは、ここで設定されたデフォルトのリソースグループをスケジューリングに使用します。このパラメーターは、プロジェクトでオフラインコンピュートエンジンが有効になっている場合にのみ使用できます。タスク設定で特定のタスクのリソースグループをカスタマイズすることもできます。
通常ステータスで、毎日のタスクスケジューリングに使用され、現在のプロジェクトに関連付けられているリソースグループのみを選択できます。
デフォルトのリソースグループを変更すると、スケジュールリソースがプロジェクトのデフォルトリソースグループに設定されているタスクは、自動的に新しいリソースグループを使用します。リソースグループが自動的に更新されないようにするには、タスクに個別のカスタムリソースグループを指定します。詳細については、「タスクのコンピューティングリソースを設定する」をご参照ください。
説明このパラメーターは、テナントでカスタムリソースグループ機能が有効になっている場合にのみ使用できます。詳細については、「リソースグループの概要」をご参照ください。
現在のテナントのスケジューリング用の共有リソースグループを使用します。これはテナントのデフォルトのリソースグループです。スケジューリングのピーク時にはリソースの競合が発生する可能性があります。
説明
プロジェクトの簡単な説明を入力します。説明は 128 文字を超えることはできません。
ビジネス情報
ワークスペースタイプ
プロジェクトの開発タスクと出力データの特徴を区別します。デフォルト値はアプリケーションレイヤーです。次のワークスペースタイプが利用可能です。
中間レイヤー: データを保存および処理して、一貫性のある正確でクリーンなデータを提供します。
ソースレイヤー: ビジネスシステムから統合された生データを保存し、後続の処理および開発のためのデータソースを提供します。
アプリケーションレイヤー: さまざまなビジネスシナリオに合わせて、パーソナライズされた多様なデータメトリックを定義します。
共通レイヤー: 主題領域のディメンションのサマリーデータなど、共通のサマリーデータを保存します。
セキュリティ設定
グローバルセキュリティ設定
セキュリティ設定により、データセキュリティとアクセスを詳細に制御できます。また、Spark タスクの設定と認証モードを構成して、データセキュリティを確保することもできます。詳細については、「セキュリティ設定」をご参照ください。
データ結果のダウンロード (ダウンロード承認)
Dataphin はビジネスデータのダウンロードをサポートしています。プロジェクトレベルのデータをダウンロードできるかどうかを設定できます。データがダウンロードされると、システム制御下にはなくなります。ウォーターマークを追加して、データセキュリティを促進し、不正な共有を防ぐことができます。詳細については、「データダウンロードの設定」をご参照ください。
重要ビジターロールが割り当てられていないユーザーのみが、データ結果をローカルデバイスにダウンロードできます。
データベース権限承認
データベース権限承認ポリシーを使用すると、さまざまなデータ感度レベルに対して異なる承認ルールを指定できます。これにより、承認者は機密性の高いデータに集中でき、公開データは承認から免除されるため、権限承認のワークロードが削減されます。詳細については、「データベース権限の設定」をご参照ください。
アセットセキュリティポリシー
インストール後、データセキュリティポリシーを使用して機密データを保護できます。ポリシーは、[管理] > [データセキュリティ] > [プロジェクトセキュリティポリシー] モジュールで変更できます。詳細については、「プロジェクトセキュリティポリシー」をご参照ください。
送信設定
コードレビュー
この機能はデフォルトで無効になっています。有効にする場合は、[コードレビュー担当者] も設定する必要があります。コードレビューが有効になると、このプロジェクトのコンピュートタスクのコードは、送信前にレビューされる必要があります。
デフォルトでは、[コードレビュー担当者] として [管理者] が選択されています。[カスタム] を選択して、複数のメンバーを承認対象として選択することもできます。
公開設定
公開承認
この機能を有効にする場合は、[承認設定] を設定する必要があります。このプロジェクトのオブジェクトの公開プロセスは、リリース承認を経る必要があります。
承認者の指定: いずれかの承認者が承認するとプロセスは承認され、いずれかの承認者が拒否すると停止します。[管理者] または [カスタム] を選択できます。[カスタム] を選択した場合は、1 人から 10 人の承認者を選択する必要があります。
承認テンプレートの指定: 承認は、選択した承認テンプレートに基づきます。適切なテンプレートがない場合は、[+テンプレートの追加] をクリックして [承認ワークフローテンプレート] ページに移動し、テンプレートを作成します。詳細については、「承認テンプレートの作成と管理」をご参照ください。
タスクパラメーター設定
Flink タスクのデフォルトパラメーター設定
[リアルタイムエンジン] を有効にした後、テキストボックスに Flink パラメーター設定を入力します。このプロジェクトで Flink タスクを作成すると、これらのパラメーターがデフォルトで使用されます。
パラメーターはキーと値の形式である必要があります:
key:value。例: `taskmanager.numberOfTaskSlots:1`。
その他の設定
デフォルト機能メニュー
プロジェクトの業務部門を選択すると、選択したワークスペースタイプに基づいて、システムが対応する機能メニューを選択します。必要に応じて選択を変更できます。
説明コンピュートエンジンとして Hologres を選択した場合、デフォルトの機能メニューはサポートされません。
本番環境の定期スケジューリング
説明Basic プロジェクトの場合、このパラメーターは [定期スケジューリング] という名前です。
有効化、タスクは自動的にスケジュールされます: 有効にすると、このプロジェクトの定期タスクの新しいインスタンスはタスクと同じステータスになります。履歴インスタンスは影響を受けません。
無効化、タスクは実行をスキップします: 無効にすると、このプロジェクトの定期タスクの新しいインスタンスは一時停止されます。履歴インスタンスは影響を受けません。定期スケジューリングを無効にすると、重大な結果を招く可能性があります。注意して進めてください。
説明Dev 環境では、インスタンスのステータスはデフォルトで未実行から一時停止に変わります。
[OK] をクリックしてプロジェクトを作成します。
次のステップ
プロジェクトを作成した後、データ開発モジュールに移動してデータを開発できます。詳細については、「データ開発の概要」をご参照ください。