Dataphin 汎用プロジェクトの作成方法 - Dataphin - Alibaba Cloud ドキュメントセンター

Dataphin では、プロジェクトは基本的な組織単位であり、マルチユーザー分離とアクセス制御の主な境界です。Dataphin サービスを有効化した後、その機能を使用するにはプロジェクトを作成する必要があります。このトピックでは、プロジェクトの作成方法を説明します。

前提条件

開始する前に、次の要件を満たしていることを確認してください。

ストリームとバッチの統合タスクを開発する場合、まずこの機能をサポートするコンピューティングソースを作成する必要があります。詳細については、次をご参照ください。
Dataphin のコンピューティングエンジンとして MaxCompute を選択し、データ開発で標準化モデリング、アドホッククエリ、MaxCompute SQL コンピューティングタスクなどの機能を使用する場合は、プロジェクトワークスペースを作成する前に MaxCompute コンピューティングソースを作成する必要があります。詳細については、「MaxCompute コンピューティングソースの作成」をご参照ください。
さらに、コンピューティングエンジンが MaxCompute の場合、Hologres コンピューティングソースを作成できます。Hologres コンピューティングソースをプロジェクトにバインドすると、アドホッククエリや HOLOGRES_SQL コンピューティングタスクなどの機能を使用できます。詳細については、「Hologres コンピューティングソースの作成」をご参照ください。
Dataphin のコンピューティングエンジンとして Hadoop を使用し、データ開発で標準化モデリング、アドホッククエリ、Hive SQL コンピューティングタスクなどの機能を使用する場合は、プロジェクトを作成する前に Hadoop コンピューティングソースを作成する必要があります。詳細については、「Hadoop コンピューティングソースの作成」をご参照ください。
Dataphin のコンピューティングエンジンとして Transwarp Data Hub (TDH) を使用し、データ開発で標準化モデリング、アドホッククエリ、INCEPTOR_SQL コンピューティングタスクなどの機能を使用する場合は、プロジェクトを作成する前に TDH Inceptor コンピューティングソースを作成する必要があります。詳細については、「TDH Inceptor コンピューティングソースの作成」をご参照ください。
Dataphin のコンピューティングエンジンとして ArgoDB を使用し、データ開発でアドホッククエリや ARGODB_SQL コンピューティングタスクなどの機能を使用する場合は、プロジェクトを作成する前に ArgoDB コンピューティングソースを作成する必要があります。詳細については、「ArgoDB コンピューティングソースの作成」をご参照ください。
Dataphin のコンピューティングエンジンとして StarRocks を使用し、データ開発でアドホッククエリや STARROCKS_SQL コンピューティングタスクなどの機能を使用する場合は、プロジェクトを作成する前に StarRocks コンピューティングソースを作成する必要があります。詳細については、「StarRocks コンピューティングソースの作成」をご参照ください。
Dataphin のコンピューティングエンジンとして Amazon EMR を使用し、データ開発でアドホッククエリやコンピューティングタスクなどの機能を使用する場合は、プロジェクトを作成する前に Amazon EMR コンピューティングソースを作成する必要があります。詳細については、「Amazon EMR コンピューティングソースの作成」をご参照ください。
Dataphin のコンピューティングエンジンとして SelectDB/Doris を使用し、データ開発でアドホッククエリや SELECTDB_SQL/DORIS_SQL コンピューティングタスクなどの機能を使用する場合は、プロジェクトを作成する前に SelectDB/Doris コンピューティングソースを作成する必要があります。詳細については、「SelectDB または Doris コンピューティングソースの作成」をご参照ください。

背景情報

Dataphin は、次の 2 つの開発モードのプロジェクトをサポートしています。

開発-本番モード： プロジェクトを作成すると、デフォルトで開発環境 (Dev プロジェクト) と本番環境 (Prod プロジェクト) が生成されます。Prod プロジェクトは、本番環境のデータのセキュリティを確保します。このモードは、ガバナンス要件が厳しく、役割が明確に定義されたデータ開発者が多数おり、コンピューティングとストレージの予算が比較的多い場合に推奨されます。
ベーシックモード： プロジェクトを作成すると、システムによってベーシックプロジェクトが生成されます。これは、統一された開発および本番環境として機能します。ベーシックモードは、データ本番プロセスを合理化します。このモードは、開発効率を優先し、開発者の役割が柔軟で責任範囲が重複しており、コンピューティングとストレージの予算が限られている場合に推奨されます。

権限

スーパー管理者、システム管理者、セクターアーキテクトは、プロジェクトを作成できます。
スーパー管理者、システム管理者、セクターアーキテクトは、データテーブルの読み取りおよび書き込みの権限リクエストを有効化または無効化できます。

操作手順

Dataphin ホームページの上部メニューで、[Planning] > [Projects] を選択します。
[Project Management] ページで [Create General-purpose Project] をクリックして、[Create Project] ダイアログボックスを開きます。
[Create Project] ダイアログボックスで、[Dev-Prod mode] または [Basic mode] を選択して、[Next] をクリックします。
重要
プロジェクトをベーシックモードから開発-本番モードにアップグレードすることはできません。また、ベーシックモードには本番環境を直接変更してしまうリスクがあります。モードは慎重に選択してください。
ベーシックモードを選択した場合は、データ本番の安定性を維持するために、プロジェクトメンバーを慎重に管理してください。

[Create Project] ダイアログボックスで、パラメーターを設定します。

[Dev-Prod mode] と [Basic mode] のパラメーターは同じです。次の例では、[Dev-Prod mode] を使用します。

パラメーター		説明
[所属セクター]	[データセクター]	プロジェクトが所属するデータセクターを選択します。
[基本情報]	[共通英語名]	プロジェクトの共通英語名を入力します。名前は次のルールに従う必要があります。英字、数字、アンダースコア (_) を含めることができます。 LD_ で開始することはできません。 64 文字を超えることはできません。開発環境プロジェクトの英語名は、デフォルトで _dev で終わります。説明コンピューティングエンジンが MaxCompute の場合、プロジェクトの共通英語名は、対応する MaxCompute プロジェクトの名前と一致させる必要があります。
	[共通名]	プロジェクトの共通名を入力します。名前は次のルールに従う必要があります。漢字、数字、英字、アンダースコア (_)、ハイフン (-) を含めることができます。 LD_ で開始することはできません。 64 文字を超えることはできません。
	[コンピューティングソースタイプ]	コンピューティングソースタイプを選択して、対応するコンピューティングソースを選択します。重要すでにプロジェクトにバインドされているコンピューティングソースを、別のプロジェクトにバインドすることはできません。 Dev プロジェクトと Prod プロジェクトは、同じコンピューティングソースを使用する必要があります。 Dataphin のコンピューティングエンジンが MaxCompute として初期化されている場合は、オフラインエンジンとして [MaxCompute] または [Hologres] を選択できます。MaxCompute を選択した場合、[機械学習] PAI を有効にすることもできます。 Dataphin は Platform for AI (PAI) と統合し、基本的なアルゴリズムスケジューリング機能を提供します。PAI でビジュアルモデリングワークスペースを作成する際は、MaxCompute ベースのコンピューティングリソースグループを選択します。詳細については、Platform for AI (PAI) の「AI コンピューティングリソースグループの概要」をご参照ください。PAI を有効にする場合は、次のパラメーターを設定する必要があります。 PAI リージョン：Dataphin インスタンスと同じリージョンを選択します。アクセス方法：PAI のアクセス方法を選択します。[VPC] または [パブリックネットワーク] アクセスを選択できます。 AccessKey ID、AccessKey Secret：PAI へのアクセスに使用するアカウントの AccessKey ID と AccessKey Secret を入力します。 PAI プロジェクト名：PAI プロジェクトを選択します。現在の Dataphin プロジェクトにバインドされている MaxCompute プロジェクトは、PAI にバインドされている MaxCompute プロジェクトと同一である必要があります。オフラインエンジンとして StarRocks を選択した場合、エンジンが [External catalog] 配下のデータベースを使用している場合、標準化モデリング、データ統合の書き込み、アドホッククエリの全結果のダウンロードなどの機能はサポートされません。
	[デフォルトのプロジェクトリソースグループ]	このプロジェクトで作成されたタスクは、スケジューリングの際に、ここで設定されたデフォルトのリソースグループを使用します。この設定は、プロジェクトでオフラインコンピューティングエンジンが有効になっている場合にのみ利用可能です。タスク設定時に、個々のタスクのリソースグループをカスタマイズすることもできます。状態が [Normal] で、[daily task scheduling] に使用され、かつ [associated with the current project] であるリソースグループのみを選択できます。ここでデフォルトのリソースグループを変更すると、スケジューリングリソースグループが [Default Project Resource Group] に設定されているタスクは、自動的に新しいリソースグループを使用します。リソースグループを自動的に更新したくない場合は、タスクに特定のカスタムリソースグループを割り当ててください。詳細については、「タスクのコンピューティングリソースの設定」をご参照ください。説明この機能は、テナントでカスタムリソースグループが有効になっている場合にのみ利用可能です。詳細については、「リソースグループの概要」をご参照ください。テナントのパブリックスケジューリングリソースグループ (テナントのデフォルトリソースグループ) が使用されます。スケジューリングのピーク時には、リソースの競合が発生する可能性があります。
	[説明]	プロジェクトの簡単な説明を入力します。説明は 128 文字までです。
[ビジネス情報]	[ワークスペースタイプ]	この設定は、プロジェクトの開発タスクとデータ出力の特性を指定します。デフォルトはアプリケーション層です。利用可能なタイプは次のとおりです。中間層：通常、一貫性があり、正確で、クリーンなデータを提供するために、データの保存と処理に使用されます。ソース層：通常、ビジネスシステムから統合された生データを保存するために使用され、その後の処理と開発のソースとして機能します。アプリケーション層：ビジネスニーズに合わせて、この層はさまざまなユースケースのために多様でカスタマイズされたデータメトリクスを定義し、生成します。共通層：通常、データドメイン内の特定のディメンションの集計データなど、共通の集計データを保存するために使用されます。
[セキュリティ設定]	[グローバルセキュリティ設定]	セキュリティ設定により、データセキュリティとアクセスに対するきめ細かい制御を適用したり、データを保護するために Spark タスクのスイッチと認証モードを設定したりできます。詳細については、「セキュリティ設定」をご参照ください。
	[データ結果のダウンロード] (ダウンロード承認)	Dataphin はビジネスデータのダウンロードをサポートしています。プロジェクトレベルでデータをダウンロードできるかどうかを設定できます。一度ダウンロードされると、データはシステム管理下から外れます。データセキュリティを強化し、不正な共有を防ぐためにウォーターマークを追加できます。詳細については、「データダウンロードの設定」をご参照ください。重要ビジター以外のロールを持つユーザーのみが、データ結果をローカルマシンにダウンロードできます。
	[データ権限承認]	データ権限承認ポリシーを使用すると、異なるデータ機密レベルに対して異なる承認ルールを設定できます。これにより、承認者は機密性の高いデータに集中し、公開データの承認プロセスを省略することで、権限管理の負担を軽減できます。詳細については、「データ権限の設定」をご参照ください。
	[資産セキュリティポリシー]	インストール後、データセキュリティポリシーを使用して機密データを保護できます。これらの設定は、[Governance] > [Data Security] > [Project Security Policy] モジュールで変更できます。詳細については、「プロジェクトセキュリティポリシー」をご参照ください。
[コミット設定]	[コードレビュー]	デフォルトでは無効です。有効にする場合は、[コードレビュアー]も設定する必要があります。コードレビューが有効になっている場合、このプロジェクトのコンピューティングタスクは、コミットする前にレビューを受ける必要があります。 [コードレビュアー] はデフォルトで [プロジェクト管理者] に設定されていますが、[Customize] を選択して、承認のために複数のメンバーを含めることもできます。
[公開設定]	[公開承認]	有効にする場合は、[Approval settings] を設定する必要があります。これにより、このプロジェクトのオブジェクトの公開プロセスで承認が必要になります。 [承認者を指定]：いずれかの承認者が承認するとリクエストは承認され、1 人でも拒否するとリクエストは拒否されます。[プロジェクト管理者] または [Custom] を選択できます。[Custom] を選択した場合は、1〜10 人の承認者を選択する必要があります。 [承認テンプレートを指定]：選択した承認テンプレートに従って承認が処理されます。適切なテンプレートがない場合は、[+ New Template] をクリックして [Approval Templates] ページに移動し、新しいテンプレートを作成します。詳細については、「承認テンプレートの作成と管理」をご参照ください。
[タスクパラメーター設定]	[デフォルトのFlinkタスクパラメーター設定]	[リアルタイムエンジン]を有効にした後、テキストボックスに Flink 関連のパラメーター設定を入力できます。このプロジェクトで Flink タスクを作成すると、これらのパラメーターがデフォルトで適用されます。パラメーターは `key:value` の形式で指定する必要があります。例：`taskmanager.numberOfTaskSlots:1`。
[その他の設定]	[デフォルトの機能メニュー]	プロジェクトのデータセクターを選択すると、選択したワークスペースタイプに基づいて、対応する機能メニューがデフォルトで選択されます。ビジネスニーズに応じて選択を変更できます。説明 Hologres コンピューティングエンジンを選択した場合、デフォルトの機能メニューはサポートされません。
[その他の設定]	[本番環境の定期スケジューリング] 説明ベーシックプロジェクトの場合、これは [定期スケジューリング]と表示されます。	[有効：自動タスクスケジューリング]：有効にすると、このプロジェクトの定期タスクによって生成される新しいインスタンスの状態がタスクの状態と一致します。過去のインスタンスは影響を受けません。 [無効：タスクスケジューリングの一時停止]：無効にすると、このプロジェクトの定期タスクによって生成される新しいインスタンスは一時停止状態に設定されます。過去のインスタンスは影響を受けません。定期スケジューリングを無効にすると、深刻な結果を招く可能性があります。慎重に操作してください。説明開発環境では、インスタンスの状態はデフォルトで [Not Running] から [Paused] に変更されます。

[OK] をクリックしてプロジェクトを作成します。

シングルテナント・マルチエンジン

マルチエンジン設定では、共通英語名、共通名、セキュリティ設定、コミット設定、公開設定、タスクパラメーター設定、その他の設定は、上記で説明したシングルエンジン設定と同じです。さらに、[Engine Settings] と [Sector Workspace] を設定する必要があります。

パラメーター		説明
[エンジン設定]	[オフラインコンピューティング]	オフラインコンピューティングを有効または無効にします。有効にした場合は、[オフラインエンジンタイプ]と [オフラインコンピューティングソース]を選択する必要があります。無効にした場合、このプロジェクトはオフラインコンピューティングタスクをサポートしません。 [オフラインエンジンタイプ]：作成したオフラインコンピューティングソースに対応するクラスタータイプを選択します。プロジェクト編集時にオフラインエンジンタイプを変更することはできません。 [オフラインコンピューティングソース]：選択したオフラインエンジンタイプに一致するオフラインコンピューティングソースを選択します。
	[リアルタイムコンピューティング]	リアルタイムコンピューティングを有効または無効にします。有効にした場合は、リアルタイムコンピューティングエンジンを選択する必要があります。オプションには、作成したリアルタイムコンピューティングソースのクラスタータイプが含まれます。無効にした場合、このプロジェクトはリアルタイムコンピューティングタスクをサポートしません。プロジェクト編集時にリアルタイムエンジンタイプを変更することはできません。 FlinkまたはFusionInsight Flinkを選択：ストリーム処理コンピューティングソースも選択する必要があります。 Ververica Flinkを選択：[Allow batch jobs to select other compute sources] を選択できます。デフォルトでは、ストリームとバッチの統合タスクは同じコンピューティングソースを使用します。このオプションを有効にすると、ストリームタスクとバッチタスクに異なるコンピューティングソースを設定できます。
	[機械学習]	オフラインエンジンタイプとして MaxCompute を選択した場合、[機械学習]を有効または無効にできます。機械学習を有効にした場合、[PAI] がデフォルトで選択され、次のパラメーターを設定する必要があります。 [PAI リージョン]：Dataphin インスタンスと同じリージョンを選択します。 [アクセス方法]：PAI のアクセス方法を選択します。[VPC ネットワーク]または [パブリックネットワーク] アクセスを選択できます。 [AccessKey ID]、[AccessKey Secret]：PAI へのアクセスに使用するアカウントの AccessKey ID と AccessKey Secret を入力します。 [PAI プロジェクト名]：PAI プロジェクトを選択します。現在の Dataphin プロジェクトにバインドされている MaxCompute プロジェクトは、PAI にバインドされている MaxCompute プロジェクトと同一である必要があります。
	[デフォルトのプロジェクトリソースグループ]	このプロジェクトで作成されたタスクは、スケジューリングの際に、ここで設定されたデフォルトのリソースグループを使用します。この設定は、プロジェクトでオフラインコンピューティングエンジンが有効になっている場合にのみ利用可能です。タスク設定時に、個々のタスクのリソースグループをカスタマイズすることもできます。状態が [Normal] で、[daily task scheduling] に使用され、かつ [associated with the current project] であるリソースグループのみを選択できます。ここでデフォルトのリソースグループを変更すると、スケジューリングリソースグループが [Default Project Resource Group] に設定されているタスクは、自動的に新しいリソースグループを使用します。リソースグループを自動的に更新したくない場合は、タスクに特定のカスタムリソースグループを割り当ててください。詳細については、「タスクのコンピューティングリソースの設定」をご参照ください。説明この機能は、テナントでカスタムリソースグループが有効になっている場合にのみ利用可能です。詳細については、「リソースグループの概要」をご参照ください。テナントのパブリックスケジューリングリソースグループ (テナントのデフォルトリソースグループ) が使用されます。スケジューリングのピーク時には、リソースの競合が発生する可能性があります。
	[説明]	プロジェクトの簡単な説明を入力します。説明は 128 文字までです。
[セクターワークスペース]	[データセクター]	プロジェクトが所属するデータセクターを選択します。
[セクターワークスペース]	[ワークスペースタイプ]	プロジェクトの開発タスクとデータ出力の特性を指定します。デフォルトはアプリケーション層です。利用可能なタイプは次のとおりです。中間層：通常、一貫性があり、正確で、クリーンなデータを提供するために、データの保存と処理に使用されます。ソース層：通常、ビジネスシステムから統合された生データを保存するために使用され、その後の処理と開発のソースとして機能します。アプリケーション層：ビジネスニーズに合わせて、この層はさまざまなユースケースのために多様でカスタマイズされたデータメトリクスを定義し、生成します。共通層：通常、データドメイン内の特定のディメンションの集計データなど、共通の集計データを保存するために使用されます。

次のステップ

プロジェクトを作成したら、データ開発モジュールに移動してデータ開発を開始できます。詳細については、「データ開発の概要」をご参照ください。