DataWorks のデータベースまたはデータウェアハウス内のデータに対して操作を実行するには、DataWorks コンソールの管理センターのデータソースページで、データベースまたはウェアハウスをデータソースとして DataWorks に追加し、データソースを使用する DataWorks サービスにデータソースを関連付ける必要があります。たとえば、MaxCompute プロジェクトからデータを同期するには、MaxCompute プロジェクトをデータソースとして DataWorks に追加する必要があります。その後、Data Integration で同期タスクを構成するときに、データソースを選択し、同期タスクのソースまたはデスティネーションとしてデータソースを使用できます。
背景情報
2023 年 10 月 20 日から、MaxCompute、Hologres、AnalyticDB for PostgreSQL、AnalyticDB for MySQL、ClickHouse コンピュートエンジンはデータソースとして段階的に管理され、E-MapReduce(EMR)と Cloudera's Distribution including Apache Hadoop(CDH)または Cloudera Data Platform(CDP)コンピューティングエンジンはオープンソースクラスターとして段階的に管理されます。これにより、ユーザーエクスペリエンスが向上します。変更後、コンピューティングエンジンの作成や変更など、コンピューティングエンジンに関連する操作は、DataWorks コンソールのデータソースページまたはオープンソースクラスターページで実行する必要があります。詳細については、「DataWorks データソースの新バージョンの通知」をご参照ください。
権限管理
O&M または ワークスペース管理者ロールが割り当てられたワークスペースメンバーと、AliyunDataWorksFullAccess または AdministratorAccess ポリシーがアタッチされた RAM ユーザーのみがデータソースを追加できます。承認の詳細については、「ワークスペースレベルのサービスの権限を管理する」および「RAM ユーザーに権限を付与する」をご参照ください。
上記の権限に加えて、特定の種類のデータソースを追加するには、他の権限も必要になる場合があります。 DataWorks コンソールに表示される手順に基づいて承認を実行できます。
データソースの分離
標準モードのワークスペースは、データソースの分離機能をサポートしています。開発環境と本番環境で個別にデータソースを追加できます。このようにして、テストに使用されるデータソースと本番環境でのタスクスケジューリングに使用されるデータソースが分離されます。これにより、本番環境でのデータセキュリティを確保できます。詳細については、「付録:データソースの環境」をご参照ください。
開発環境のデータソース:同期タスクを作成するときに、このようなデータソースを選択できます。その後、開発環境で同期タスクを実行できます。同期タスクを本番環境にコミットしたり、本番環境で同期タスクを実行したりすることはできません。
本番環境のデータソース:このようなデータソースは本番環境でのみ使用できます。同期タスクを構成するときに、このようなデータソースを選択することはできません。
サポートされているデータソースの種類
DataWorks でサポートされているデータソースの種類については、「サポートされているデータソースの種類と同期操作」をご参照ください。タスクのスケジューリングには、主に次の種類のデータソースが使用されます:MaxCompute、Hologres、AnalyticDB for PostgreSQL、AnalyticDB for MySQL V3.0、ClickHouse、EMR、CDH/CDP。
CDH/CDP および EMR クラスターについては、次の点に注意してください。
DataWorks でクラスターの Hive などのコンポーネントを使用する場合は、データソースページでコンポーネントをデータソースとして DataWorks に追加できます。 EMR では、EMR on ACK ページで作成されたクラスターのみに Hive コンポーネントが含まれています。
DataWorks でクラスターに基づいてタスクをスケジュールするには、クラスターを DataWorks に登録する必要があります。詳細については、「EMR クラスターを DataWorks に登録する」または「準備:CDH または CDP クラスターに関する構成情報を取得し、ネットワーク接続を構成する」をご参照ください。
DataWorks の異なるモジュールで使用できるデータソースはさまざまです。
データソースを追加する
SettingCenter ページに移動します。
DataWorks コンソール にログオンします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、 を選択します。表示されるページで、ドロップダウンリストから目的のワークスペースを選択し、[管理センターに移動] をクリックします。
表示されるページの左側のナビゲーションウィンドウで、
を選択します。[データソース] ページが表示されます。データソースページで、ビジネス要件に基づいて [データソースを追加] または [データソースを一括追加] をクリックします。
説明DataWorks でサポートされているデータソースの種類については、このトピックの「サポートされているデータソースの種類」セクションをご参照ください。
データソースを追加する
[データソースを追加] をクリックします。 [データソースを追加] ダイアログボックスで、目的のデータソースの種類をクリックします。表示されるページで、選択した種類のデータソースを追加するためのパラメーターを構成します。さまざまな種類のデータソースを追加するときに構成する必要があるパラメーターはさまざまです。関連データソースの構成ページで各パラメーターのヒントを表示できます。
オプション。リソースグループの接続性をテストします。
[データソースを追加] ダイアログボックスの [接続構成] セクションで、ワークスペースに関連付けられているリソースグループを見つけ、[接続ステータス] 列の [ネットワーク接続をテスト] をクリックします。
説明リソースグループによって、プロパティと特性が異なります。詳細については、「概要」をご参照ください。
[接続ステータス] 列に [接続済み] と表示されている場合は、[作成完了] をクリックします。
[接続ステータス] 列に [接続に失敗しました] と表示されている場合、リソースグループをデータソースに接続できません。この場合、データソースを使用するタスクを実行できません。
説明接続の問題をトラブルシューティングするには、次の操作を実行できます。
[ネットワーク接続診断ツール] パネルで [セルフサービストラブルシューティング] をクリックして、接続の問題をトラブルシューティングします。
接続診断ツールで解決策が提供されない場合は、アカウント、パスワード、接続アドレスなど、構成したパラメーターを確認し、リソースグループの IP アドレスがデータソースの IP アドレスホワイトリストに追加されていることを確認します。詳細については、「参照ネットワーク接続」をご参照ください。
デフォルトでは、サーバーレスリソースグループはインターネットにアクセスできません。サーバーレスリソースグループを使用してインターネット経由でデータソースにアクセスする場合は、リソースグループが関連付けられている VPC に NAT ゲートウェイ を構成する必要があります。このようにして、リソースグループは NAT ゲートウェイに関連付けられた EIP を使用して、インターネット経由でデータソースにアクセスできます。
複数のデータソースを一度に追加する
[データソースを一括追加] をクリックし、次の操作を実行します。一度に複数の MySQL、PolarDB、SQL Server、または Oracle データソースのみを追加できます。
[データソースを一括追加] ダイアログボックスで、目的のデータソースの種類を選択し、そのデータソースの種類の構成テンプレートをダウンロードします。
テンプレートで構成する必要がある情報は、[データソースの種類] パラメーターの値によって異なります。 [データソースの種類] パラメーターは、[接続モード] または [インスタンスモード] に設定できます。 DataWorks コンソールで構成する必要がある情報を表示できます。
テンプレートでデータソース情報を構成します。
データソース情報が構成されたら、テンプレートをアップロードします。その後、システムはテンプレートの情報に基づいて、データソースを一度に DataWorks に追加します。
システムがデータソースを追加するときに、[データソースを一括追加] ダイアログボックスで進捗状況と詳細を表示できます。特定のデータソースを追加できない場合は、エラーメッセージに基づいて問題のトラブルシューティングを行うことができます。
DataWorks では、[接続文字列モード] または [alibaba Cloud インスタンスモード] でデータソースを追加できます。ビジネス要件に基づいてモードを選択できます。構成する必要があるパラメーターは、選択したモードによって異なります。
[接続文字列モード] でデータソースを追加すると、DataWorks はデータソースの [JDBC URL] を解析します。 [JDBC URL] に DataWorks でサポートされていないパラメーターが含まれている場合、DataWorks はパラメーターを自動的に削除します。サポートされていないパラメーターを [JDBC URL] に保持する場合は、チケットを送信 して技術担当者にお問い合わせください。
同じデータソース名を使用して、開発環境と本番環境で異なるデータソース情報を構成できます。異なる環境でのデータソース構成は互いに独立しています。
データソースを管理する
データソースページで、[データソースの種類] と [データソース名] を構成して、管理するデータソースを検索できます。データソースページでは、データソースに対して次の操作を実行することもできます。
[データソースを変更]:ビジネス要件に基づいて、データソースの構成情報を変更できます。データソースの名前または環境を変更することはできません。
[データソースを削除]:不要になったデータソースを削除できます。次の表に、異なる環境でデータソースを削除した場合に発生する影響を示します。
説明ワークスペース A のメンバーにワークスペース B のデータソースを使用する権限を付与し、データソースを削除すると、ワークスペース全体でデータソースを使用するタスクは失敗します。
データソースを削除するときに
データソースはすでにコンピューティングエンジン xxxx としてバインドされています。バインドを解除してからもう一度お試しください!
というメッセージが表示された場合、データソースは DataStudio にコンピューティングリソースとして関連付けられています。データソースを削除する前に、DataStudio からデータソースの関連付けを解除する必要があります。データソースの関連付けを解除するには、次の操作を実行できます。SettingCenter ページの左側のナビゲーションウィンドウで、[コンピューティングリソース] をクリックします。表示されるページで、削除するコンピューティングリソースを見つけ、[関連付けを解除] をクリックします。
[data Integration] へのデータソース削除の影響
削除するデータソースの環境
操作と影響
データソースを削除する前に適用できるソリューション
開発環境と本番環境
本番環境で同期タスクによってデータソースが使用されているかどうかを確認する必要があります。削除操作は元に戻せません。データソース用に構成された同期タスクが本番環境で使用されており、データソースを削除すると、次の問題が発生します。
本番環境の同期タスクを想定どおりに実行できません。同期タスクを削除した後にのみ、データソースを削除することをお勧めします。
開発環境で同期タスクを構成するときに、データソースを使用できません。
DataStudio ページの バッチ操作 - データ開発 タブに移動し、同期タスクで使用されるデータソースを一度に変更してから、同期タスクをコミットしてデプロイします。
開発環境
本番環境で同期タスクによってデータソースが使用されているかどうかを確認する必要があります。削除操作は元に戻せません。データソース用に構成された同期タスクが本番環境で使用されており、データソースを削除すると、次の問題が発生します。
本番環境の同期タスクは想定どおりに実行できます。ただし、同期タスクを変更するときにメタデータ情報を取得することはできません。
開発環境で同期タスクを構成するときに、データソースを使用できません。
本番環境
本番環境で同期タスクによってデータソースが使用されているかどうかを確認する必要があります。データソース用に構成された同期タスクが本番環境で使用されており、データソースを削除すると、次の問題が発生します。
本番環境の同期タスクを想定どおりに実行できません。同期タスクを削除した後にのみ、データソースを削除することをお勧めします。
開発環境でデータソースの同期タスクを構成した場合、同期タスクを本番環境にコミットまたはデプロイすることはできません。
他のモジュールへのデータソース削除の影響
モジュール
削除操作のリスクレベル
影響
影響を受けるオブジェクト
データソースを削除する前に適用できるソリューション
[オペレーションセンター]
高
関連タスクの実行に失敗します。
DataStudio ページの バッチ操作 - データ開発 タブに移動し、同期タスクで使用されるデータソースを一度に変更してから、同期タスクをコミットしてデプロイします。
[dataservice Studio]
高
関連タスクは DataService Studio API を呼び出すことができません。
DataService Studio API のデータソースを変更します。
[データ分析]
中
関連クエリタスクの実行に失敗します。
データ分析 で実行されるクエリタスク。
SQL クエリのデータソースを変更します。
[データ品質]
中
関連タスクのチェック中にエラーが発生します。
データ品質監視ルールが構成されているタスク。詳細については、「モニターの詳細を表示する」をご参照ください。
オペレーションセンターに移動し、タスクからデータ品質監視ルールの関連付けを解除します。詳細については、「自動トリガータスクを表示および管理する」をご参照ください。
[データソースの複製]:複製機能を使用して、構成情報が既存のデータソースと同じ新しいデータソースをすばやく生成できます。
説明新しいデータソースの名前は、既存のデータソースの名前と異なっている必要があります。
[権限管理]:[権限管理] 機能を使用して、現在のワークスペースのデータソースに対する権限を別のワークスペースのメンバーに付与できます。権限がメンバーに付与されると、メンバーはデータソースを表示および使用できますが、データソースを変更することはできません。詳細については、「データソースの権限を管理する」をご参照ください。
説明ワークスペースにデータソースに対する権限を付与すると、ワークスペース内のすべてのメンバーがデータソースを表示および使用できます。
付録:データソースの環境
標準モードのワークスペースでは、同じデータソースに、開発環境と本番環境で 2 つの異なる構成セットがあります。構成は、基盤となるレイヤーの 2 つのデータベースまたはデータウェアハウスに対応しています。異なる環境に対して異なるデータソース情報を構成できます。このようにして、テストに使用されるデータソースと本番環境でのタスクスケジューリングに使用されるデータソースを分離し、本番環境でのデータセキュリティを確保できます。たとえば、データソースを追加するときに開発環境と本番環境に異なるデータベースを指定すると、データソースを使用するバッチ同期タスクは、タスクを実行するときに異なるデータベースにアクセスします。このようにして、開発環境のデータと本番環境のデータが分離されます。
基本モードのワークスペースは 1 つの環境のみを提供し、データを分離することはできません。ワークスペースモードの詳細については、「基本モードのワークスペースと標準モードのワークスペースの違い」をご参照ください。
ワークスペースを基本モードから標準モードにアップグレードすると、元のデータソースは開発環境用と本番環境用の 2 つに分割されます。詳細については、「シナリオ:ワークスペースを基本モードから標準モードにアップグレードする」をご参照ください。
標準モードのワークスペースでは、タスクは異なる環境で実行されるときに異なるデータソースにアクセスします。
タスクが開発環境の DataStudio およびオペレーションセンターで実行されると、タスクはデフォルトで開発環境のデータソースにアクセスします。
タスクが本番環境のオペレーションセンターで実行されると、タスクはデフォルトで本番環境のデータソースにアクセスします。
データソースを追加するときは、開発環境または本番環境のデータソースが対応するデータベースまたはデータウェアハウスがビジネス要件を満たしているかどうかを確認する必要があります。開発環境のデータソースの構成と本番環境のデータソースの構成が異なる場合(データベースのユーザー名とパスワードが異なるなど)、次の問題が発生する可能性があります。
関連タスクは DataStudio で正常に実行されますが、本番環境でスケジュールできません。
関連タスクが DataStudio で実行されるときに生成されるデータ量と、タスクが本番環境で実行されるようにスケジュールされるときに生成されるデータ量が異なります。
問題のトラブルシューティングを行うには、タスクの開発環境と本番環境で生成された操作ログを比較できます。
開発環境のデータソースの構成と本番環境のデータソースの構成が異なる場合は、リソースグループが開発環境のデータソースと本番環境のデータソースに個別に接続できることを確認する必要があります。