DataWorks データマップでは、テーブルと DataService Studio API の詳細ページで詳細なリネージ情報を表示できます。この情報は、データの追跡と管理に役立ちます。このトピックでは、データマップでリネージを表示する方法について説明します。
テーブルリネージ
アクセス
テーブルを見つけて詳細ページに移動します。[リネージ] タブをクリックして、テーブルレベルとフィールドレベルのリネージ詳細を表示します。また、影響を分析したり、子孫テーブルのリストを取得したり、リストをローカルファイルとしてダウンロードしたり、変更通知をメールで送信したりすることもできます。
データマップには、スケジューリングジョブとデータ転送情報から解析されたテーブル間およびフィールド間のリネージが表示されます。一時的なクエリなどの手動操作によるリネージは含まれません。オフラインデータのリネージは T+1 ベースで更新されます。

さまざまなタイプのデータソースに関する制限
E-MapReduce
DataWorks で DataLake またはカスタムクラスターのメタデータを管理するには、まずクラスターで EMR-HOOK を構成する必要があります。EMR-HOOK が構成されていない場合、データリネージは DataWorks に表示できません。EMR-HOOK の構成方法の詳細については、「Hive 用に EMR-HOOK を構成する」をご参照ください。
EMR on ACK ページで作成された Spark クラスターのデータリネージは表示できません。ただし、EMR Serverless Spark クラスターのデータリネージは表示できます。
EMR Presto ノードを使用して開発されたタスクのデータリネージは表示できません。
AnalyticDB for MySQL
AnalyticDB for MySQL インスタンスのデータリネージ機能を有効にするには、チケットを送信する必要があります。
メタデータソースが AnalyticDB for Spark の場合、データは自動的に収集されます。
メタデータソースが AnalyticDB for Spark の場合、Spark パラメーター
spark.sql.queryExecutionListeners = com.aliyun.dataworks.meta.lineage.LineageListenerを構成してリアルタイムリネージを有効にできます。
AnalyticDB for MySQL テーブルの場合、特定の SQL コマンドはデータマップでのリネージ情報の生成をサポートしていません。制限は次のとおりです。
リネージ表示をサポートしない SQL コマンド:
サポートされていない SQL
例
joinやunionなどのキーワードを含む、またはアスタリスクワイルドカード (*) を使用する SQL 文。たとえば、次の SQL 文にはアスタリスク (
*) が含まれているため、データマップではリネージを表示できません。INSERT INTO test SELECT * FROM test1, test2 WHERE test1.id = test2.idサブクエリはサポートされていません。
たとえば、次の SQL 文にはサブクエリが含まれているため、データマップではリネージを表示できません。
SELECT column1, column2 FROM table1 WHERE column3 IN (SELECT column4 FROM table2 WHERE column5 = 'value')リネージ表示をサポートする SQL コマンドの例:
例 1: A という名前のテーブルを作成し、テーブル B から特定の列 (`*` ではない) を選択してデータを入力します。例:
CREATE TABLE test AS SELECT id,name FROM test1;例 2: 条件 `column1 = value1` を満たすテーブル A から特定の列 (`*` ではない) を選択して、テーブル B にデータを挿入します。例:
INSERT INTO test SELECT id,name FROM test1 WHERE name='test';例 3: テーブル A の特定の列 (`*` ではない) のデータでテーブル B のデータを上書きします。例:
INSERT OVERWRITE INTO db_name.test SELECT id,name FROM test1;
CDH
データマップで CDH Spark SQL および CDH Spark ノードを使用するデータ変換プロセスのテーブルリネージを表示するには、 で関連するデータ変換モジュールの Spark パラメーターを構成します。
SettingCenter ページに移動します。
DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、 を選択します。表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[管理センターへ移動] をクリックします。
左側のナビゲーションウィンドウで [クラスター管理] をクリックし、ターゲットの CDH クラスターを見つけます。
[Spark パラメーターの編集] をクリックします。

データ変換モジュールに Spark パラメーターを追加します。
たとえば、[オペレーションセンター - 定期的なインスタンス] モジュールで CDH Spark SQL および CDH Spark ノードのデータ変換プロセスのテーブルリネージを表示するには、対応するモジュールに次のパラメーターを追加します:
Spark プロパティ名:
spark.sql.queryExecutionListenersSpark プロパティ値:
com.aliyun.dataworks.meta.lineage.LineageListener
[確認] をクリックして構成を完了します。
Lindorm
リネージ情報はインスタンスモードでのみ収集できます。接続文字列モードでは収集できません。
データマップで Lindorm Spark および Lindorm Spark SQL ノードを使用するデータ変換プロセスのテーブルリネージを表示するには、 で関連するデータ変換モジュールの Spark パラメーターを構成します。
SettingCenter ページに移動します。
DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、 を選択します。表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[管理センターへ移動] をクリックします。
左側のナビゲーションウィンドウで [計算リソース] をクリックし、Lindorm 計算リソースを見つけます。
[Spark パラメーターの編集] をクリックします。
データ変換モジュールに Spark パラメーターを追加します。
たとえば、[オペレーションセンター - 定期的なインスタンス] モジュールで Lindorm Spark および Lindorm Spark SQL ノードのデータ変換プロセスのテーブルリネージを表示するには、対応するモジュールに次のパラメーターを追加します:
Spark プロパティ名:
spark.sql.queryExecutionListeners。Spark プロパティ値:
com.aliyun.dataworks.meta.lineage.LineageListener。
[確認] をクリックして Spark パラメーターの構成を完了します。
異なるデータソースのリネージ表示
データソース | データ統合 | データ開発 | ||
テーブルレベルリネージ | フィールドレベルリネージ | テーブルレベルリネージ | フィールドレベルリネージ | |
AnalyticDB for MySQL
|
|
|
|
|
AnalyticDB for PostgreSQL
|
|
|
|
|
ClickHouse
|
|
|
|
|
CDH/CDP
|
|
| Hive, Impala, Spark, Spark SQL
| Hive, Impala, Spark, Spark SQL
|
E-MapReduce
|
(OSS, Hive)
|
(OSS, Hive)
| Hive, Spark (spark-submit), Spark SQL (Hudi フォーマットをサポート), Shell (beeline を使用して送信された Hive SQL)
| Hive, Spark (spark-submit), Spark SQL (Hudi フォーマットをサポート), Shell (beeline を使用して送信された Hive SQL)
|
Hologres
|
|
|
|
|
Kafka
|
(Kafka から MaxCompute または Hologres へのデータ同期) |
|
|
|
Lindorm
|
|
|
|
|
MaxCompute
|
|
|
|
|
MySQL
|
(MySQL から MaxCompute または Hologres へのデータ同期) |
|
|
|
Oracle
|
|
|
|
|
OceanBase
|
|
|
|
|
OSS
|
|
|
|
|
PolarDB for MySQL
|
|
|
|
|
PolarDB for PostgreSQL
|
|
|
|
|
PostgreSQL
|
|
|
|
|
StarRocks
|
|
|
|
|
SQL Server
|
|
|
|
|
Tablestore (OTS)
|
|
|
|
|
DataService Studio API リネージ
DataService Studio API を見つけて詳細ページに移動します。[リネージ] タブをクリックして、API のリネージ詳細を表示します。

プロダクトページ
リアルタイム同期