Alibaba Cloud Data Lake Formation (DLF) は、統一されたメタデータ、データストレージ、データ管理を提供するフルマネージドプラットフォームです。DLF は、メタデータ管理、ストレージ管理、権限管理、ストレージ分析、ストレージ最適化などの機能を提供します。DataWorks の Data Integration を使用して、DLF データソースにデータを書き込むことができます。このトピックでは、DLF データソースの使用方法について説明します。
制限事項
Data Lake Formation データソースは、Data Integration でのみ、かつサーバーレスリソースグループでのみ使用できます。
データソースの作成
[データソース] ページに移動します。
DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、 を選択します。表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[管理センターへ移動] をクリックします。
SettingCenter ページの左側のナビゲーションウィンドウで、[データソース] をクリックします。
[データソースの追加] をクリックします。[Data Lake Formation] を検索して選択します。次の表の説明に従ってパラメーターを設定します:
パラメーター
説明
[データソース名]
データソースのカスタム名を入力します。ワークスペース内で一意である必要があり、文字、数字、アンダースコア (_) のみを含めることができます。数字またはアンダースコアで始めることはできません。
設定モード
サポートされているのは [Alibaba Cloud インスタンスモード] のみです。
エンドポイント
ドロップダウンリストから DLF エンジンインスタンスのエンドポイントを選択します。
[アクセスID]
次のいずれかのオプションを選択できます:
Alibaba Cloudアカウント
Alibaba Cloud RAM ユーザー
Alibaba Cloud RAM ロール
必要に応じてオプションを選択します。
説明[RAM ユーザー] または [RAM ロール] を選択した場合は、RAM ユーザーまたは RAM ロールに次の権限を付与します。
RAM コンソールで、システムポリシー AliyunDataWorksDIAccessDLF を RAM ユーザーまたは RAM ロールにアタッチして、DLF がメタデータにアクセスするための RAM 権限を付与する必要があります。詳細については、「RAM ユーザーへの権限付与」をご参照ください。
Data Lake Formation コンソールで、同期するデータテーブルに対して、ロールまたは RAM ユーザーに Data Editor 権限を付与します。
DLF Data Catalog
ご利用の DataWorks ワークスペースと同じリージョンにある DLF データカタログ を選択します。
[データベース名]
データカタログ内のデータベースを選択します。
パラメーターを設定した後、接続設定セクションでデータソースとサーバーレスリソースグループ間の接続性をテストします。接続性テストが成功した場合は、[作成の完了] をクリックしてデータソースを作成します。接続性テストが失敗した場合は、「ネットワーク接続の設定」を参照して問題をトラブルシューティングしてください。
データ統合タスクの作成
DataWorks のデータ統合タスクで Data Lake Formation データソースを使用できます。詳細については、「Data Lake Formation へのデータ同期」をご参照ください。
付録:スクリプト例とパラメーターの説明
オフラインタスクスクリプトの設定
コードエディタを使用してオフラインタスクを設定する場合、標準フォーマットでタスクスクリプトにパラメーターを追加する必要があります。詳細については、「コードエディタでのタスク設定」をご参照ください。以下のセクションでは、コードエディタ用のデータソースパラメーターについて説明します。
Reader スクリプトの例
{
"type": "job",
"version": "2.0",
"steps": [
{
"stepType": "dlf",
"parameter": {
"datasource": "guxuan_dlf",
"table": "auto_ob_3088545_0523",
"column": [
"id",
"col1",
"col2",
"col3"
],
"where": "id > 1"
},
"name": "Reader",
"category": "reader"
},
{
"stepType": "stream",
"parameter": {
"print": false
},
"name": "Writer",
"category": "writer"
}
],
"setting": {
"errorLimit": {
"record": "" // エラーレコード数。
},
"speed": {
"throttle": true, // false に設定すると、mbps パラメーターは有効にならず、レートは制限されません。true に設定すると、レートは制限されます。
"concurrent": 20, // タスクの同時実行数。
"mbps": "12" // レート制限。1 mbps = 1 MB/s。
}
},
"order": {
"hops": [
{
"from": "Reader",
"to": "Writer"
}
]
}
}Reader スクリプトのパラメーター
パラメーター | 説明 | 必須 |
datasource | DLF データソース。 | はい |
table | テーブル名。 | はい |
column | 列名。 | はい |
where | フィルター条件。 | いいえ |
Writer スクリプトの例
{
"type": "job",
"version": "2.0",
"steps": [
{
"stepType": "stream",
"parameter": {
},
"name": "Reader",
"category": "reader"
},
{
"stepType": "dlf",
"parameter": {
"datasource": "guxuan_dlf",
"column": [
"id",
"col1",
"col2",
"col3"
],
"table": "auto_ob_3088545_0523"
},
"name": "Writer",
"category": "writer"
}
],
"setting": {
"errorLimit": {
"record": "" // エラーレコード数。
},
"speed": {
"throttle": true, // false に設定すると、mbps パラメーターは有効にならず、レートは制限されません。true に設定すると、レートは制限されます。
"concurrent": 20, // タスクの同時実行数。
"mbps": "12" // レート制限。1 mbps = 1 MB/s。
}
},
"order": {
"hops": [
{
"from": "Reader",
"to": "Writer"
}
]
}
}Writer スクリプトのパラメーター
パラメーター | 説明 | 必須 | デフォルト値 |
datasource | DLF データソース。 | はい | なし |
table | テーブル名。 | はい | なし |
column | 列名。 | はい | なし |