Alibaba Cloud Data Lake Formation (DLF) は、統一されたメタデータ、データストレージ、データ管理を提供するフルマネージドプラットフォームです。DLF は、メタデータ管理、ストレージ管理、権限管理、ストレージ分析、ストレージ最適化などの機能を提供します。DataWorks データ統合を使用して、DLF データソースにデータを書き込むことができます。このトピックでは、DLF データソースの使用方法について説明します。
制限事項
Data Lake Formation データソースは、データ統合でのみ、かつサーバーレスリソースグループでのみ使用できます。
データソースの作成
データソースページに移動します。
DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、 を選択します。表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[管理センターへ] をクリックします。
設定センターページの左側のナビゲーションウィンドウで、[データソース] をクリックします。
[データソースの追加] をクリックします。[Data Lake Formation] を検索して選択します。次の表の説明に従ってパラメーターを設定します。
パラメーター
説明
データソース名
データソースのカスタム名を入力します。名前はワークスペース内で一意である必要があります。名前には、文字、数字、アンダースコア (_) のみを含めることができます。数字またはアンダースコアで始めることはできません。
設定モード
[Alibaba Cloud インスタンスモード] のみがサポートされています。
エンドポイント
ドロップダウンリストから DLF DPI エンジンインスタンスのエンドポイントを選択します。
アクセスID
次のいずれかのオプションを選択できます。
Alibaba Cloud アカウント
RAM ユーザー
RAM ロール
必要に応じてオプションを選択します。
説明RAM ユーザーまたは RAM ロールを選択した場合は、RAM ユーザーまたは RAM ロールに次の権限を付与します。
REST API に必要なすべてのアクションを含む RAM アクセスポリシーをロールまたは RAM ユーザーに付与します。
Data Lake Formation コンソールで、同期するデータテーブルに対する Data Editor 権限をロールまたは RAM ユーザーに付与します。
DLF データカタログ
DataWorks ワークスペースと同じリージョンにある DLF データカタログ を選択します。
データベース名
データカタログ内のデータベースを選択します。
パラメーターを設定した後、接続設定セクションでデータソースとサーバーレスリソースグループ間の接続性をテストします。接続性テストが成功した場合は、[編集を終了] をクリックしてデータソースを作成します。接続性テストが失敗した場合は、「ネットワーク接続の設定」をご参照ください。
データ統合タスクの作成
DataWorks データ統合タスクで Data Lake Formation データソースを使用できます。詳細については、「Data Lake Formation へのデータの同期」をご参照ください。
付録: スクリプトの例とパラメーターの説明
オフラインタスクスクリプトの設定
コードエディタを使用してオフラインタスクを設定する場合、標準フォーマットでタスクスクリプトにパラメーターを追加する必要があります。詳細については、「コードエディタでのタスクの設定」をご参照ください。以下のセクションでは、コードエディタ用のデータソースパラメーターについて説明します。
Reader スクリプトの例
{
"type": "job",
"version": "2.0",
"steps": [
{
"stepType": "dlf",
"parameter": {
"datasource": "guxuan_dlf",
"table": "auto_ob_3088545_0523",
"column": [
"id",
"col1",
"col2",
"col3"
],
"where": "id > 1"
},
"name": "Reader",
"category": "reader"
},
{
"stepType": "stream",
"parameter": {
"print": false
},
"name": "Writer",
"category": "writer"
}
],
"setting": {
"errorLimit": {
"record": "" // エラーレコードの数。
},
"speed": {
"throttle": true, // false に設定すると、mbps パラメーターは有効にならず、レートは制限されません。true に設定すると、レートは制限されます。
"concurrent": 20, // ジョブの同時実行数。
"mbps": "12" // レート制限。1 mbps = 1 MB/s。
}
},
"order": {
"hops": [
{
"from": "Reader",
"to": "Writer"
}
]
}
}Reader スクリプトのパラメーター
パラメーター | 説明 | 必須 |
datasource | DLF データソース。 | はい |
table | テーブル名。 | はい |
column | 列名。 | はい |
where | フィルター条件。 | いいえ |
Writer スクリプトの例
{
"type": "job",
"version": "2.0",
"steps": [
{
"stepType": "stream",
"parameter": {
},
"name": "Reader",
"category": "reader"
},
{
"stepType": "dlf",
"parameter": {
"datasource": "guxuan_dlf",
"column": [
"id",
"col1",
"col2",
"col3"
],
"table": "auto_ob_3088545_0523"
},
"name": "Writer",
"category": "writer"
}
],
"setting": {
"errorLimit": {
"record": "" // エラーレコードの数。
},
"speed": {
"throttle": true, // false に設定すると、mbps パラメーターは有効にならず、レートは制限されません。true に設定すると、レートは制限されます。
"concurrent": 20, // ジョブの同時実行数。
"mbps": "12" // レート制限。1 mbps = 1 MB/s。
}
},
"order": {
"hops": [
{
"from": "Reader",
"to": "Writer"
}
]
}
}Writer スクリプトのパラメーター
パラメーター | 説明 | 必須 | デフォルト値 |
datasource | DLF データソース。 | はい | なし |
table | テーブル名。 | はい | なし |
column | 列名。 | はい | なし |