Data Lake Formation データソース - DataWorks - Alibaba Cloud ドキュメントセンター

Alibaba Cloud Data Lake Formation (DLF) は、統一されたメタデータ、データストレージ、データ管理を提供するフルマネージドプラットフォームです。DLF は、メタデータ管理、ストレージ管理、権限管理、ストレージ分析、ストレージ最適化などの機能を提供します。DataWorks の Data Integration を使用して、DLF データソースにデータを書き込むことができます。このトピックでは、DLF データソースの使用方法について説明します。

制限事項

Data Lake Formation データソースは、Data Integration でのみ、かつサーバーレスリソースグループでのみ使用できます。

データソースの作成

[データソース] ページに移動します。
1. DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、[その他] > [管理センター] を選択します。表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[管理センターへ移動] をクリックします。
2. SettingCenter ページの左側のナビゲーションウィンドウで、[データソース] をクリックします。

[データソースの追加] をクリックします。[Data Lake Formation] を検索して選択します。次の表の説明に従ってパラメーターを設定します：

パラメーター	説明
[データソース名]	データソースのカスタム名を入力します。ワークスペース内で一意である必要があり、文字、数字、アンダースコア (_) のみを含めることができます。数字またはアンダースコアで始めることはできません。
設定モード	サポートされているのは [Alibaba Cloud インスタンスモード] のみです。
エンドポイント	ドロップダウンリストから DLF エンジンインスタンスのエンドポイントを選択します。
[アクセスID]	次のいずれかのオプションを選択できます： Alibaba Cloudアカウント Alibaba Cloud RAM ユーザー Alibaba Cloud RAM ロール必要に応じてオプションを選択します。説明 [RAM ユーザー] または [RAM ロール] を選択した場合は、RAM ユーザーまたは RAM ロールに次の権限を付与します。 RAM コンソールで、システムポリシー AliyunDataWorksDIAccessDLF を RAM ユーザーまたは RAM ロールにアタッチして、DLF がメタデータにアクセスするための RAM 権限を付与する必要があります。詳細については、「RAM ユーザーへの権限付与」をご参照ください。 Data Lake Formation コンソールで、同期するデータテーブルに対して、ロールまたは RAM ユーザーに Data Editor 権限を付与します。
DLF Data Catalog	ご利用の DataWorks ワークスペースと同じリージョンにある DLF データカタログを選択します。
[データベース名]	データカタログ内のデータベースを選択します。

パラメーターを設定した後、接続設定セクションでデータソースとサーバーレスリソースグループ間の接続性をテストします。接続性テストが成功した場合は、[作成の完了] をクリックしてデータソースを作成します。接続性テストが失敗した場合は、「ネットワーク接続の設定」を参照して問題をトラブルシューティングしてください。

データ統合タスクの作成

DataWorks のデータ統合タスクで Data Lake Formation データソースを使用できます。詳細については、「Data Lake Formation へのデータ同期」をご参照ください。

付録：スクリプト例とパラメーターの説明

オフラインタスクスクリプトの設定

コードエディタを使用してオフラインタスクを設定する場合、標準フォーマットでタスクスクリプトにパラメーターを追加する必要があります。詳細については、「コードエディタでのタスク設定」をご参照ください。以下のセクションでは、コードエディタ用のデータソースパラメーターについて説明します。

Reader スクリプトの例

{
   "type": "job",
   "version": "2.0",
   "steps": [
      {
         "stepType": "dlf",
         "parameter": {
            "datasource": "guxuan_dlf",
            "table": "auto_ob_3088545_0523",
            "column": [
               "id",
               "col1",
               "col2",
               "col3"
            ],
            "where": "id > 1"
         },
         "name": "Reader",
         "category": "reader"
      },
      {
         "stepType": "stream",
         "parameter": {
            "print": false
         },
         "name": "Writer",
         "category": "writer"
      }
   ],
   "setting": {
      "errorLimit": {
         "record": "" // エラーレコード数。
      },
      "speed": {
         "throttle": true, // false に設定すると、mbps パラメーターは有効にならず、レートは制限されません。true に設定すると、レートは制限されます。
         "concurrent": 20, // タスクの同時実行数。
         "mbps": "12" // レート制限。1 mbps = 1 MB/s。
      }
   },
   "order": {
      "hops": [
         {
            "from": "Reader",
            "to": "Writer"
         }
      ]
   }
}

Reader スクリプトのパラメーター

パラメーター	説明	必須
datasource	DLF データソース。	はい
table	テーブル名。	はい
column	列名。	はい
where	フィルター条件。	いいえ

Writer スクリプトの例

{
   "type": "job",
   "version": "2.0",
   "steps": [
      {
         "stepType": "stream",
         "parameter": {
         },
         "name": "Reader",
         "category": "reader"
      },
      {
         "stepType": "dlf",
         "parameter": {
            "datasource": "guxuan_dlf",
            "column": [
               "id",
               "col1",
               "col2",
               "col3"
            ],
            "table": "auto_ob_3088545_0523"
         },
         "name": "Writer",
         "category": "writer"
      }
   ],
   "setting": {
      "errorLimit": {
         "record": "" // エラーレコード数。
      },
      "speed": {
         "throttle": true, // false に設定すると、mbps パラメーターは有効にならず、レートは制限されません。true に設定すると、レートは制限されます。
         "concurrent": 20, // タスクの同時実行数。
         "mbps": "12" // レート制限。1 mbps = 1 MB/s。
      }
   },
   "order": {
      "hops": [
         {
            "from": "Reader",
            "to": "Writer"
         }
      ]
   }
}

Writer スクリプトのパラメーター

パラメーター	説明	必須	デフォルト値
datasource	DLF データソース。	はい	なし
table	テーブル名。	はい	なし
column	列名。	はい	なし