入力コンポーネントで HBase データを Dataphin バッチパイプラインに同期 - Dataphin

HBase 入力コンポーネントは、HBase データソースからデータを読み取ります。 HBase データソースから他のデータソースにデータを同期する必要がある場合は、まず HBase 入力コンポーネントを構成してデータソースを読み取り、次にデータ同期のターゲットデータソースを構成する必要があります。このトピックでは、HBase 入力コンポーネントを構成する方法について説明します。

前提条件

DataService Studio または Tag Service モジュールの高可用性 (HA) 機能を購入して有効にし、データソースのプライマリ/セカンダリリンクを構成しています。
HBase データソースを作成済みです。詳細については、「HBase データソースを作成する」をご参照ください。
HBase 入力コンポーネントのプロパティを構成するために使用するアカウントは、データソースに対するリードスルー権限を持っている必要があります。権限がない場合は、リクエストする必要があります。詳細については、「データソースに対する権限をリクエスト、更新、および返却する」をご参照ください。

手順

Dataphin ホームページの上部ナビゲーションバーで、[開発] > [Data Integration] を選択します。
統合ページの上部ナビゲーションバーで、プロジェクトを選択します（開発-本番モードでは、環境を選択する必要があります）。
左側のナビゲーションウィンドウで、[バッチパイプライン] をクリックします。 [バッチパイプライン] リストで、開発するオフラインパイプラインをクリックして、構成ページを開きます。
ページの右上隅にある [コンポーネントライブラリ] をクリックして、[コンポーネントライブラリ] パネルを開きます。
[コンポーネントライブラリ] パネルの左側のナビゲーションウィンドウで、[入力] を選択します。右側の入力コンポーネントリストで [HBase] コンポーネントを見つけ、キャンバスにドラッグします。
HBase 入力コンポーネントカードのアイコンをクリックして、[hbase] [入力構成] ダイアログボックスを開きます。

[HBase 入力構成] ダイアログボックスで、パラメーターを構成します。

パラメーター	説明
ステップ名	HBase 入力コンポーネントの名前。 Dataphin は自動的にステップ名を生成しますが、ビジネスシナリオに基づいて変更できます。名前は次の要件を満たしている必要があります。漢字、英字、アンダースコア (_)、および数字のみを含めることができます。長さは 64 文字を超えることはできません。
データソース	ドロップダウンリストには、リードスルー権限がない可能性のあるデータソースを含め、現在の Dataphin インスタンスのすべての HBase データソースが表示されます。アイコンをクリックして、現在のデータソース名をコピーします。リードスルー権限のないデータソースの場合、データソースの横にある [リクエスト] をクリックして、リードスルー権限をリクエストできます。詳細については、「データソースに対する権限をリクエストする」をご参照ください。 HBase データソースがない場合は、[作成] をクリックして作成します。詳細については、「HBase データソースを作成する」をご参照ください。
リンクを選択	Tag Service の高可用性機能を有効にしていて、選択した HBase データソースに [アクティブ/スタンバイリンク] がある場合は、統合に [アクティブリンク] または [スタンバイリンク] を選択できます。これは本番データソースのみに影響します。
テーブル	キーワードを入力してテーブルを検索するか、正確なテーブル名を入力して [完全一致] をクリックします。アイコンをクリックして、選択したテーブルの名前をコピーします。
出力モード	出力モードを選択します。オプションは、[通常モード] と [マルチバージョンモード (垂直テーブル)] です。
maxversion	出力モードとして [マルチバージョンモード (垂直テーブル)] を選択した場合は、[maxversion] を指定する必要があります。 [maxversion] は、読み取るバージョンの数を指定します。値 -1 は、すべてのバージョンが読み取られることを示します。
ファイルエンコーディング	ファイルのエンコード形式を選択します。システムは、[ファイルエンコード] 形式 ([UTF-8] や [GBK] など) をサポートしています。
開始行キー	スキャンの開始点として開始行キーを指定します。この開始行キー以上の辞書式順序を持つすべての行がスキャン結果に含まれます。たとえば、`aaa` (文字列) または `10110` (バイナリ) です。
終了行キー	スキャン操作の終了位置を定義します。終了行キーが指定されている場合、その行キーよりも辞書式順序で小さい行キーを持つすべての行がスキャンされますが、終了行キー自体は含まれません (つまり、スキャンは左閉右開区間です)。たとえば、HBase テーブル内の `user0001` から `user9999` までのすべてのユーザーレコードをスキャンするには、開始行キーを `user0001` に設定し、終了行キーを `user10000` に設定します。これにより、`user` で始まり、行キーの値が `user0001` から `user10000` までのすべての行が返されますが、行キー `user10000` の行は含まれません。
開始行キーのタイプ	開始行キーのタイプを選択します。オプションは、[文字列] または [バイナリ] です。
出力フィールド	出力フィールドを表示します。一括追加フィールド。 [一括追加] をクリックします。 JSON 形式で構成します。例： `// 例： [{ "name": "cf1:q1", "type": "string" }, { "name": "cf1:q2", "type": "string" }, { "name": "cf1:q3", "type": "string" }]` 説明 name はインポートされたカラムファミリーとフィールド名を表し、type はフィールドタイプを表します。たとえば、`"name":"cf1:a","type":"String"` は、カラムファミリー `cf1` のフィールド `a` がインポートされ、フィールドタイプが `String` であることを示します。 TEXT 形式で構成します。例： `// 例： cf1:q1,string cf1:q2,string cf1:q3,string` 行区切り文字は、各フィールドの情報を区切るために使用されます。デフォルトは改行 (\n) です。サポートされている区切り文字には、改行 (\n)、セミコロン (;)、およびピリオド (.) が含まれます。列区切り文字は、フィールド名とフィールドタイプを区切るために使用されます。デフォルトはカンマ（,）です。 [OK] をクリックします。新しい出力フィールドを作成する。 [出力フィールドを作成] をクリックし、プロンプトに従って [カラムファミリー]、[列] を入力し、[タイプ] を選択します。出力フィールドを管理する。追加されたフィールドに対して次の操作を実行できます。フィールドの位置を変更するには、[列] の横にあるアイコンをクリックしてドラッグします。既存のフィールドを編集するには、列の [操作] アイコンをクリックします。既存のフィールドを削除するには、列の [操作] アイコンをクリックします。

[OK] をクリックして、[HBase] 入力コンポーネントのプロパティ構成を完了します。