HBase 入力コンポーネントは、HBase データソースからデータを読み取ります。 HBase データソースから他のデータソースにデータを同期する必要がある場合は、まず HBase 入力コンポーネントを構成してデータソースを読み取り、次にデータ同期のターゲットデータソースを構成する必要があります。 このトピックでは、HBase 入力コンポーネントを構成する方法について説明します。
前提条件
DataService Studio または Tag Service モジュールの高可用性 (HA) 機能を購入して有効にし、データソースのプライマリ/セカンダリリンクを構成しています。
HBase データソースを作成済みです。 詳細については、「HBase データソースを作成する」をご参照ください。
HBase 入力コンポーネントのプロパティを構成するために使用するアカウントは、データソースに対するリードスルー権限を持っている必要があります。 権限がない場合は、リクエストする必要があります。 詳細については、「データソースに対する権限をリクエスト、更新、および返却する」をご参照ください。
手順
Dataphin ホームページの上部ナビゲーションバーで、[開発] > [Data Integration] を選択します。
統合ページの上部ナビゲーションバーで、プロジェクトを選択します(開発-本番モードでは、環境を選択する必要があります)。
左側のナビゲーションウィンドウで、[バッチパイプライン] をクリックします。 [バッチパイプライン] リストで、開発するオフラインパイプラインをクリックして、構成ページを開きます。
ページの右上隅にある [コンポーネントライブラリ] をクリックして、[コンポーネントライブラリ] パネルを開きます。
[コンポーネントライブラリ] パネルの左側のナビゲーションウィンドウで、[入力] を選択します。 右側の入力コンポーネントリストで [HBase] コンポーネントを見つけ、キャンバスにドラッグします。
HBase 入力コンポーネントカードの
アイコンをクリックして、[hbase] [入力構成] ダイアログボックスを開きます。[HBase 入力構成] ダイアログボックスで、パラメーターを構成します。
パラメーター
説明
ステップ名
HBase 入力コンポーネントの名前。 Dataphin は自動的にステップ名を生成しますが、ビジネスシナリオに基づいて変更できます。 名前は次の要件を満たしている必要があります。
漢字、英字、アンダースコア (_)、および数字のみを含めることができます。
長さは 64 文字を超えることはできません。
データソース
ドロップダウンリストには、リードスルー権限がない可能性のあるデータソースを含め、現在の Dataphin インスタンスのすべての HBase データソースが表示されます。
アイコンをクリックして、現在のデータソース名をコピーします。リードスルー権限のないデータソースの場合、データソースの横にある [リクエスト] をクリックして、リードスルー権限をリクエストできます。 詳細については、「データソースに対する権限をリクエストする」をご参照ください。
HBase データソースがない場合は、[作成] をクリックして作成します。 詳細については、「HBase データソースを作成する」をご参照ください。
リンクを選択
Tag Service の高可用性機能を有効にしていて、選択した HBase データソースに [アクティブ/スタンバイリンク] がある場合は、統合に [アクティブリンク] または [スタンバイリンク] を選択できます。 これは本番データソースのみに影響します。
テーブル
キーワードを入力してテーブルを検索するか、正確なテーブル名を入力して [完全一致] をクリックします。
アイコンをクリックして、選択したテーブルの名前をコピーします。出力モード
出力モードを選択します。 オプションは、[通常モード] と [マルチバージョンモード (垂直テーブル)] です。
maxversion
出力モードとして [マルチバージョンモード (垂直テーブル)] を選択した場合は、[maxversion] を指定する必要があります。
[maxversion] は、読み取るバージョンの数を指定します。 値 -1 は、すべてのバージョンが読み取られることを示します。
ファイルエンコーディング
ファイルのエンコード形式を選択します。 システムは、[ファイルエンコード] 形式 ([UTF-8] や [GBK] など) をサポートしています。
開始行キー
スキャンの開始点として開始行キーを指定します。 この開始行キー以上の辞書式順序を持つすべての行がスキャン結果に含まれます。 たとえば、
aaa(文字列) または10110(バイナリ) です。終了行キー
スキャン操作の終了位置を定義します。 終了行キーが指定されている場合、その行キーよりも辞書式順序で小さい行キーを持つすべての行がスキャンされますが、終了行キー自体は含まれません (つまり、スキャンは左閉右開区間です)。 たとえば、HBase テーブル内の
user0001からuser9999までのすべてのユーザーレコードをスキャンするには、開始行キーをuser0001に設定し、終了行キーをuser10000に設定します。 これにより、userで始まり、行キーの値がuser0001からuser10000までのすべての行が返されますが、行キーuser10000の行は含まれません。開始行キーのタイプ
開始行キーのタイプを選択します。 オプションは、[文字列] または [バイナリ] です。
出力フィールド
出力フィールドを表示します。
一括追加フィールド。
[一括追加] をクリックします。
JSON 形式で構成します。 例:
// 例: [{ "name": "cf1:q1", "type": "string" }, { "name": "cf1:q2", "type": "string" }, { "name": "cf1:q3", "type": "string" }]説明name はインポートされたカラムファミリーとフィールド名を表し、type はフィールドタイプを表します。 たとえば、
"name":"cf1:a","type":"String"は、カラムファミリーcf1のフィールドaがインポートされ、フィールドタイプがStringであることを示します。TEXT 形式で構成します。 例:
// 例: cf1:q1,string cf1:q2,string cf1:q3,string行区切り文字は、各フィールドの情報を区切るために使用されます。 デフォルトは改行 (\n) です。 サポートされている区切り文字には、改行 (\n)、セミコロン (;)、およびピリオド (.) が含まれます。
列区切り文字は、フィールド名とフィールドタイプを区切るために使用されます。 デフォルトはカンマ(,)です。
[OK] をクリックします。
新しい出力フィールドを作成する。
[出力フィールドを作成] をクリックし、プロンプトに従って [カラムファミリー]、[列] を入力し、[タイプ] を選択します。
出力フィールドを管理する。
追加されたフィールドに対して次の操作を実行できます。
フィールドの位置を変更するには、[列] の横にある
アイコンをクリックしてドラッグします。既存のフィールドを編集するには、 列の [操作]
アイコンをクリックします。既存のフィールドを削除するには、 列の [操作]
アイコンをクリックします。
[OK] をクリックして、[HBase] 入力コンポーネントのプロパティ構成を完了します。