HBase 出力ウィジェットは、HBase データソースへのデータ書き込みを可能にします。他のソースから HBase にデータを同期する場合、ソースデータを設定した後にターゲットデータソースを設定する必要があります。このトピックでは、HBase 出力ウィジェットの設定方法について説明します。
前提条件
データソースのアクティブ/スタンバイリンクを設定するには、DataService Studio の高可用性機能またはタグサービスモジュールを購入し、有効化しておく必要があります。
HBase データソースを作成しておく必要があります。具体的な操作については、「HBase データソースの作成」をご参照ください。
HBase 出力ウィジェットのプロパティを設定するには、アカウントにデータソースのライトスルー権限が必要です。権限がない場合は、データソースへのアクセスをリクエストする必要があります。詳細な手順については、「データソース権限のリクエスト、更新、返却」をご参照ください。
操作手順
Dataphin のホームページで、上部のメニューバーから [開発] > [データ統合] を選択します。
統合ページの上部のメニューバーで、[プロジェクト] を選択します (Dev-Prod モードの場合は [環境] を選択する必要があります)。
左側のナビゲーションウィンドウで、[バッチパイプライン] をクリックします。[バッチパイプライン] リストで、開発したい オフラインパイプライン をクリックして、その設定ページにアクセスします。
右上隅の [コンポーネントライブラリ] をクリックして、[コンポーネントライブラリ] パネルを開きます。
[コンポーネントライブラリ] パネルの左側のナビゲーションウィンドウで、[出力] を選択します。出力ウィジェットリストから [HBase] コンポーネントを見つけ、キャンバスにドラッグします。
ターゲットの入力、変換、またはフローウィジェットから
アイコンをドラッグし、HBase 出力ウィジェットに接続します。HBase 出力コンポーネントカードで、
アイコンをクリックして [HBase 出力設定] ダイアログボックスを開きます。
[HBase 出力設定] ダイアログボックスでパラメーターを設定します。
パラメーター
説明
基本設定
[ステップ名]
HBase 出力ウィジェットの名前です。Dataphin は自動的にステップ名を生成しますが、ビジネスシナリオに応じて変更することもできます。命名規則は次のとおりです:
漢字、英字、アンダースコア (_)、数字のみ使用できます。
64 文字を超えることはできません。
データソース
データソースのドロップダウンリストには、ライトスルー権限を持つデータソースと持たないデータソースを含む、すべての HBase タイプのデータソースが表示されます。
アイコンをクリックすると、現在のデータソース名をコピーできます。ライトスルー権限のないデータソースについては、データソースの横にある [リクエスト] をクリックして、データソースのライトスルー権限をリクエストできます。具体的な操作については、「データソース権限のリクエスト、更新、返却」をご参照ください。
HBase タイプのデータソースがない場合は、[データソースの作成] をクリックしてデータソースを作成します。具体的な操作については、「HBase データソースの作成」をご参照ください。
[リンクの選択]
タグサービスの高可用性機能が有効で、選択した HBase データソースのアクティブ/スタンバイリンクが [デュアルアクティブ/スタンバイリンク] の場合、統合に [アクティブリンク] または [スタンバイリンク] を選択できます。これは本番データソースにのみ影響します。
テーブル
データ同期のターゲットテーブルを選択します。
ファイルエンコーディング
ファイルエンコーディングを選択します。[ファイルエンコーディング] には [UTF-8] と [GBK] があります。
[Rowkey]
[追加] をクリックして、HBase データソースに複数の Rowkey を設定します。デフォルトでは、定数データ型の String、Int、ブール値、Long、Float、Short が HBase データソースの Rowkey としてサポートされています。
バージョン番号の値のソース
現在時刻、固定時刻、または指定された時間列をサポートしています。
[現在時刻]:現在時刻を値のバージョン番号ソースとして使用します。
[指定時刻]:固定時刻では、[時間の選択] パラメーターを設定して、値のバージョン番号ソースとなる時間を選択する必要があります。
[指定された時間列]:指定された時間列では、[時間列の選択] パラメーターを設定して、値のバージョン番号ソースとして使用できるテーブル内の時間列を選択する必要があります。
フィールドマッピング
[入力フィールド]
上流ウィジェットの出力に基づいて入力フィールドが表示されます。
[出力フィールド]
出力フィールドが表示されます。Dataphin は [バッチ追加] と [新しい出力フィールドの作成] を通じて出力フィールドを設定することをサポートしています:
一括追加:[一括追加] をクリックすると、JSON または TEXT フォーマットでのバッチ構成に対応します。
JSON 形式でのバッチ設定例:
// 例: [{"name": "user_id","type": "String"}, {"name": "user_name","type": "String"}]説明name はインポートされるフィールドの名前を表し、type はそのフィールドタイプを表します。たとえば、
"name":"user_id","type":"String"は、user_id という名前のフィールドがインポートされ、そのフィールドタイプが String に設定されることを示します。TEXT 形式でのバッチ設定例:
// 例: user_id,String user_name,String行区切り文字は、各フィールドの情報を区切るために使用されます。デフォルトは改行 (\n) で、改行 (\n)、セミコロン (;)、またはピリオド (.) をサポートしています。
列区切り文字は、フィールド名とフィールドタイプを区切るために使用され、デフォルトはコンマ (,) です。
新しい出力フィールドの作成
[+ 新しい出力フィールドの作成] をクリックし、ページのプロンプトに従って [列] を入力し、[タイプ] を選択します。
上流フィールドのコピー
[上流フィールドのコピー] をクリックすると、システムは上流のフィールド名に基づいて出力フィールドを自動的に生成します。
出力フィールドの管理
追加されたフィールドに対して、次の操作も実行できます:
[操作] 列の
アイコンをクリックして、既存のフィールドを編集します。[操作] 列の
アイコンをクリックして、既存のフィールドを削除します。
[マッピング]
マッピング関係は、ソーステーブルの入力フィールドをターゲットテーブルの出力フィールドにマッピングするために使用されます。これにより、後続のデータ同期が容易になります。マッピング関係には、同名マッピングと同一行マッピングがあります。シナリオは次のとおりです:
[同名マッピング]:同じフィールド名のフィールドをマッピングします。
[同一行マッピング]:ソーステーブルとターゲットテーブルのフィールド名は一致しませんが、フィールドの対応する行のデータをマッピングする必要があります。同じ行にあるフィールドのみがマッピングされます。
[確認] をクリックして、[HBase 出力ウィジェット] のプロパティ設定を完了します。