入力コンポーネントによる Dataphin バッチパイプラインへの HDFS データの読み込み - Dataphin

HDFS 入力コンポーネントは、HDFS データソースからデータを読み取るために使用されます。HDFS データソースから他のデータソースへデータを同期するシナリオでは、まず HDFS 入力コンポーネントで読み取るデータソースを設定し、その後にデータ同期のターゲットとなるデータソースを設定する必要があります。本トピックでは、HDFS 入力コンポーネントの設定方法について説明します。

前提条件

HDFS データソースが作成済みであること。詳細については、「HDFS データソースの作成」をご参照ください。
HDFS 入力コンポーネントのプロパティを設定するには、アカウントにデータソースに対するリードスルー権限が必要です。必要な権限がない場合は、データソースへのアクセスをリクエストする必要があります。詳細については、「データソース権限のリクエスト」をご参照ください。

操作手順

Dataphin のホームページの上部メニューバーで、[開発] > [データ統合] を選択します。
統合ページの上部メニューバーで、[プロジェクト] を選択します (Dev-Prod モードの場合は、環境を選択する必要があります)。
左側のナビゲーションウィンドウで、[バッチパイプライン] をクリックします。[バッチパイプライン] リストで、開発が必要なオフラインパイプラインをクリックして、その設定ページを開きます。
ページの右上隅にある [コンポーネントライブラリ] をクリックして、[コンポーネントライブラリ] パネルを開きます。
[コンポーネントライブラリ] パネルの左側のナビゲーションウィンドウで [入力] を選択し、右側の入力コンポーネントリストから [HDFS] コンポーネントを見つけて、キャンバスにドラッグします。
HDFS 入力コンポーネントカードのアイコンをクリックして、[HDFS][入力設定] ダイアログボックスを開きます。

[HDFS 入力設定] ダイアログボックスで、パラメーターを設定します。

パラメーター	説明
ステップ名	HDFS 入力コンポーネントの名前です。Dataphin は自動的にステップ名を生成しますが、ビジネスシナリオに応じて変更することもできます。命名規則は次のとおりです。漢字、英字、アンダースコア (_)、数字のみ使用できます。名前の長さは最大 64 文字です。
データソース	データソースのドロップダウンリストには、現在の Dataphin 内のすべての HDFS タイプのデータソースが表示されます。これには、リードスルー権限を持つデータソースと持たないデータソースの両方が含まれます。アイコンをクリックすると、現在のデータソース名をコピーできます。リードスルー権限のないデータソースについては、データソースの横にある [リクエスト] をクリックして、データソースのリードスルー権限をリクエストできます。詳細については、「データソース権限のリクエスト」をご参照ください。 HDFS タイプのデータソースがない場合は、[データソースの作成] をクリックしてデータソースを作成します。詳細については、「HDFS データソースの作成」をご参照ください。
ファイルパス	ファイルの絶対パスを入力します。データソースに `NameNode` が既に設定されているため、`hdfs://{namenode}:{port}` のプレフィックスを入力する必要はありません。たとえば、`/hadoop/input/file.txt` のように入力します。システムは、次のパスを使用してファイルにアクセスします：`hdfs://{データソースで設定された NameNode}:{データソースで設定された IPC ポート}{入力したファイルパス}`。
ファイルタイプ	ファイルタイプを選択します。システムでは、以下の [ファイルタイプ]: [テキスト]、[ORC]、[RC]、[シーケンス、CSV]、[Parquet] をサポートしています。
ファイルが存在しない場合	読み取り対象のファイルが存在しない場合に、無視するか、タスクを失敗させるかを選択できます。 [無視]：読み取り対象のファイルが存在しない場合、そのファイルを無視して他のファイルの読み取りを続行します。 [タスクを失敗に設定]：読み取り対象のファイルが存在しない場合、タスクを終了して失敗させます。
ファイルが空の場合	読み取り対象のファイルが空の場合に、無視するか、タスクを失敗させるかを選択できます。 [無視]：読み取り対象のファイルが空の場合、そのファイルを無視して他のファイルの読み取りを続行します。 [タスクを失敗に設定]：読み取り対象のファイルが空の場合、タスクを終了して失敗させます。
データ内容の開始行	この項目は、ファイルタイプが [Text] または [CSV] の場合に設定する必要があります。デフォルトは 1 で、最初の行からデータ内容として開始します。最初の N 行を無視するには、データ内容の開始行を N+1 に設定します。
ファイルエンコーディング (任意)	ファイルエンコーディングを選択してください。システムでは、以下の[ファイルエンコーディング]がサポートされています。[UTF-8]および[GBK]です。
フィールド区切り文字 (任意)	この項目は、ファイルタイプが [Text] または [CSV] の場合に設定する必要があります。実際のストレージ状況に応じて、ファイル内の内容フィールド間の区切り文字を入力してください。入力しない場合、デフォルトはカンマ (,) です。
圧縮形式 (任意)	ファイルの圧縮形式を選択します。システムは次の圧縮形式をサポートしています： [zip] gzip bzip2
出力フィールド	出力フィールドを表示します。手動で出力フィールドを追加できます： [一括追加] をクリックします。JSON および TEXT フォーマットでの一括設定がサポートされています。 JSON フォーマットのバッチ構成、たとえば: `[{ "index": 0, "type": "double", "name": "HDFS1" },` 説明インデックスは導入されたフィールドの位置を示し、type は導入後のフィールドのデータ型を表します。Name はフィールド名を表します。 TEXT フォーマットでの一括設定例： `0,HDFS1,Double 1,HDFS2,String` 行区切り文字は、各フィールドの情報を区切るために使用されます。デフォルトは改行 (\n) です。改行 (\n)、セミコロン (;)、またはピリオド (.) をサポートしています。列区切り文字は、フィールド名とフィールドタイプを区切るために使用されます。デフォルトはカンマ (,) です。 [出力フィールドの作成] をクリックし、ページのプロンプトに従って [列] を入力し、[タイプ] を選択します。追加したフィールドに対して、次の操作も実行できます： [操作] 列のアイコンをクリックして、既存のフィールドを編集します。 [操作] 列のアイコンをクリックして、既存のフィールドを削除します。

[確認] をクリックして、[HDFS] 入力コンポーネントのプロパティ設定を完了します。