HDFS 入力コンポーネントは、HDFS データソースからデータを読み取るために使用されます。HDFS データソースから他のデータソースへデータを同期するシナリオでは、まず HDFS 入力コンポーネントで読み取るデータソースを設定し、その後にデータ同期のターゲットとなるデータソースを設定する必要があります。本トピックでは、HDFS 入力コンポーネントの設定方法について説明します。
前提条件
HDFS データソースが作成済みであること。詳細については、「HDFS データソースの作成」をご参照ください。
HDFS 入力コンポーネントのプロパティを設定するには、アカウントにデータソースに対するリードスルー権限が必要です。必要な権限がない場合は、データソースへのアクセスをリクエストする必要があります。詳細については、「データソース権限のリクエスト」をご参照ください。
操作手順
Dataphin のホームページの上部メニューバーで、[開発] > [データ統合] を選択します。
統合ページの上部メニューバーで、[プロジェクト] を選択します (Dev-Prod モードの場合は、環境を選択する必要があります)。
左側のナビゲーションウィンドウで、[バッチパイプライン] をクリックします。[バッチパイプライン] リストで、開発が必要なオフラインパイプラインをクリックして、その設定ページを開きます。
ページの右上隅にある [コンポーネントライブラリ] をクリックして、[コンポーネントライブラリ] パネルを開きます。
[コンポーネントライブラリ] パネルの左側のナビゲーションウィンドウで [入力] を選択し、右側の入力コンポーネントリストから [HDFS] コンポーネントを見つけて、キャンバスにドラッグします。
HDFS 入力コンポーネントカードの
アイコンをクリックして、[HDFS][入力設定] ダイアログボックスを開きます。[HDFS 入力設定] ダイアログボックスで、パラメーターを設定します。
パラメーター
説明
ステップ名
HDFS 入力コンポーネントの名前です。Dataphin は自動的にステップ名を生成しますが、ビジネスシナリオに応じて変更することもできます。命名規則は次のとおりです。
漢字、英字、アンダースコア (_)、数字のみ使用できます。
名前の長さは最大 64 文字です。
データソース
データソースのドロップダウンリストには、現在の Dataphin 内のすべての HDFS タイプのデータソースが表示されます。これには、リードスルー権限を持つデータソースと持たないデータソースの両方が含まれます。
アイコンをクリックすると、現在のデータソース名をコピーできます。リードスルー権限のないデータソースについては、データソースの横にある [リクエスト] をクリックして、データソースのリードスルー権限をリクエストできます。詳細については、「データソース権限のリクエスト」をご参照ください。
HDFS タイプのデータソースがない場合は、[データソースの作成] をクリックしてデータソースを作成します。詳細については、「HDFS データソースの作成」をご参照ください。
ファイルパス
ファイルの絶対パスを入力します。データソースに
NameNodeが既に設定されているため、hdfs://{namenode}:{port}のプレフィックスを入力する必要はありません。たとえば、/hadoop/input/file.txtのように入力します。システムは、次のパスを使用してファイルにアクセスします:hdfs://{データソースで設定された NameNode}:{データソースで設定された IPC ポート}{入力したファイル パス}。ファイルタイプ
ファイル タイプを選択します。システムでは、以下の [ファイル タイプ]: [テキスト]、[ORC]、[RC]、[シーケンス、CSV]、[Parquet] をサポートしています。
ファイルが存在しない場合
読み取り対象のファイルが存在しない場合に、無視するか、タスクを失敗させるかを選択できます。
[無視]:読み取り対象のファイルが存在しない場合、そのファイルを無視して他のファイルの読み取りを続行します。
[タスクを失敗に設定]:読み取り対象のファイルが存在しない場合、タスクを終了して失敗させます。
ファイルが空の場合
読み取り対象のファイルが空の場合に、無視するか、タスクを失敗させるかを選択できます。
[無視]:読み取り対象のファイルが空の場合、そのファイルを無視して他のファイルの読み取りを続行します。
[タスクを失敗に設定]:読み取り対象のファイルが空の場合、タスクを終了して失敗させます。
データ内容の開始行
この項目は、ファイルタイプが [Text] または [CSV] の場合に設定する必要があります。デフォルトは 1 で、最初の行からデータ内容として開始します。最初の N 行を無視するには、データ内容の開始行を N+1 に設定します。
ファイルエンコーディング (任意)
ファイル エンコーディングを選択してください。システムでは、以下の[ファイル エンコーディング]がサポートされています。[UTF-8]および[GBK]です。
フィールド区切り文字 (任意)
この項目は、ファイルタイプが [Text] または [CSV] の場合に設定する必要があります。実際のストレージ状況に応じて、ファイル内の内容フィールド間の区切り文字を入力してください。入力しない場合、デフォルトはカンマ (,) です。
圧縮形式 (任意)
ファイルの圧縮形式を選択します。システムは次の圧縮形式をサポートしています:
[zip]
gzip
bzip2
出力フィールド
出力フィールドを表示します。手動で出力フィールドを追加できます:
[一括追加] をクリックします。JSON および TEXT フォーマットでの一括設定がサポートされています。
JSON フォーマットのバッチ構成、たとえば:
[{ "index": 0, "type": "double", "name": "HDFS1" },説明インデックスは導入されたフィールドの位置を示し、type は導入後のフィールドのデータ型を表します。Name はフィールド名を表します。
TEXT フォーマットでの一括設定例:
0,HDFS1,Double 1,HDFS2,String行区切り文字は、各フィールドの情報を区切るために使用されます。デフォルトは改行 (\n) です。改行 (\n)、セミコロン (;)、またはピリオド (.) をサポートしています。
列区切り文字は、フィールド名とフィールドタイプを区切るために使用されます。デフォルトはカンマ (,) です。
[出力フィールドの作成] をクリックし、ページのプロンプトに従って [列] を入力し、[タイプ] を選択します。
追加したフィールドに対して、次の操作も実行できます:
[操作] 列の
アイコンをクリックして、既存のフィールドを編集します。[操作] 列の
アイコンをクリックして、既存のフィールドを削除します。
[確認] をクリックして、[HDFS] 入力コンポーネントのプロパティ設定を完了します。