すべてのプロダクト
Search
ドキュメントセンター

Dataphin:HDFS 入力コンポーネントの設定

最終更新日:Mar 06, 2026

HDFS 入力コンポーネントは、HDFS データソースからデータを読み取るために使用されます。HDFS データソースから他のデータソースへデータを同期するシナリオでは、まず HDFS 入力コンポーネントで読み取るデータソースを設定し、その後にデータ同期のターゲットとなるデータソースを設定する必要があります。本トピックでは、HDFS 入力コンポーネントの設定方法について説明します。

前提条件

  • HDFS データソースが作成済みであること。詳細については、「HDFS データソースの作成」をご参照ください。

  • HDFS 入力コンポーネントのプロパティを設定するには、アカウントにデータソースに対するリードスルー権限が必要です。必要な権限がない場合は、データソースへのアクセスをリクエストする必要があります。詳細については、「データソース権限のリクエスト」をご参照ください。

操作手順

  1. Dataphin のホームページの上部メニューバーで、[開発] > [データ統合] を選択します。

  2. 統合ページの上部メニューバーで、[プロジェクト] を選択します (Dev-Prod モードの場合は、環境を選択する必要があります)。

  3. 左側のナビゲーションウィンドウで、[バッチパイプライン] をクリックします。[バッチパイプライン] リストで、開発が必要なオフラインパイプラインをクリックして、その設定ページを開きます。

  4. ページの右上隅にある [コンポーネントライブラリ] をクリックして、[コンポーネントライブラリ] パネルを開きます。

  5. [コンポーネントライブラリ] パネルの左側のナビゲーションウィンドウで [入力] を選択し、右側の入力コンポーネントリストから [HDFS] コンポーネントを見つけて、キャンバスにドラッグします。

  6. HDFS 入力コンポーネントカードの image アイコンをクリックして、[HDFS][入力設定] ダイアログボックスを開きます。

  7. [HDFS 入力設定] ダイアログボックスで、パラメーターを設定します。

    パラメーター

    説明

    ステップ名

    HDFS 入力コンポーネントの名前です。Dataphin は自動的にステップ名を生成しますが、ビジネスシナリオに応じて変更することもできます。命名規則は次のとおりです。

    • 漢字、英字、アンダースコア (_)、数字のみ使用できます。

    • 名前の長さは最大 64 文字です。

    データソース

    データソースのドロップダウンリストには、現在の Dataphin 内のすべての HDFS タイプのデータソースが表示されます。これには、リードスルー権限を持つデータソースと持たないデータソースの両方が含まれます。image アイコンをクリックすると、現在のデータソース名をコピーできます。

    • リードスルー権限のないデータソースについては、データソースの横にある [リクエスト] をクリックして、データソースのリードスルー権限をリクエストできます。詳細については、「データソース権限のリクエスト」をご参照ください。

    • HDFS タイプのデータソースがない場合は、[データソースの作成] をクリックしてデータソースを作成します。詳細については、「HDFS データソースの作成」をご参照ください。

    ファイルパス

    ファイルの絶対パスを入力します。データソースに NameNode が既に設定されているため、hdfs://{namenode}:{port} のプレフィックスを入力する必要はありません。たとえば、/hadoop/input/file.txt のように入力します。システムは、次のパスを使用してファイルにアクセスします:hdfs://{データソースで設定された NameNode}:{データソースで設定された IPC ポート}{入力したファイル パス}

    ファイルタイプ

    ファイル タイプを選択します。システムでは、以下の [ファイル タイプ]: [テキスト][ORC][RC][シーケンス、CSV][Parquet] をサポートしています。

    ファイルが存在しない場合

    読み取り対象のファイルが存在しない場合に、無視するか、タスクを失敗させるかを選択できます。

    • [無視]:読み取り対象のファイルが存在しない場合、そのファイルを無視して他のファイルの読み取りを続行します。

    • [タスクを失敗に設定]:読み取り対象のファイルが存在しない場合、タスクを終了して失敗させます。

    ファイルが空の場合

    読み取り対象のファイルが空の場合に、無視するか、タスクを失敗させるかを選択できます。

    • [無視]:読み取り対象のファイルが空の場合、そのファイルを無視して他のファイルの読み取りを続行します。

    • [タスクを失敗に設定]:読み取り対象のファイルが空の場合、タスクを終了して失敗させます。

    データ内容の開始行

    この項目は、ファイルタイプが [Text] または [CSV] の場合に設定する必要があります。デフォルトは 1 で、最初の行からデータ内容として開始します。最初の N 行を無視するには、データ内容の開始行を N+1 に設定します。

    ファイルエンコーディング (任意)

    ファイル エンコーディングを選択してください。システムでは、以下の[ファイル エンコーディング]がサポートされています。[UTF-8]および[GBK]です。

    フィールド区切り文字 (任意)

    この項目は、ファイルタイプが [Text] または [CSV] の場合に設定する必要があります。実際のストレージ状況に応じて、ファイル内の内容フィールド間の区切り文字を入力してください。入力しない場合、デフォルトはカンマ (,) です。

    圧縮形式 (任意)

    ファイルの圧縮形式を選択します。システムは次の圧縮形式をサポートしています:

    • [zip]

    • gzip

    • bzip2

    出力フィールド

    出力フィールドを表示します。手動で出力フィールドを追加できます:

    • [一括追加] をクリックします。JSON および TEXT フォーマットでの一括設定がサポートされています

      • JSON フォーマットのバッチ構成、たとえば:

        [{
          "index": 0,
          "type": "double",
          "name": "HDFS1"
         },
        説明

        インデックスは導入されたフィールドの位置を示し、type は導入後のフィールドのデータ型を表します。Name はフィールド名を表します。

      • TEXT フォーマットでの一括設定例:

        0,HDFS1,Double
        1,HDFS2,String
        • 行区切り文字は、各フィールドの情報を区切るために使用されます。デフォルトは改行 (\n) です。改行 (\n)、セミコロン (;)、またはピリオド (.) をサポートしています。

        • 列区切り文字は、フィールド名とフィールドタイプを区切るために使用されます。デフォルトはカンマ (,) です。

    • [出力フィールドの作成] をクリックし、ページのプロンプトに従って [列] を入力し、[タイプ] を選択します。

    追加したフィールドに対して、次の操作も実行できます:

    • [操作] 列の agag アイコンをクリックして、既存のフィールドを編集します。

    • [操作] 列の agfag アイコンをクリックして、既存のフィールドを削除します。

  8. [確認] をクリックして、[HDFS] 入力コンポーネントのプロパティ設定を完了します。