FTP 入力コンポーネントで Dataphin に FTP ファイルを取り込む - Dataphin

FTP 入力ウィジェットは、FTP サーバーからビッグデータプラットフォームに関連付けられたストレージシステムへデータを転送し、データ統合およびその後の処理を可能にします。本トピックでは、FTP 入力ウィジェットの設定手順について説明します。

前提条件

FTP データソースの作成に成功しました。詳細については、「FTP データソースの作成」をご参照ください。
FTP 入力ウィジェットのプロパティを設定するには、データソースに対してリードスルー権限を持つアカウントを使用する必要があります。必要な権限がない場合は、データソース管理者から権限を取得してください。詳細については、「データソース権限のリクエスト、更新、返却」をご参照ください。

操作手順

Dataphin のホームページで、上部メニューバーから開発 > Data Integration を選択します。
統合ページの上部で、プロジェクト を選択します（Dev-Prod モードの場合は、環境を選択する必要があります）。
左側ナビゲーションウィンドウで バッチパイプライン をクリックし、バッチパイプライン リストから開発対象の オフラインパイプライン をクリックして、その設定ページにアクセスします。
右上隅の コンポーネントライブラリ をクリックして、コンポーネントライブラリ パネルを開きます。
コンポーネントライブラリ パネルの左側ナビゲーションウィンドウで入力を選択します。右側の入力ウィジェット一覧から FTP コンポーネントを検索し、キャンバス上にドラッグします。
FTP 入力ウィジェットカード上のアイコンをクリックして、FTP 入力設定 ダイアログボックスを開きます。

FTP 入力設定 ダイアログボックスで、必要なパラメーターを設定します。

FTP 入力コンポーネントは、以下の ファイルタイプ オプションをサポートしています：テキスト、CSV、xls、xlsx、および JsonL。各ファイルタイプごとに異なる設定が必要であり、以下に詳細を示します。

テキストおよび CSV ファイルのパラメーター

パラメーター		説明
基本設定	ステップ名	シナリオに応じて、コンポーネントの名前を入力します。名前には以下のルールが適用されます：漢字、英字、アンダースコア (_)、数字のみ使用できます。最大長は 64 文字です。
	データソース	データソースを選択します。データソースは Dataphin で事前に構成済みであり、以下の条件を満たす必要があります：データソースの種類が FTP データソース、SFTP データソース、または FTPS データソースであることです。属性設定を実行するアカウントが、データソースに対してリードスルー権限を持っていることです。該当の権限がない場合は、権限をリクエストしてください。詳細については、「データソース権限のリクエスト、更新、返却」をご参照ください。また、データソースの横にある新規作成をクリックすると、管理センターに移動してデータソースを追加できます。詳細については、「FTP データソースの作成」をご参照ください。
	ファイルパス	ファイルパスを入力します。セミコロン (;) で区切ることで、複数のパスを指定できます。ワイルドカード文字が使用可能です。例： `/dataphin/*` と指定すると、`dataphin` ディレクトリ内のすべてのファイルが読み込まれます。
	圧縮形式（任意）	ソースファイルが圧縮されている場合、圧縮形式を選択します。Dataphin はこの設定に基づいてファイルを解凍します。サポートされる形式は、zip、gzip、tar.gz、bzip2、lzo、lzo-deflate、hadoop-snappy、framing-snappy です。説明 zip または tar.gz を圧縮形式として選択した場合、ファイル名の設定も可能です。
	ファイル名（任意）	圧縮パッケージ内のファイルに対するマッチングルールです。セミコロン (;) で区切ることで、複数のルールを指定できます。ワイルドカード文字が使用可能です。例： `` を指定すると、パッケージ内のすべてのファイルが読み込まれます。空欄のままにした場合、デフォルトで `` が使用されます。
	ファイルタイプ	テキストまたは CSV を選択します。
	データ内容開始行	コンポーネントがデータ読み取りを開始する行を設定します。デフォルト値は 1 であり、1 行目から読み取りを開始することを意味します。先頭の N 行をスキップする場合は、このパラメーターを N+1 に設定します。説明圧縮形式が選択されていない場合、常にこの「データ内容開始行」が適用されます。圧縮形式が選択されている場合、このパラメーターは tar.gz のみで有効になります。
高度な設定	分割方法	テキストファイルでは、デリミタによる分割および固定長分割をサポートしています。CSV ファイルでは、デリミタによる分割をサポートしています。デリミタによる分割：フィールドデリミタおよび行デリミタを基準として、行およびフィールドを分割します。固定長分割：ファイルの各行を長い文字列として扱い、開始位置および終了位置の文字位置に基づいてフィールドを抽出します。
	フィールド区切り文字	デリミタによる分割を選択した場合、フィールド区切り文字を指定します。空欄のままにした場合、デフォルトでカンマ (,) が使用されます。
	行区切り文字	チャンキング方法がフィールド長による分割の場合、行デリミタの設定はできません。値を指定しない場合、システムは改行文字 (\n) をデフォルトの行区切り文字として使用します。ファイルタイプがテキストの場合、行区切り文字および `textReaderConfig` パラメーターを同時に設定することはできません。
	ファイルエンコード形式	ファイルのエンコード形式を選択します。サポートされる形式は UTF-8 および GBK です。
	NULL 値変換	NULL 値を表す文字列を指定します。コンポーネントは、ソースデータ内に出現するこの文字列をすべて NULL に置き換えます。このパラメーターを設定しない場合、特別な処理は行われません。
	ファイルチェックを完了としてマーク	データ読み取りの前に、完了マーカーファイルの存在をチェックします。これにより、データが準備完了状態であることが確認されます。この機能はデフォルトで無効になっています。この機能を有効にするには、トグルをクリックした後、設定の確認をクリックします。完了マーカーファイルのチェック設定ダイアログボックスで、パラメーターを設定します。完了マーカーファイルのパス：チェック対象のマーカーファイルのパスを入力します。システムパラメーター、グローバルパラメーター、およびクロスノードパラメーターがサポートされています。例： `/${check}/dataphin`。ヘルスチェック間隔 (秒)：各ファイルチェックの間隔を指定します。デフォルト値は 60 秒です。チェック期間 (分)：各ファイルチェックの継続時間を指定します。デフォルト値は 60 分です。重要チェック期間とデータ転送期間を合計することで、統合ノードの総実行時間が決定されます。チェック期間および実行タイムアウト設定は慎重に設定してください。チェック中はリソースが占有されます。必要に応じてこれらの設定を行ってください。チェック時間がノードのタイムアウト期間を超えた場合、ノードは強制終了されます。障害処理ポリシー：ファイルチェックが失敗した場合、データの抽出および書き込みは行われません。ポリシーをノードを失敗させるまたはノードを成功させるのいずれかに設定できます。ノードを失敗させる：チェックが失敗した場合、システムはチェックノードを「失敗」と設定し、統合ノードを実行しません。ノードを成功させる：チェックが失敗した場合、システムはチェックノードを「成功」と設定し、以降の統合ノードを継続して実行します。 OK をクリックして設定を保存します。
	ファイルが存在しない場合の処理	ソースファイルが存在しない場合のポリシーを指定します。サポートされるポリシーは「無視」およびノードを失敗させるです。完了マーカーファイルのチェックを有効にしている場合、このパラメーターは利用できません。無視：ファイルが存在しない場合、コンポーネントはそのファイルを無視し、他のファイルの読み取りを継続します。ノードを失敗させる：ファイルが存在しない場合、ノードは終了され、「失敗」と設定されます。
	その他の設定	データ読み取りを制御するその他の設定項目を入力します。たとえば、`textReaderConfig` を使用してテキストファイルの読み取り方法を制御できます。以下のコードに例を示します。 `{ "textReaderConfig":{ "useTextQualifier":false, // 修飾子の有無を指定します。 "textQualifier":"\"",// 修飾子を指定します。 "caseSensitive":true, // 修飾子の大文字小文字を区別するかどうかを指定します。 "trimWhitespace":false // 各カラムの先頭および末尾の空白文字を削除するかどうかを指定します。 } }`
出力フィールド		出力フィールドが表示されます。以下の方法で出力フィールドを追加できます：一度に複数の出力フィールドを追加フォーマット：一括追加をクリックします。フィールドは JSON または TEXT 形式で設定できます。 JSON 形式： `// 例： [{ "startPos": 0, "endPos": 10, "name": "user_id", "type": "String" }, { "startPos": 11, "endPos": 15, "name": "user_name", "type": "String" }]` TEXT 形式： `// 例： 0,10,user_id,String 11,15,user_name,String` 分割方法：ファイルタイプがテキストかつ分割方法が固定長分割の場合、一括でフィールドを追加する方法を設定できます。有効な値はフィールド開始位置による指定およびフィールド長による指定です。フィールド開始位置による指定：最初の数値はフィールドの開始文字位置、2 番目の数値は終了位置、その後の 2 つの値はフィールド名およびフィールド型を指定します。たとえば、TEXT 形式の `0,10,user_id,String` は、ファイルの各行の 1 文目から 11 文目までの文字を、フィールド名 `user_id`、型 `String` としてインポートすることを意味します。フィールド長による指定：最初の値はフィールド長を指定し、その後の 2 つの値はフィールド名およびフィールド型を指定します。たとえば、TEXT 形式で `11,user_id,String` を指定すると、長さ 11 のフィールドが定義されます。フィールド名は `user_id`、フィールド型は `String` です。次のフィールドは、前のフィールドの直後の文字から開始します。行区切り文字および列区切り文字： TEXT 形式でフィールドを一括追加する場合、行区切り文字および列区切り文字を設定できます。行区切り文字は、各フィールドの情報を区切るために使用されます。デフォルト値は改行 `\n` であり、サポートされる区切り文字には `\n ; .` があります。列区切り文字は、フィールド名とフィールド型を区切るために使用され、デフォルト値はカンマ (,) です。分割結果のプレビューファイルタイプがテキストかつ分割方法が固定長分割の場合、分割結果をプレビューできます。分割結果のプレビューをクリックします。表示されたダイアログボックスでテスト文字列を入力し、「テスト」をクリックして結果を確認します。単一の出力フィールドを追加出力フィールドの追加をクリックし、ソース序数、フィールドを入力し、型を選択します。テキストおよび CSV ファイルの場合は、ソース序数としてカラムの数値インデックスを必ず入力する必要があります。インデックスは 0 から始まります。既存の出力フィールドの管理追加済みのフィールドに対して、以下の操作を実行できます：操作列でアイコンをクリックしてフィールドを編集します。操作列でアイコンをクリックしてフィールドを削除します。

xls および xlsx ファイルのパラメーター

パラメーター		説明
基本設定	ステップ名	シナリオに応じて、コンポーネントの名前を入力します。名前には以下のルールが適用されます：漢字、英字、アンダースコア (_), 数字のみ使用できます。最大長は 64 文字です。
	データソース	データソースを選択します。データソースは Dataphin で事前に構成済みであり、以下の条件を満たす必要があります：データソースの種類が FTP データソース、SFTP データソース、または FTPS データソースであることです。属性設定を実行するアカウントが、データソースに対してリードスルー権限を持っていることです。該当の権限がない場合は、権限をリクエストしてください。詳細については、「データソース権限のリクエスト、更新、返却」をご参照ください。また、データソースの横にある新規作成をクリックすると、プランニングモジュールに移動してデータソースを追加できます。詳細については、「FTP データソースの作成」をご参照ください。
	ファイルパス	ファイルパスを入力します。セミコロン (;) で区切ることで、複数のパスを指定できます。ワイルドカード文字が使用可能です。例： `/dataphin/*` と指定すると、`dataphin` ディレクトリ内のすべてのファイルが読み込まれます。
	圧縮形式	ソースファイルが圧縮されている場合、圧縮形式を選択します。Dataphin はこの設定に基づいてファイルを解凍します。サポートされる形式は、zip、gzip、tar.gz、bzip2、lzo、lzo-deflate、hadoop-snappy、framing-snappy、zlib です。説明 zip または tar.gz を圧縮形式として選択した場合、ファイル名の設定も可能です。
	ファイル名	圧縮パッケージ内のファイルに対するマッチングルールです。セミコロン (;) で区切ることで、複数のルールを指定できます。ワイルドカード文字が使用可能です。例： `` を指定すると、パッケージ内のすべてのファイルが読み込まれます。空欄のままにした場合、デフォルトで `` が使用されます。
	ファイルタイプ	xls または xlsx を選択します。
	データ内容開始行	コンポーネントがデータ読み取りを開始する行を設定します。デフォルト値は 1 であり、1 行目から読み取りを開始することを意味します。先頭の N 行をスキップする場合は、このパラメーターを N+1 に設定します。説明圧縮形式が選択されていない場合、このパラメーターは常に有効です。圧縮形式が選択されている場合、このパラメーターは tar.gz のみで有効です。
	シート選択	シートを名前による指定またはインデックスによる指定から選択します。複数のシートからデータを読み取る場合、それらのデータ形式は同一である必要があります。
	シート名/シートインデックス	シート名：複数のシートからデータを読み取ることができます。シート名はカンマ (,) で区切ります。また、`` を入力すると、すべてのシートを読み取ることができます。`` とカンマを併用することはできません。例： `sheet1,sheet2`。シートインデックス：複数のシートからデータを読み取ることができます。シートインデックスはカンマ (,) で区切ります。また、`` を入力すると、すべてのシートを読み取ることができます。`` とカンマを併用することはできません。たとえば、`0,3,7-9` を使用して、個別のシートや連続するシートを指定できます。
高度な設定	データ内容終了行	このパラメーターを指定しない場合、コンポーネントは最終行までデータを読み取ります。データ内容終了行の値は、データ内容開始行の値以上である必要があります。
	シート名のエクスポート	シート名をエクスポートするかどうかを選択します。エクスポートを選択した場合、新しいフィールドが追加されます。このフィールドには、各行のデータの元となるシート名が格納されます。
	ファイルエンコード形式	ファイルのエンコード形式を選択します。サポートされる形式は UTF-8 および GBK です。
	NULL 値変換	NULL 値を表す文字列を指定します。コンポーネントは、ソースデータ内に出現するこの文字列をすべて NULL に置き換えます。このパラメーターを設定しない場合、特別な処理は行われません。
	完全ファイルチェックをマーク	データ読み取りの前に、完了マーカーファイルの存在をチェックします。これにより、データが準備完了状態であることが確認されます。この機能はデフォルトで無効になっています。この機能を有効にするには、トグルをクリックした後、設定の確認をクリックします。完了マーカーファイルのチェック設定ダイアログボックスで、パラメーターを設定します。完了マーカーファイルのパス：チェック対象のマーカーファイルのパスを入力します。システムパラメーター、グローバルパラメーター、およびクロスノードパラメーターがサポートされています。例： `/${check}/dataphin`。ヘルスチェック間隔 (秒)：各ファイルチェックの間隔を指定します。デフォルト値は 60 秒です。チェック期間 (分)：各ファイルチェックの継続時間を指定します。デフォルト値は 60 分です。重要チェック期間とデータ転送期間を合計することで、統合ノードの総実行時間が決定されます。チェック期間および実行タイムアウト設定は慎重に設定してください。チェック中はリソースが占有されます。必要に応じてこれらの設定を行ってください。チェック時間がノードのタイムアウト期間を超えた場合、ノードは強制終了されます。障害処理ポリシー: ファイルチェックが失敗した場合、データの抽出および書き込みは行われません。ポリシーをノードを失敗させるまたはノードを成功させるのいずれかに設定できます。ノードを失敗させる：チェックが失敗した場合、システムはチェックノードを「失敗」と設定し、統合ノードを実行しません。ノードを成功させる: チェックが失敗した場合、システムはチェックノードを「成功」と設定し、以降の統合ノードを継続して実行します。 OK をクリックして設定を保存します。
	ファイルが存在しない場合の処理	ソースファイルが存在しない場合のポリシーを指定します。サポートされるポリシーは「無視」およびノードを失敗させるです。完了マーカーファイルのチェックを有効にしている場合、このパラメーターは利用できません。無視：ファイルが存在しない場合、コンポーネントはそのファイルを無視し、他のファイルの読み取りを継続します。ノードを失敗させる：ファイルが存在しない場合、ノードは終了され、「失敗」と設定されます。
出力フィールド		出力フィールドが表示されます。以下の方法で出力フィールドを追加できます：一度に複数の出力フィールドを追加一括追加をクリックします。フィールドは JSON または TEXT 形式で設定できます。 JSON 形式： `// 例： [{ "startPos": 0, "endPos": 10, "name": "user_id", "type": "String" }, { "startPos": 11, "endPos": 15, "name": "user_name", "type": "String" }]` TEXT 形式：行区切り文字および列区切り文字： TEXT 形式でフィールドを一括追加する場合、行区切り文字および列区切り文字を設定できます。行区切り文字は、各フィールドの情報を区切るために使用されます。デフォルトは改行文字 `\n` であり、サポートされる区切り文字は `\n ; .` です。列区切り文字は、フィールド名とフィールド型を区切るために使用され、デフォルトは英語のカンマ (,) です。 `// 例： 0,10,user_id,String 11,15,user_name,String` 単一の出力フィールドを追加出力フィールドの追加をクリックし、ソース序数、フィールドを入力し、型を選択します。xls および xlsx ファイルの場合は、ソース序数としてカラムの大文字のアルファベットを必ず入力する必要があります。また、カラムの数値インデックス（0 から始まる）を入力することもできます。小文字を入力した場合、システムが自動的に大文字に変換します。シート名のエクスポートを有効にした場合、ソース序数は (-) となり、変更できません。既存の出力フィールドの管理追加済みのフィールドに対して、以下の操作を実行できます：操作列でアイコンをクリックしてフィールドを編集します。操作列でアイコンをクリックしてフィールドを削除します。

JsonL ファイルのパラメーター

パラメーター		説明
基本設定	ステップ名	シナリオに応じて、コンポーネントの名前を入力します。名前には以下のルールが適用されます：漢字、英字、アンダースコア (_), 数字のみ使用できます。最大長は 64 文字です。
	データソース	データソースを選択します。データソースは Dataphin で事前に構成済みであり、以下の条件を満たす必要があります：データソースの種類が FTP データソース、SFTP データソース、または FTPS データソースであることです。属性設定を実行するアカウントが、データソースに対してリードスルー権限を持っていることです。該当の権限がない場合は、権限をリクエストしてください。詳細については、「データソース権限のリクエスト、更新、返却」をご参照ください。また、データソースの横にある新規作成をクリックすると、プランニングモジュールに移動してデータソースを追加できます。詳細については、「FTP データソースの作成」をご参照ください。
	ファイルパス	ファイルパスを入力します。セミコロン (;) で区切ることで、複数のパスを指定できます。ワイルドカード文字が使用可能です。例： `/dataphin/*` と指定すると、`dataphin` ディレクトリ内のすべてのファイルが読み込まれます。
	圧縮形式	ソースファイルが圧縮されている場合、圧縮形式を選択します。Dataphin はこの設定に基づいてファイルを解凍します。サポートされる形式は、zip、gzip、tar.gz、bzip2、lzo、lzo-deflate、hadoop-snappy、framing-snappy です。説明 zip または tar.gz を圧縮形式として選択した場合、ファイル名の設定も可能です。
	ファイル名	圧縮パッケージ内のファイルに対するマッチングルールです。セミコロン (;) で区切ることで、複数のルールを指定できます。ワイルドカード文字が使用可能です。例： `` を指定すると、パッケージ内のすべてのファイルが読み込まれます。空欄のままにした場合、デフォルトで `` が使用されます。
	ファイルタイプ	JsonL ファイルタイプを選択します。これは解析方法を指定するものであり、ファイル名拡張子を制限するものではありません。
	データ内容開始行	コンポーネントがデータ読み取りを開始する行を設定します。デフォルト値は 1 であり、1 行目から読み取りを開始することを意味します。先頭の N 行をスキップする場合は、このパラメーターを N+1 に設定します。説明圧縮形式が選択されていない場合、常に「データ内容開始行」が適用されます。圧縮形式が選択されている場合、このパラメーターは tar.gz のみで有効です。
高度な設定	圧縮形式	ソースファイルが圧縮されている場合、圧縮形式を選択します。Dataphin はこの設定に基づいてファイルを解凍します。サポートされる形式は、zip、gzip、bzip2、lzo、lzo-deflate、hadoop-snappy、framing-snappy です。
	完了マーカーファイルのチェック	データ読み取りの前に、完了マーカーファイルの存在をチェックします。これにより、データが準備完了状態であることが確認されます。この機能はデフォルトで無効になっています。この機能を有効にするには、トグルをクリックした後、設定の確認をクリックします。完了マーカーファイルのチェック設定ダイアログボックスで、パラメーターを設定します。完了マーカーファイルのパス：チェック対象のマーカーファイルのパスを入力します。システムパラメーター、グローバルパラメーター、およびクロスノードパラメーターがサポートされています。例： `/${check}/dataphin`。ヘルスチェック間隔 (秒)：各ファイルチェックの間隔を指定します。デフォルト値は 60 秒です。チェック期間 (分)：各ファイルチェックの継続時間を指定します。デフォルト値は 60 分です。重要チェック期間とデータ転送期間を合計することで、統合ノードの総実行時間が決定されます。チェック期間および実行タイムアウト設定は慎重に設定してください。チェック中はリソースが占有されます。必要に応じてこれらの設定を行ってください。チェック時間がノードのタイムアウト期間を超えた場合、ノードは強制終了されます。障害処理ポリシー: ファイルチェックが失敗した場合、データの抽出および書き込みは行われません。ポリシーをノードを失敗させるまたはノードを成功させるのいずれかに設定できます。ノードを失敗させる：チェックが失敗した場合、システムはチェックノードを「失敗」と設定し、統合ノードを実行しません。ノードを成功させる: チェックが失敗した場合、システムはチェックノードを「成功」と設定し、以降の統合ノードを継続して実行します。 OK をクリックして設定を保存します。
	ファイルが存在しない場合の処理	ソースファイルが存在しない場合のポリシーを指定します。サポートされるポリシーは「無視」およびノードを失敗させるです。完了マーカーファイルのチェックを有効にしている場合、このパラメーターは利用できません。無視：ファイルが存在しない場合、コンポーネントはそのファイルを無視し、他のファイルの読み取りを継続します。ノードを失敗させる：ファイルが存在しない場合、ノードは終了され、「失敗」と設定されます。
出力フィールド		出力フィールドが表示されます。以下の方法で出力フィールドを追加できます：一度に複数の出力フィールドを追加一括追加をクリックします。フィールドは JSON または TEXT 形式で設定できます。 JSON 形式： `// 例： [{ "startPos": 0, "endPos": 10, "name": "user_id", "type": "String" }, { "startPos": 11, "endPos": 15, "name": "user_name", "type": "String" }]` TEXT 形式：行区切り文字および列区切り文字： TEXT 形式でフィールドを一括追加する場合、行区切り文字および列区切り文字を設定できます。行区切り文字は、各フィールドの情報を区切るために使用されます。デフォルトは改行文字 `\n` であり、サポートされる区切り文字には `\n ; .` があります。列区切り文字は、フィールド名とフィールド型を区切るために使用され、デフォルトはカンマ (,) です。 `// 例： 0,10,user_id,String 11,15,user_name,String` 単一の出力フィールドを追加出力フィールドの追加をクリックし、ソース序数、フィールドを入力し、型を選択します。xls および xlsx ファイルの場合は、ソース序数としてカラムの大文字のアルファベットを必ず入力する必要があります。また、カラムの数値インデックス（0 から始まる）を入力することもできます。小文字を入力した場合、システムが自動的に大文字に変換します。シート名のエクスポートを有効にした場合、ソース序数は (-) となり、変更できません。既存の出力フィールドの管理追加済みのフィールドに対して、以下の操作を実行できます：操作列でアイコンをクリックしてフィールドを編集します。操作列でアイコンをクリックしてフィールドを削除します。

確認をクリックして、FTP 入力ウィジェットの設定を確定します。