バッチパイプラインによる Dataphin への Amazon S3 データ読み込み - Dataphin

Amazon S3 入力コンポーネントを構成すると、Amazon S3 データソースから Dataphin にデータを読み込んで、データ統合とデータ開発を行うことができます。このトピックでは、Amazon S3 入力コンポーネントを構成する方法について説明します。

前提条件

Amazon S3 データソースが作成されていること。詳細については、「Amazon S3 データソースの作成」をご参照ください。
Amazon S3 入力コンポーネントのプロパティを構成するには、アカウントにデータソースのリードスルー権限が必要です。必要な権限がない場合は、データソースへのアクセスをリクエストする必要があります。詳細については、「データソース権限のリクエスト」をご参照ください。

手順

Dataphin ホームページで、トップメニューバーから [開発] > [data Integration] を選択します。
統合ページのトップメニューバーで、プロジェクト を選択します（開発-本番モードでは環境の選択が必要です）。
左側のナビゲーションウィンドウで、[バッチパイプライン] をクリックし、[バッチパイプライン] リストで、開発する必要のある オフラインパイプライン をクリックして構成ページを開きます。
ページの右上隅にある [コンポーネントライブラリ] をクリックして、[コンポーネントライブラリ] パネルを開きます。
[コンポーネントライブラリ] パネルの左側のナビゲーションウィンドウで、[入力] を選択し、右側の入力コンポーネントリストで [amazon S3] コンポーネントを見つけて、キャンバスにドラッグします。
Amazon S3 入力コンポーネントカードのアイコンをクリックして、[amazon S3] [入力構成] ダイアログボックスを開きます。

[amazon S3 入力構成] ダイアログボックスで、パラメーターを構成します。

パラメーター	説明
ステップ名	Amazon S3 入力コンポーネントの名前。Dataphin はステップ名を自動的に生成しますが、ビジネスシナリオに応じて変更することもできます。命名規則は次のとおりです。日本語、英字、アンダースコア (_)、数字のみ使用できます。 64 文字を超えることはできません。
データソース	データソースのドロップダウンリストには、Dataphin 内のすべての Amazon S3 タイプのデータソースが表示されます。これには、リードスルー権限を持つデータソースと、リードスルー権限を持たないデータソースの両方が含まれます。アイコンをクリックして、現在のデータソース名をコピーします。リードスルー権限のないデータソースの場合は、データソースの後に [リクエスト] をクリックして、データソースのリードスルー権限をリクエストできます。詳細については、「データソース権限のリクエスト」をご参照ください。 Amazon S3 タイプのデータソースがない場合は、[データソースの作成] をクリックしてデータソースを作成します。詳細については、「Amazon S3 データソースの作成」をご参照ください。
オブジェクトプレフィックス	オブジェクトは、Amazon S3 にデータを格納するための基本単位です。Amazon S3 ではファイルとも呼ばれます。オブジェクトは、メタデータ、ユーザーデータ、およびファイル名（キー）で構成されます。オブジェクトのキーは、バケット内のオブジェクトを一意に識別します。入力コンポーネントは複数のオブジェクト構成をサポートしています。[+ オブジェクトプレフィックスを追加] をクリックして追加できます。データソースにディレクトリが構成されている場合、構成されたディレクトリがここに自動的に表示されます。変更することはできますが、他のディレクトリに対する権限があるかどうかを確認する必要があります。そうでない場合、タスクは失敗します。
ファイルタイプ	Text、CSV、xls、xlsx をサポートしています。ファイルタイプによって必要な構成パラメーターが異なります。 Text および CSV ファイルタイプに必要な構成パラメーターについては、「Text および CSV ファイルタイプ」をご参照ください。 xls および xlsx ファイルタイプに必要な構成パラメーターについては、「xls および xlsx ファイルタイプ」をご参照ください。
ファイルエンコーディング	UTF-8 および GBK エンコーディングをサポートしています。
NULL 値変換	デフォルトは空です。NULL 値に変換する任意の文字列を指定できます。
圧縮形式	zip、gzip、bzip2、lzo、lzo_deflate 圧縮形式をサポートしています。
出力フィールド	出力フィールドを表示します。出力フィールドは手動で追加できます。 [一括追加] をクリックします。 JSON 形式で一括構成します。たとえば、`"index": 3,"name": "user_id","type": "String"` は、ファイルの 4 番目の列を導入することを意味し、フィールド名は user_id、フィールドタイプは String です。 TEXT 形式で一括構成します。行区切り文字は、各フィールドの情報を区切るために使用されます。デフォルトは改行（\n）です。改行（\n）、セミコロン（;）、ピリオド（.）をサポートしています。列区切り文字は、フィールド名とフィールドタイプを区切るために使用されます。デフォルトはカンマ（,）です。 [出力フィールドの作成] をクリックし、[ソース序数]、[列] に入力し、ページのプロンプトに従って [タイプ] を選択します。テキストおよび CSV ファイルタイプのソース序数は、フィールドが配置されている列の序数（0 から開始）で入力する必要があります。追加されたフィールドに対して次の操作を実行することもできます。フィールドの横にあるアイコンをクリックアンドドラッグして、フィールドの位置を変更します。 [アクション] 列のアイコンをクリックして、既存のフィールドを編集します。 [アクション] 列のアイコンをクリックして、既存のフィールドを削除します。

Text および CSV ファイルタイプ

パラメーター	説明
列区切り文字	実際のストレージ状況に応じて、ファイル内の列間の区切り文字を入力します。入力しない場合、デフォルトはカンマ（,）です。
行区切り文字	実際のストレージ状況に応じて、ファイル内の行間の区切り文字を入力します。入力しない場合、デフォルトは改行（\n）です。
最初の行のコンテンツタイプ	最初の行がフィールド名の場合、フィールド名を選択できます。それ以外の場合は、データコンテンツを選択します。

xls および xlsx ファイルタイプ

パラメーター	説明
シート選択	名前またはインデックスで読み取るシートを選択できます。複数のシートを読み取る場合、データ形式は一致している必要があります。
シート名	読み取る複数のシートをカンマ（,）で区切ります。`` を入力してすべてのシートを読み取ることもできます。重要 `` とカンマ（,）を一緒に使用することはできません。
データコンテンツの開始行	デフォルトは 1 で、最初の行からデータコンテンツとして始まります。最初の N 行を無視する必要がある場合は、データコンテンツの開始行を N+1 に設定します。
データコンテンツの終了行	オプション。指定しない場合、デフォルトではデータのある最後の行まで読み取ります。重要コンテンツの終了行は、開始行以上である必要があります。そうでない場合、タスクはエラーを報告します。
シート名のエクスポート	デフォルトではエクスポートされません。エクスポートするように選択すると、ソースシートフィールドが出力フィールドに追加されます。

[確認] をクリックして、Amazon S3 入力コンポーネントのプロパティの構成を完了します。