Dataphin バッチパイプライン入力コンポーネントで OSS データを同期 - Dataphin

OSS 入力コンポーネントは、OSS データソースからデータを読み取ります。OSS データソースから他のデータソースにデータを同期する必要があるシナリオでは、まず OSS 入力コンポーネントのソースデータソースを構成し、次にデータ同期の宛先データソースを構成する必要があります。このトピックでは、OSS 入力コンポーネントを構成する方法について説明します。

前提条件

OSS データソースが作成されていること。詳細については、「OSS データソースの作成」をご参照ください。
OSS 入力コンポーネントのプロパティを構成するアカウントが、データソースに対するリードスルー権限を持っていること。権限がない場合は、データソースに対する権限をリクエストする必要があります。詳細については、「データソースに対する権限のリクエスト」をご参照ください。

手順

Dataphin ホームページの上部ナビゲーションバーで、[開発] > [Data Integration] を選択します。
統合ページの上部ナビゲーションバーで、プロジェクトを選択します（開発 - 本番モードでは、環境を選択する必要があります）。
左側のナビゲーションウィンドウで、[バッチパイプライン] をクリックします。[バッチパイプライン] リストで、開発するオフラインパイプラインをクリックして、構成ページを開きます。
ページの右上隅にある [コンポーネントライブラリ] をクリックして、[コンポーネントライブラリ] パネルを開きます。
[コンポーネントライブラリ] パネルの左側のナビゲーションウィンドウで、[入力] を選択します。右側の入力コンポーネントリストで [OSS] コンポーネントを見つけて、キャンバスにドラッグします。
OSS 入力コンポーネントカードのアイコンをクリックして、[OSS] [入力構成] ダイアログボックスを開きます。

[OSS 入力構成] ダイアログボックスで、次のパラメーターを構成します。

パラメーター	説明
[ステップ名]	OSS 入力コンポーネントの名前。Dataphin は自動的にステップ名を生成します。ビジネスシナリオに基づいて名前を変更することもできます。名前は次の要件を満たしている必要があります。名前に使用できるのは、漢字、英字、アンダースコア (_)、および数字のみです。名前は 64 文字以下にする必要があります。
[データソース]	データソースを選択します。Dataphin システムで構成され、次の条件を満たすデータソースを選択します。データソースタイプが OSS データソースであること。プロパティを構成するアカウントが、データソースに対するリードスルー権限を持っていること。権限がない場合は、データソースに対する権限をリクエストする必要があります。詳細については、「データソースに対する権限のリクエスト」をご参照ください。データソースの横にある [作成] をクリックして計画モジュールに移動し、データソースを追加することもできます。詳細については、「OSS データソースの作成」をご参照ください。
[オブジェクトプレフィックス]	データを読み取る OSS オブジェクトの名前。複数のオブジェクト名を指定できます。たとえば、OSS のバケットに phin.txt ファイルを含む data フォルダが含まれている場合、オブジェクトプレフィックスを `data/phin.txt` に設定して特定のファイルを同期できます。フォルダ内のすべてのファイルを同期するには、`data/*` などのワイルドカード文字を使用する必要があります。
[ファイルタイプ]	システムは、テキスト、CSV、xls、および xlsx 形式のファイルの読み取りをサポートしています。形式が異なると、必要な構成情報も異なります。テキストおよび CSV 形式: 構成の詳細については、「テキストおよび CSV 形式」をご参照ください。 xls および xlsx 形式: 構成の詳細については、「xls および xlsx 形式」をご参照ください。
[出力フィールド]	出力フィールドが表示されます。出力フィールドは手動で追加できます。 [一括追加] をクリックします。 JSON 形式で構成します。例: `// 例: [{"index": 0,"name": "user_id","type": "String"}, {"index": 1,"name": "user_name","type": "String"}]` 説明 index は指定されたオブジェクトの列番号、name はインポート後のフィールド名、type はインポート後のフィールドタイプを示します。たとえば、`"index":3,"name":"user_id","type":"String"` は、ファイルの 4 列目がインポートされ、フィールド名が user_id、フィールドタイプが String であることを示します。 TEXT 形式で構成します。例: `1,user_name,String` 行区切り文字は、各フィールドの情報を区切るために使用されます。デフォルト値は改行 (\n) です。システムは、改行 (\n)、セミコロン (;)、およびピリオド (.) をサポートしています。列区切り文字は、フィールド名とフィールドタイプを区切るために使用されます。デフォルト値はカンマ (,) です。 [出力フィールドの作成][出力フィールドの作成] をクリックし、プロンプトに従って [ソースインデックス]、[列] を入力し、[タイプ] を選択します。テキストおよび CSV ファイルタイプの場合、ソースインデックスフィールドにフィールドが配置されている列の数値インデックスを入力する。インデックスは 0 から始まります。追加されたフィールドに対して次の操作を実行することもできます。フィールドの横にあるアイコンをクリックしてドラッグし、位置を変更します。列の [アクション] アイコンをクリックして、既存のフィールドを編集します。列の [アクション] アイコンをクリックして、既存のフィールドを削除します。

テキストおよび CSV 形式

パラメーター	説明
[列区切り文字]	ファイルの列区切り文字。このパラメーターを指定しない場合、システムはデフォルト値としてカンマ (,) を使用します。
[行区切り文字]	ファイルの行区切り文字。このパラメーターを指定しない場合、システムはデフォルト値として改行 (\n) を使用します。
[ファイルエンコーディング]	データを読み取るファイルのエンコード形式。システムは、ファイルエンコーディングに UTF-8 および GBK をサポートしています。
[NULL 値]	テキストボックスに NULL として表すフィールドを入力します。これらのフィールドがソースに存在する場合、対応する部分は NULL に変換されます。
[圧縮形式]	ファイルの圧縮形式。デフォルトでは、このパラメーターは空のままです。これは、ファイルが圧縮されていないことを示します。システムは次の圧縮形式をサポートしています。 [zip] [gzip] [bzip2] [lzo] [lzo_deflate]
最初の行のコンテンツタイプ	テキストの最初の行のコンテンツタイプを選択します。最初の行のコンテンツタイプは、[データコンテンツ] または [列名] にすることができます。

xls および xlsx 形式

パラメーター	説明
シートの選択	名前またはインデックスで読み取るシートを選択できます。複数のシートを読み取る場合は、それらが同じデータ形式であることを確認してください。名前別: 読み取る [シート名] を入力する必要があります。インデックス別: 読み取る [シートインデックス] を入力する必要があります。0 から開始します。
データコンテンツの開始行	データコンテンツの開始行を入力します。デフォルト値は 1 です。これは、データコンテンツが最初の行から始まることを意味します。最初の N 行を無視する場合は、データコンテンツの開始行を N+1 に設定します。
データコンテンツの終了行	データコンテンツの終了行を入力します。このパラメーターを指定しない場合、システムはデフォルトでデータを含む最後の行までデータを読み取ります。
シート名のエクスポート	データのソースシート名をエクスポートするかどうかを選択します。エクスポートされるコンテンツは `{シート名}` です。
ファイルエンコーディング	システムは UTF-8 および GBK エンコーディングをサポートしています。
圧縮形式	システムは、zip、gzip、bzip2、lzo、および lzo_deflate 圧縮形式をサポートしています。
NULL 値の変換	任意の文字列を NULL 値に変換するように指定できます。

[OK] をクリックして、OSS 入力コンポーネントのプロパティ構成を完了します。

次の手順

入力コンポーネントを構成した後、ダウンストリームコンポーネントを構成してデータ同期を実装できます。詳細については、「統合コンポーネントライブラリの開発説明」をご参照ください。