OSS 入力コンポーネントは、OSS データソースからデータを読み取ります。OSS データソースから他のデータソースにデータを同期する必要があるシナリオでは、まず OSS 入力コンポーネントのソースデータソースを構成し、次にデータ同期の宛先データソースを構成する必要があります。このトピックでは、OSS 入力コンポーネントを構成する方法について説明します。
前提条件
OSS データソースが作成されていること。詳細については、「OSS データソースの作成」をご参照ください。
OSS 入力コンポーネントのプロパティを構成するアカウントが、データソースに対するリードスルー権限を持っていること。権限がない場合は、データソースに対する権限をリクエストする必要があります。詳細については、「データソースに対する権限のリクエスト」をご参照ください。
手順
Dataphin ホームページの上部ナビゲーションバーで、[開発] > [Data Integration] を選択します。
統合ページの上部ナビゲーションバーで、プロジェクトを選択します(開発 - 本番モードでは、環境を選択する必要があります)。
左側のナビゲーションウィンドウで、[バッチパイプライン] をクリックします。[バッチパイプライン] リストで、開発するオフラインパイプラインをクリックして、構成ページを開きます。
ページの右上隅にある [コンポーネントライブラリ] をクリックして、[コンポーネントライブラリ] パネルを開きます。
[コンポーネントライブラリ] パネルの左側のナビゲーションウィンドウで、[入力] を選択します。右側の入力コンポーネントリストで [OSS] コンポーネントを見つけて、キャンバスにドラッグします。
OSS 入力コンポーネントカードの
アイコンをクリックして、[OSS] [入力構成] ダイアログボックスを開きます。[OSS 入力構成] ダイアログボックスで、次のパラメーターを構成します。
パラメーター
説明
[ステップ名]
OSS 入力コンポーネントの名前。Dataphin は自動的にステップ名を生成します。ビジネスシナリオに基づいて名前を変更することもできます。名前は次の要件を満たしている必要があります。
名前に使用できるのは、漢字、英字、アンダースコア (_)、および数字のみです。
名前は 64 文字以下にする必要があります。
[データソース]
データソースを選択します。Dataphin システムで構成され、次の条件を満たすデータソースを選択します。
データソースタイプが OSS データソース であること。
プロパティ を構成するアカウントが、データソースに対するリードスルー権限を持っていること。権限がない場合は、データソースに対する権限をリクエストする必要があります。詳細については、「データソースに対する権限のリクエスト」をご参照ください。
データソース の横にある [作成] をクリックして計画モジュールに移動し、データソースを追加することもできます。詳細については、「OSS データソースの作成」をご参照ください。
[オブジェクトプレフィックス]
データを読み取る OSS オブジェクトの名前。複数のオブジェクト名を指定できます。たとえば、OSS のバケットに phin.txt ファイルを含む data フォルダが含まれている場合、オブジェクトプレフィックスを
data/phin.txtに設定して特定のファイルを同期できます。フォルダ内のすべてのファイルを同期するには、data/*などのワイルドカード文字を使用する必要があります。[ファイルタイプ]
システムは、テキスト、CSV、xls、および xlsx 形式のファイルの読み取りをサポートしています。形式が異なると、必要な構成情報も異なります。
テキストおよび CSV 形式: 構成の詳細については、「テキストおよび CSV 形式」をご参照ください。
xls および xlsx 形式: 構成の詳細については、「xls および xlsx 形式」をご参照ください。
[出力フィールド]
出力フィールドが表示されます。出力フィールドは手動で追加できます。
[一括追加] をクリックします。
JSON 形式で構成します。例:
// 例: [{"index": 0,"name": "user_id","type": "String"}, {"index": 1,"name": "user_name","type": "String"}]説明index は指定されたオブジェクトの列番号、name はインポート後のフィールド名、type はインポート後のフィールドタイプを示します。たとえば、
"index":3,"name":"user_id","type":"String"は、ファイルの 4 列目がインポートされ、フィールド名が user_id、フィールドタイプが String であることを示します。TEXT 形式で構成します。例:
1,user_name,String行区切り文字は、各フィールドの情報を区切るために使用されます。デフォルト値は改行 (\n) です。システムは、改行 (\n)、セミコロン (;)、およびピリオド (.) をサポートしています。
列区切り文字は、フィールド名とフィールドタイプを区切るために使用されます。デフォルト値はカンマ (,) です。
[出力フィールドの作成][出力フィールドの作成] をクリックし、プロンプトに従って [ソースインデックス]、[列] を入力し、[タイプ] を選択します。テキストおよび CSV ファイルタイプの場合、ソースインデックス フィールドにフィールドが配置されている列の数値インデックスを入力する。インデックスは 0 から始まります。
追加されたフィールドに対して次の操作を実行することもできます。
フィールドの横にある
アイコンをクリックしてドラッグし、位置を変更します。列の [アクション]
アイコンをクリックして、既存のフィールドを編集します。列の [アクション]
アイコンをクリックして、既存のフィールドを削除します。
テキストおよび CSV 形式
パラメーター
説明
[列区切り文字]
ファイルの列区切り文字。このパラメーターを指定しない場合、システムはデフォルト値としてカンマ (,) を使用します。
[行区切り文字]
ファイルの行区切り文字。このパラメーターを指定しない場合、システムはデフォルト値として改行 (\n) を使用します。
[ファイルエンコーディング]
データを読み取るファイルのエンコード形式。システムは、ファイルエンコーディング に UTF-8 および GBK をサポートしています。
[NULL 値]
テキストボックスに NULL として表すフィールドを入力します。これらのフィールドがソースに存在する場合、対応する部分は NULL に変換されます。
[圧縮形式]
ファイルの圧縮形式。デフォルトでは、このパラメーターは空のままです。これは、ファイルが圧縮されていないことを示します。システムは次の圧縮形式をサポートしています。
[zip]
[gzip]
[bzip2]
[lzo]
[lzo_deflate]
最初の行のコンテンツタイプ
テキストの最初の行のコンテンツタイプを選択します。最初の行のコンテンツタイプは、[データコンテンツ] または [列名] にすることができます。
xls および xlsx 形式
パラメーター
説明
シートの選択
名前またはインデックスで読み取るシートを選択できます。複数のシートを読み取る場合は、それらが同じデータ形式であることを確認してください。
名前別: 読み取る [シート名] を入力する必要があります。
インデックス別: 読み取る [シートインデックス] を入力する必要があります。0 から開始します。
データコンテンツの開始行
データコンテンツの開始行を入力します。デフォルト値は 1 です。これは、データコンテンツが最初の行から始まることを意味します。最初の N 行を無視する場合は、データコンテンツの開始行を N+1 に設定します。
データコンテンツの終了行
データコンテンツの終了行を入力します。このパラメーターを指定しない場合、システムはデフォルトでデータを含む最後の行までデータを読み取ります。
シート名のエクスポート
データのソースシート名をエクスポートするかどうかを選択します。エクスポートされるコンテンツは
{シート名}です。ファイルエンコーディング
システムは UTF-8 および GBK エンコーディングをサポートしています。
圧縮形式
システムは、zip、gzip、bzip2、lzo、および lzo_deflate 圧縮形式をサポートしています。
NULL 値の変換
任意の文字列を NULL 値に変換するように指定できます。
[OK] をクリックして、OSS 入力コンポーネントのプロパティ構成を完了します。
次の手順
入力コンポーネントを構成した後、ダウンストリームコンポーネントを構成してデータ同期を実装できます。詳細については、「統合コンポーネントライブラリの開発説明」をご参照ください。