すべてのプロダクト
Search
ドキュメントセンター

Dataphin:OSS 入力コンポーネントの構成

最終更新日:May 29, 2025

OSS 入力コンポーネントは、OSS データソースからデータを読み取ります。OSS データソースから他のデータソースにデータを同期する必要があるシナリオでは、まず OSS 入力コンポーネントのソースデータソースを構成し、次にデータ同期の宛先データソースを構成する必要があります。このトピックでは、OSS 入力コンポーネントを構成する方法について説明します。

前提条件

  • OSS データソースが作成されていること。詳細については、「OSS データソースの作成」をご参照ください。

  • OSS 入力コンポーネントのプロパティを構成するアカウントが、データソースに対するリードスルー権限を持っていること。権限がない場合は、データソースに対する権限をリクエストする必要があります。詳細については、「データソースに対する権限のリクエスト」をご参照ください。

手順

  1. Dataphin ホームページの上部ナビゲーションバーで、[開発] > [Data Integration] を選択します。

  2. 統合ページの上部ナビゲーションバーで、プロジェクトを選択します(開発 - 本番モードでは、環境を選択する必要があります)。

  3. 左側のナビゲーションウィンドウで、[バッチパイプライン] をクリックします。[バッチパイプライン] リストで、開発するオフラインパイプラインをクリックして、構成ページを開きます。

  4. ページの右上隅にある [コンポーネントライブラリ] をクリックして、[コンポーネントライブラリ] パネルを開きます。

  5. [コンポーネントライブラリ] パネルの左側のナビゲーションウィンドウで、[入力] を選択します。右側の入力コンポーネントリストで [OSS] コンポーネントを見つけて、キャンバスにドラッグします。

  6. OSS 入力コンポーネントカードの image アイコンをクリックして、[OSS] [入力構成] ダイアログボックスを開きます。

  7. [OSS 入力構成] ダイアログボックスで、次のパラメーターを構成します。

    パラメーター

    説明

    [ステップ名]

    OSS 入力コンポーネントの名前。Dataphin は自動的にステップ名を生成します。ビジネスシナリオに基づいて名前を変更することもできます。名前は次の要件を満たしている必要があります。

    • 名前に使用できるのは、漢字、英字、アンダースコア (_)、および数字のみです。

    • 名前は 64 文字以下にする必要があります。

    [データソース]

    データソースを選択します。Dataphin システムで構成され、次の条件を満たすデータソースを選択します。

    • データソースタイプが OSS データソース であること。

    • プロパティ を構成するアカウントが、データソースに対するリードスルー権限を持っていること。権限がない場合は、データソースに対する権限をリクエストする必要があります。詳細については、「データソースに対する権限のリクエスト」をご参照ください。

    データソース の横にある [作成] をクリックして計画モジュールに移動し、データソースを追加することもできます。詳細については、「OSS データソースの作成」をご参照ください。

    [オブジェクトプレフィックス]

    データを読み取る OSS オブジェクトの名前。複数のオブジェクト名を指定できます。たとえば、OSS のバケットに phin.txt ファイルを含む data フォルダが含まれている場合、オブジェクトプレフィックスを data/phin.txt に設定して特定のファイルを同期できます。フォルダ内のすべてのファイルを同期するには、data/* などのワイルドカード文字を使用する必要があります。

    [ファイルタイプ]

    システムは、テキストCSV、xls、および xlsx 形式のファイルの読み取りをサポートしています。形式が異なると、必要な構成情報も異なります。

    [出力フィールド]

    出力フィールドが表示されます。出力フィールドは手動で追加できます。

    • [一括追加] をクリックします。

      • JSON 形式で構成します。例:

        // 例:
        [{"index": 0,"name": "user_id","type": "String"},
         {"index": 1,"name": "user_name","type": "String"}]
        説明

        index は指定されたオブジェクトの列番号、name はインポート後のフィールド名、type はインポート後のフィールドタイプを示します。たとえば、"index":3,"name":"user_id","type":"String" は、ファイルの 4 列目がインポートされ、フィールド名が user_id、フィールドタイプが String であることを示します。

      • TEXT 形式で構成します。例:

        1,user_name,String
        • 行区切り文字は、各フィールドの情報を区切るために使用されます。デフォルト値は改行 (\n) です。システムは、改行 (\n)、セミコロン (;)、およびピリオド (.) をサポートしています。

        • 列区切り文字は、フィールド名とフィールドタイプを区切るために使用されます。デフォルト値はカンマ (,) です。

    • [出力フィールドの作成][出力フィールドの作成] をクリックし、プロンプトに従って [ソースインデックス][列] を入力し、[タイプ] を選択します。テキストおよび CSV ファイルタイプの場合、ソースインデックス フィールドにフィールドが配置されている列の数値インデックスを入力する。インデックスは 0 から始まります。

    追加されたフィールドに対して次の操作を実行することもできます。

    • フィールドの横にある image アイコンをクリックしてドラッグし、位置を変更します。

    • 列の [アクション]agag アイコンをクリックして、既存のフィールドを編集します。

    • 列の [アクション]agfag アイコンをクリックして、既存のフィールドを削除します。

  8. テキストおよび CSV 形式

    パラメーター

    説明

    [列区切り文字]

    ファイルの列区切り文字。このパラメーターを指定しない場合、システムはデフォルト値としてカンマ (,) を使用します。

    [行区切り文字]

    ファイルの行区切り文字。このパラメーターを指定しない場合、システムはデフォルト値として改行 (\n) を使用します。

    [ファイルエンコーディング]

    データを読み取るファイルのエンコード形式。システムは、ファイルエンコーディングUTF-8 および GBK をサポートしています。

    [NULL 値]

    テキストボックスに NULL として表すフィールドを入力します。これらのフィールドがソースに存在する場合、対応する部分は NULL に変換されます。

    [圧縮形式]

    ファイルの圧縮形式。デフォルトでは、このパラメーターは空のままです。これは、ファイルが圧縮されていないことを示します。システムは次の圧縮形式をサポートしています。

    • [zip]

    • [gzip]

    • [bzip2]

    • [lzo]

    • [lzo_deflate]

    最初の行のコンテンツタイプ

    テキストの最初の行のコンテンツタイプを選択します。最初の行のコンテンツタイプは、[データコンテンツ] または [列名] にすることができます。

    xls および xlsx 形式

    パラメーター

    説明

    シートの選択

    名前またはインデックスで読み取るシートを選択できます。複数のシートを読み取る場合は、それらが同じデータ形式であることを確認してください。

    • 名前別: 読み取る [シート名] を入力する必要があります。

    • インデックス別: 読み取る [シートインデックス] を入力する必要があります。0 から開始します

    データコンテンツの開始行

    データコンテンツの開始行を入力します。デフォルト値は 1 です。これは、データコンテンツが最初の行から始まることを意味します。最初の N 行を無視する場合は、データコンテンツの開始行を N+1 に設定します。

    データコンテンツの終了行

    データコンテンツの終了行を入力します。このパラメーターを指定しない場合、システムはデフォルトでデータを含む最後の行までデータを読み取ります。

    シート名のエクスポート

    データのソースシート名をエクスポートするかどうかを選択します。エクスポートされるコンテンツは {シート名} です。

    ファイルエンコーディング

    システムは UTF-8 および GBK エンコーディングをサポートしています。

    圧縮形式

    システムは、zipgzipbzip2lzo、および lzo_deflate 圧縮形式をサポートしています。

    NULL 値の変換

    任意の文字列を NULL 値に変換するように指定できます。

  9. [OK] をクリックして、OSS 入力コンポーネントのプロパティ構成を完了します。

次の手順

入力コンポーネントを構成した後、ダウンストリームコンポーネントを構成してデータ同期を実装できます。詳細については、「統合コンポーネントライブラリの開発説明」をご参照ください。