OSS 出力コンポーネントは、外部データベースから OSS へのデータ書き込み、または接続済みストレージシステムからビッグデータプラットフォームへのデータのレプリケーションおよびプッシュを OSS へ行い、統合および再処理を実現します。本トピックでは、OSS 出力コンポーネントの設定手順について説明します。
前提条件
OSS データソースが事前に作成済みである必要があります。詳細については、「OSS データソースの作成」をご参照ください。
OSS 出力コンポーネントのプロパティを設定するアカウントには、データソースに対するリードスルー権限が必要です。権限が付与されていない場合は、データソースの権限を申請してください。詳細については、「データソース権限の申請」をご参照ください。
操作手順
Dataphin ホームページで、トップメニューバーに移動し、[開発] > [データ統合] を選択します。
統合ページの上部メニューバーで、**[プロジェクト]** を選択します(Dev-Prod モードの場合は、環境を選択する必要があります)。
左側のナビゲーションウィンドウで、[バッチパイプライン] をクリックします。[バッチパイプライン] リストで、開発対象の [オフラインパイプライン] を選択して、その構成ページにアクセスします。
右上隅の [コンポーネントライブラリ] をクリックして、[コンポーネントライブラリ] パネルを開きます。
[コンポーネントライブラリ] パネルの左側のナビゲーションウィンドウで [出力] を選択し、右側のリストで [OSS] コンポーネントを見つけ、キャンバスにドラッグします。
アイコンをクリックしてドラッグし、ターゲットコンポーネントを現在の OSS 出力コンポーネントに接続します。OSS 出力コンポーネントカード上の
アイコンをクリックして、[OSS 出力設定] ダイアログボックスを開きます。
以下のパラメーターを、[OSS 出力設定] ダイアログボックスで設定します。
パラメーター
説明
基本設定
ステップ名
OSS 出力コンポーネントの名前を入力します。以下の規則に従ってください:
漢字、英字、数字、アンダースコア (_) を使用できます。
最大 64 文字まで指定可能です。
データソース
Dataphin で事前設定済みのデータソースを選択するか、[作成] をクリックして [管理センター] に移動し、新しいデータソースを設定します。 詳細については、「OSS データソースの作成」をご参照ください。
構成に使用するアカウントが、データソースに対してライトスルー権限を持っていることを確認してください。権限がない場合は、データソースの権限を申請してください。詳細については、「データソース権限の申請」をご参照ください。
ファイルタイプ
[テキスト]と [CSV] のいずれかのファイルタイプを選択します。
ファイルエンコーディング
[UTF-8] および [GBK] エンコーディングに対応しています。
オブジェクトプレフィックス
OSS オブジェクトのプレフィックスです。複数のオブジェクトプレフィックスを指定できます。たとえば、OSS バケット内に `data` フォルダがあり、その中に `phin.txt` ファイルが含まれている場合、特定のファイルを同期するには、オブジェクトプレフィックスを
data/phin.txtと設定します。フォルダ内のすべてのファイルを同期するには、ワイルドカードを使用します(例:data/*)。プレフィックス競合
プレフィックス競合時の処理方法を選択します:既存ファイルの置き換え、既存ファイルへの追加、またはエラー報告です。各オプションの動作は以下のとおりです:
[既存ファイルの置き換え]:書き込み前に、指定されたオブジェクトプレフィックスに一致するすべてのオブジェクトを削除します。たとえば、オブジェクトプレフィックスが
Dataphinの場合、名前がDataphinで始まるすべてのオブジェクトが削除されます。[既存ファイルへの追加]:設定済みのプレフィックスを用いて直接書き込みを行い、ファイル名の重複を回避するためにランダムな UUID サフィックスを付加します。
[競合時にエラーを報告]:指定されたパスにプレフィックスに一致するオブジェクトが存在する場合、エラーを報告します。たとえば、オブジェクトプレフィックスが
Dataphinであり、同名のオブジェクトDataphinが存在する場合、エラーが報告されます。
書き込みファイル数
宛先 OSS へのファイル書き込みポリシーは、単一ファイル書き込みまたは複数ファイル書き込みをサポートしています。
[単一ファイル]:宛先 OSS に 1 つのファイルに書き込みます。
[複数ファイル]:宛先 OSS に複数のファイルにデータを書き込みます。この場合、サフィックス形式も設定する必要があります。連番サフィックス(例:
_0、_1、_2)またはランダム UUID サフィックスのいずれかを選択できます。ファイル数はタスクの並列度によって決定されます。説明複数ファイル書き込みを選択した場合、タスクの並列度が 1 であってもサフィックスが生成されます(例:
_1またはランダムなuuid)。既存ファイルへの追加書き込みを行う場合、サフィックスはランダム UUID のみとなります。
高度な設定
列区切り文字
ターゲットテーブルへの書き込み時に使用する列区切り文字を指定します。デフォルトはカンマ (,) です。
行区切り文字
ターゲットテーブルへの書き込み時に使用する行区切り文字を指定します。未指定の場合、デフォルトは改行 (\n) です。
ヌル値
任意項目です。NULL 値を表す文字列を定義します。
ファイル名拡張子
オブジェクト名の最終サフィックスとして、
.csvや.textのような拡張子を設定できます。出力フィールド名
フィールド名を出力ファイルの最初の行に含めるには、[はい] を選択します。または、それらを除外するには、[いいえ] を選択します。
フィールドマッピング
入力フィールド
上流コンポーネントからの出力フィールドを表示します。
出力フィールド
出力フィールドを表示します。Dataphin では、[一括追加] オプションおよび [出力フィールドの作成] オプションを使用して、出力フィールドの構成が可能です:
[一括追加]:「一括追加」をクリックして、JSON 形式または TEXT 形式での一括構成をサポートします。
JSON 形式の例:
// 例: [{"name": "user_id","type": "String"}, {"name": "user_name","type": "String"}]説明`name` はインポートされるフィールドの名前を指定し、`type` はインポート後のフィールドのデータの型を指定します。たとえば、
"name":"user_id","type":"String"は、`user_id` フィールドをインポートし、そのデータの型を String に設定することを意味します。TEXT 形式の例:
// 例: user_id,String user_name,String各フィールドの情報は行区切り文字で区切られます(デフォルトは改行 \n)。改行 (\n)、セミコロン (;)、ピリオド (.) をサポートしています。
列区切り文字(デフォルトはカンマ (,))により、フィールド名とフィールドの型が区切られます。
[出力フィールドの作成]
「[+ 出力フィールドの作成]」ボタンをクリックし、「[列]」に値を入力し、画面上の指示に従って適切な「[タイプ]」を選択します。
[上流フィールドのコピー]
[上流フィールドのコピー] を選択して、上流フィールドの名前と一致する出力フィールドを自動的に生成します。
[出力フィールドの管理]:追加済みフィールドに対して以下の操作を実行できます:
また、追加済みフィールドに対して以下の操作も可能です:
[アクション] 列の
アイコンを クリックして、既存の フィールドを 編集します。既存のフィールドを削除するには、[アクション] 列の
アイコンをクリックします。
マッピング
ソーステーブルの入力フィールドをターゲットテーブルの出力フィールドにマッピングすることで、データ同期を容易にします。マッピング方法は以下のとおりです:
同名マッピング: 同じ名前のフィールドをマッピングします。
同行マッピング:ソーステーブルとターゲットテーブルのフィールド名が異なる場合に、同じ行にあるフィールドをマッピングします。
[確認] をクリックして、OSS 出力コンポーネントの構成を完了します。