Azure Blob Storage データソースを使用すると、Azure Blob Storage に格納されたファイルを読み取り・解析し、データを宛先のデータソースへ同期できます。本トピックでは、DataWorks における Azure Blob Storage データソースのデータ同期機能について説明します。
制限事項
Azure Blob Storage データソースは、以下のデータの型をサポートしています。
データの型 | 説明 |
STRING | テキスト型です。 |
LONG | 整数型です。 |
BYTES | バイト配列です。テキスト内容は読み取られ、UTF-8 エンコーディングされたバイト配列に変換されます。 |
BOOL | ブール値型です。 |
DOUBLE | 浮動小数点型です。 |
DATE | 日付および時刻型です。以下の日付・時刻フォーマットがサポートされています:
|
データソースの追加
DataWorks で同期タスクを開発する前に、データソース管理の手順に従って、必要なデータソースを DataWorks に追加する必要があります。データソースを追加する際には、DataWorks コンソール内の パラメーターの説明を参照して、各パラメーターの意味を確認してください。
同期タスクの開発
同期タスクの設定入口および手順については、以下の設定ガイドをご参照ください。
単一テーブル向けオフライン同期タスクの設定
詳細については、「コードレス UI によるタスク設定」および「コードエディタによるタスク設定」をご参照ください。
コードエディタで使用可能なすべてのパラメーターおよびスクリプトのデモについては、「付録:スクリプトのデモとパラメーターの説明」セクションをご参照ください。
付録:スクリプトのデモとパラメーターの説明
コードエディタを用いたバッチ同期タスクの設定
コードエディタを用いてバッチ同期タスクを設定する場合、統一されたスクリプト形式要件に基づき、スクリプト内で関連パラメーターを構成する必要があります。詳細については、「コードエディタによるタスク設定」をご参照ください。以下に、コードエディタを用いたバッチ同期タスク設定時にデータソースに対して構成する必要があるパラメーターについて説明します。
Reader スクリプトのデモ
{
"type": "job",
"version": "2.0",
"steps": [
{
"stepType": "azureblob",
"parameter": {
"datasource": "",
"object": ["f/z/1.csv"],
"fileFormat": "csv",
"encoding": "utf8/gbk/...",
"fieldDelimiter": ",",
"useMultiCharDelimiter": true,
"lineDelimiter": "\n",
"skipHeader": true,
"compress": "zip/gzip",
"column": [
{
"index": 0,
"type": "long"
},
{
"index": 1,
"type": "boolean"
},
{
"index": 2,
"type": "double"
},
{
"index": 3,
"type": "string"
},
{
"index": 4,
"type": "date"
}
]
},
"name": "Reader",
"category": "reader"
},
{
"stepType": "stream",
"parameter": {},
"name": "Writer",
"category": "writer"
}
],
"setting": {
"errorLimit": {
"record": "0"
},
"speed": {
"concurrent": 1
}
},
"order": {
"hops": [
{
"from": "Reader",
"to": "Writer"
}
]
}
}Reader スクリプトのパラメーター
パラメーター | 説明 | 必須 | デフォルト値 |
datasource | データソースの名前です。コードエディタではデータソースの追加が可能です。このパラメーターの値は、追加したデータソースの名前と一致させる必要があります。 | はい | なし |
fileFormat | ソースのファイル形式です。有効な値は、 | はい | なし |
object | ファイルパスです。fileFormat が csv または text の場合に使用します。 説明 このパラメーターはワイルドカード文字 たとえば、 | はい fileFormat が csv または text の場合に必須です。 | なし |
path | ファイルパスです。fileFormat が parquet または orc の場合に使用します。 説明 このパラメーターはワイルドカード文字 たとえば、 | はい fileFormat が parquet または orc の場合に必須です。 | なし |
column | 読み取るフィールドの一覧です。type はソースデータのデータの型を指定します。index はテキストファイル内の列番号(0 から始まる)を指定します。value は現在の型が定数であることを示します。データはソースファイルから読み取られず、指定した value に基づいて対応する列が自動生成されます。 デフォルトでは、すべてのデータを STRING 型として読み取ることができます。構成例は以下のとおりです。 列フィールド情報を明示的に指定することもできます。構成例は以下のとおりです。 説明 指定した column 情報において、type の指定は必須です。index または value いずれか一方を必ず指定してください。 | はい | すべてのデータを STRING 型として読み取ります。 |
fieldDelimiter | データ読み取り時のフィールド区切り文字です。 説明
| はい | , |
lineDelimiter | データ読み取り時の行区切り文字です。 説明 このパラメーターは、fileFormat が text の場合にのみ有効です。 | いいえ | なし |
compress | テキストファイルの圧縮タイプです。デフォルトでは空欄のままとし、圧縮なしを意味します。サポートされる圧縮タイプは、 | いいえ | 圧縮なし |
encoding | 読み取るファイルのエンコード形式です。 | いいえ | utf-8 |
nullFormat | テキストファイルでは、標準的な文字列でヌルポインタを定義できません。データ同期システムでは、nullFormat パラメーターを提供し、どの文字列がヌルを表すかを定義できます。例:
| いいえ | なし |
skipHeader | CSV ファイルの場合、skipHeader パラメーターを使用して、テーブルヘッダーを読み取るかどうかを指定します。
説明 skipHeader パラメーターは、圧縮ファイルではサポートされていません。 | いいえ | false |
parquetSchema | Azure Blob Storage から Parquet ファイル形式でデータを読み取る際に構成するパラメーターです。fileFormat が parquet に設定されている場合にのみ有効です。Parquet ファイルに格納されているデータの型を指定します。parquetSchema を指定した後は、全体の構成が JSON 構文に準拠していることを確認してください。 parquetSchema の書式は以下のとおりです:
以下のコードは構成例です。 | いいえ | なし |
csvReaderConfig | CSV ファイル読み取り用のパラメーターです。Map 型のパラメーターです。CsvReader を使用して CSV ファイルを読み取ります。このパラメーターを構成しない場合、デフォルト値が使用されます。 | いいえ | なし |
maxRetryTimes | ファイルダウンロード失敗時の最大リトライ回数です。 説明
| いいえ | 0 |
retryIntervalSeconds | ファイルダウンロード失敗時の再試行間隔(秒単位)です。 説明 このパラメーターはコードレス UI ではサポートされておらず、コードエディタでのみ利用可能です。 | いいえ | 5 |