すべてのプロダクト
Search
ドキュメントセンター

DataWorks:Azure Blob Storage

最終更新日:Mar 01, 2026

Azure Blob Storage データソースを使用すると、Azure Blob Storage に格納されたファイルを読み取り・解析し、データを宛先のデータソースへ同期できます。本トピックでは、DataWorks における Azure Blob Storage データソースのデータ同期機能について説明します。

制限事項

Azure Blob Storage データソースは、以下のデータの型をサポートしています。

データの型

説明

STRING

テキスト型です。

LONG

整数型です。

BYTES

バイト配列です。テキスト内容は読み取られ、UTF-8 エンコーディングされたバイト配列に変換されます。

BOOL

ブール値型です。

DOUBLE

浮動小数点型です。

DATE

日付および時刻型です。以下の日付・時刻フォーマットがサポートされています:

  • YYYY-MM-dd HH:mm:ss

  • yyyy-MM-dd

  • HH:mm:ss

データソースの追加

DataWorks で同期タスクを開発する前に、データソース管理の手順に従って、必要なデータソースを DataWorks に追加する必要があります。データソースを追加する際には、DataWorks コンソール内の パラメーターの説明を参照して、各パラメーターの意味を確認してください

同期タスクの開発

同期タスクの設定入口および手順については、以下の設定ガイドをご参照ください。

単一テーブル向けオフライン同期タスクの設定

付録:スクリプトのデモとパラメーターの説明

コードエディタを用いたバッチ同期タスクの設定

コードエディタを用いてバッチ同期タスクを設定する場合、統一されたスクリプト形式要件に基づき、スクリプト内で関連パラメーターを構成する必要があります。詳細については、「コードエディタによるタスク設定」をご参照ください。以下に、コードエディタを用いたバッチ同期タスク設定時にデータソースに対して構成する必要があるパラメーターについて説明します。

Reader スクリプトのデモ

{
  "type": "job",
  "version": "2.0",
  "steps": [
    {
      "stepType": "azureblob",
      "parameter": {
        "datasource": "",
        "object": ["f/z/1.csv"],
        "fileFormat": "csv",
        "encoding": "utf8/gbk/...",
        "fieldDelimiter": ",",
        "useMultiCharDelimiter": true,
        "lineDelimiter": "\n",
        "skipHeader": true,
        "compress": "zip/gzip",
        "column": [
          {
            "index": 0,
            "type": "long"
          },
          {
            "index": 1,
            "type": "boolean"
          },
          {
            "index": 2,
            "type": "double"
          },
          {
            "index": 3,
            "type": "string"
          },
          {
            "index": 4,
            "type": "date"
          }
        ]
      },
      "name": "Reader",
      "category": "reader"
    },
    {
      "stepType": "stream",
      "parameter": {},
      "name": "Writer",
      "category": "writer"
    }
  ],
  "setting": {
    "errorLimit": {
      "record": "0"
    },
    "speed": {
      "concurrent": 1
    }
  },
  "order": {
    "hops": [
      {
        "from": "Reader",
        "to": "Writer"
      }
    ]
  }
}

Reader スクリプトのパラメーター

パラメーター

説明

必須

デフォルト値

datasource

データソースの名前です。コードエディタではデータソースの追加が可能です。このパラメーターの値は、追加したデータソースの名前と一致させる必要があります。

はい

なし

fileFormat

ソースのファイル形式です。有効な値は、csvtextparquet、および orc です。

はい

なし

object

ファイルパスです。fileFormat が csv または text の場合に使用します。

説明

このパラメーターはワイルドカード文字 * をサポートしており、配列として構成できます。

たとえば、a/b/1.csv および a/b/2.csv のファイルを同期する場合は、このパラメーターを a/b/*.csv に設定します。

はい

fileFormat が csv または text の場合に必須です。

なし

path

ファイルパスです。fileFormat が parquet または orc の場合に使用します。

説明

このパラメーターはワイルドカード文字 * をサポートしており、配列として構成できます。

たとえば、a/b/1.orc および a/b/2.orc のファイルを同期する場合は、このパラメーターを a/b/*.orc に設定します。

はい

fileFormat が parquet または orc の場合に必須です。

なし

column

読み取るフィールドの一覧です。type はソースデータのデータの型を指定します。index はテキストファイル内の列番号(0 から始まる)を指定します。value は現在の型が定数であることを示します。データはソースファイルから読み取られず、指定した value に基づいて対応する列が自動生成されます。

デフォルトでは、すべてのデータを STRING 型として読み取ることができます。構成例は以下のとおりです。

"column": ["*"]

列フィールド情報を明示的に指定することもできます。構成例は以下のとおりです。

"column":    
    {       
        "type": "long",       
        "index": 0 // Azure Blob Storage のテキストファイルの最初の列から int フィールドを取得します。
    },    
    {       
        "type": "string",       
        "value": "alibaba" // Azure Blob Storage Reader 内で、現在のフィールドとして文字列 'alibaba' を生成します。
    }
説明

指定した column 情報において、type の指定は必須です。index または value いずれか一方を必ず指定してください。

はい

すべてのデータを STRING 型として読み取ります。

fieldDelimiter

データ読み取り時のフィールド区切り文字です。

説明
  • Azure Blob Storage Reader がデータを読み取る際には、必ずフィールド区切り文字を指定する必要があります。未指定の場合、デフォルト値はコンマ (,) です。UI 上でもコンマ (,) がデフォルト値となります。

  • 区切り文字が非表示文字である場合、その Unicode エンコーディングを入力します。例:\u001b\u007c

はい

,

lineDelimiter

データ読み取り時の行区切り文字です。

説明

このパラメーターは、fileFormat が text の場合にのみ有効です。

いいえ

なし

compress

テキストファイルの圧縮タイプです。デフォルトでは空欄のままとし、圧縮なしを意味します。サポートされる圧縮タイプは、gzipbzip2、および zip です。

いいえ

圧縮なし

encoding

読み取るファイルのエンコード形式です。

いいえ

utf-8

nullFormat

テキストファイルでは、標準的な文字列でヌルポインタを定義できません。データ同期システムでは、nullFormat パラメーターを提供し、どの文字列がヌルを表すかを定義できます。例:

  • nullFormat:"null"(表示可能文字)を設定し、ソースデータが null の場合、データ同期サービスはそれをヌルフィールドとして処理します。

  • nullFormat:"\u0001"(非表示文字)を設定し、ソースデータが文字列 "\u0001" の場合、データ同期サービスはそれをヌルフィールドとして処理します。

  • "nullFormat" パラメーターを指定しない場合、ソースデータは変換されずに宛先に書き込まれます。

いいえ

なし

skipHeader

CSV ファイルの場合、skipHeader パラメーターを使用して、テーブルヘッダーを読み取るかどうかを指定します。

  • true:データ同期時にテーブルヘッダーを読み取ります。

  • false:データ同期時にテーブルヘッダーを読み取りません。

説明

skipHeader パラメーターは、圧縮ファイルではサポートされていません。

いいえ

false

parquetSchema

Azure Blob Storage から Parquet ファイル形式でデータを読み取る際に構成するパラメーターです。fileFormatparquet に設定されている場合にのみ有効です。Parquet ファイルに格納されているデータの型を指定します。parquetSchema を指定した後は、全体の構成が JSON 構文に準拠していることを確認してください。

message MessageTypeName {
Required/Optional, DataType, ColumnName;
......................;
}

parquetSchema の書式は以下のとおりです:

  • MessageTypeName:任意の名前を入力します。

  • Required/Optional:required はフィールドが空でないことを示します。optional はフィールドが空でもよいことを示します。すべてのフィールドを optional に設定してください。

  • データの型:Parquet ファイルでは、BOOLEAN、Int32、Int64、Int96、FLOAT、DOUBLE、BINARY(文字列型には BINARY を使用)、fixed_len_byte_array がサポートされています。

  • 各列定義はセミコロン (;) で終了する必要があります。最終行もセミコロンで終了する必要があります。

以下のコードは構成例です。

"parquetSchema": "message m { optional int32 minute_id; optional int32 dsp_id; optional int32 adx_pid; optional int64 req; optional int64 res; optional int64 suc; optional int64 imp; optional double revenue; }"

いいえ

なし

csvReaderConfig

CSV ファイル読み取り用のパラメーターです。Map 型のパラメーターです。CsvReader を使用して CSV ファイルを読み取ります。このパラメーターを構成しない場合、デフォルト値が使用されます。

いいえ

なし

maxRetryTimes

ファイルダウンロード失敗時の最大リトライ回数です。

説明
  • この機能を無効にするには、このパラメーターを 0 に設定します。

  • このパラメーターはコードレス UI ではサポートされておらず、コードエディタでのみ利用可能です。

いいえ

0

retryIntervalSeconds

ファイルダウンロード失敗時の再試行間隔(秒単位)です。

説明

このパラメーターはコードレス UI ではサポートされておらず、コードエディタでのみ利用可能です。

いいえ

5