すべてのプロダクト
Search
ドキュメントセンター

DataWorks:Azure Blob Storage データソース

最終更新日:Jun 11, 2025

DataWorks は、Azure Blob Storage に保存されているファイルからデータを読み取るための Azure Blob Storage Reader を提供しています。 Azure Blob Storage Reader を使用すると、Azure Blob Storage に保存されているファイルにアクセスし、ファイル内のデータを解析し、そのデータを宛先に同期できます。 このトピックでは、Azure Blob Storage データソースからデータを同期する機能について説明します。

制限

データ型マッピング

次の表に、Azure Blob Storage データソースでサポートされているデータ型を示します。

データ型

説明

STRING

テキスト。

LONG

整数。

BYTES

バイト配列。 読み取られたテキストはバイト配列に変換されます。 エンコード形式は UTF-8 です。

BOOL

ブール値。

DOUBLE

浮動小数点。

DATE

日付と時刻。 次の日付と時刻の形式がサポートされています。

  • YYYY-MM-dd HH:mm:ss

  • yyyy-MM-dd

  • HH:mm:ss

データソースを追加する

Azure Blob Storage データソースを使用する同期タスクを開発する前に、Azure Blob Storage データソースを DataWorks に追加する必要があります。 データソースを追加する方法については、「データソースを追加および管理する」をご参照ください。 データソースの構成タブで構成する必要があるパラメーターのヒントを表示できます。

データ同期タスクを開発する

単一テーブルのデータを同期するためのバッチ同期タスクを構成する

付録:コードとパラメーター

コードエディタを使用してバッチ同期タスクを構成する

コードエディタを使用してバッチ同期タスクを構成する場合は、コードエディタの形式要件に基づいて、関連データソースのリーダーのパラメーターを構成する必要があります。 形式要件の詳細については、「コードエディタを使用してバッチ同期タスクを構成する」をご参照ください。 次の情報では、コードエディタのリーダーのパラメーターの構成の詳細について説明します。

Azure Blob Storage Reader のコード

{
  "type": "job",
  "version": "2.0",
  "steps": [
    {
      "stepType": "azureblob",
      "parameter": {
        "datasource": "", // データソース名
        "object": ["f/z/1.csv"], // ファイルパス
        "fileFormat": "csv", // ソースファイルの形式
        "encoding": "utf8/gbk/...", // エンコード形式
        "fieldDelimiter": ",", // 列区切り文字
        "useMultiCharDelimiter": true, // 複数文字の区切り文字の使用
        "lineDelimiter": "\n", // 行区切り文字
        "skipHeader": true, // ヘッダーをスキップするかどうか
        "compress": "zip/gzip", // 圧縮形式
        "column": [ // 読み取る列
          {
            "index": 0, // 列のID
            "type": "long" // データ型
          },
          {
            "index": 1,
            "type": "boolean"
          },
          {
            "index": 2,
            "type": "double"
          },
          {
            "index": 3,
            "type": "string"
          },
          {
            "index": 4,
            "type": "date"
          }
        ]
      },
      "name": "Reader",
      "category": "reader"
    },
    {
      "stepType": "stream",
      "parameter": {},
      "name": "Writer",
      "category": "writer"
    }
  ],
  "setting": {
    "errorLimit": {
      "record": "0"
    },
    "speed": {
      "concurrent": 1
    }
  },
  "order": {
    "hops": [
      {
        "from": "Reader",
        "to": "Writer"
      }
    ]
  }
}

Azure Blob Storage Reader のコードのパラメーター

パラメーター

説明

必須

デフォルト値

datasource

データソースの名前。 追加されたデータソースの名前と同じである必要があります。 コードエディタを使用してデータソースを追加できます。

はい

デフォルト値なし

fileFormat

ソースファイルの形式。 有効な値:csvtextparquetorc

はい

デフォルト値なし

object

ファイルパス。 このパラメーターは、fileFormat パラメーターが csv または text に設定されている場合にのみ必須です。

説明

このパラメーターは、アスタリスク (*) と配列をサポートしています。

たとえば、a/b パスに保存されている 1.csv ファイルと 2.csv ファイルからデータを同期する場合、このパラメーターを a/b/*.csv に設定できます。

必須

fileFormat が csv または text に設定されている場合、必須

デフォルト値なし

path

ファイルパス。 このパラメーターは、fileFormat パラメーターが parquet または orc に設定されている場合にのみ必須です。

説明

このパラメーターは、アスタリスク(*)と配列をサポートしています。

たとえば、a/b パスに保存されている 1.orc ファイルと 2.orc ファイルからデータを同期する場合、このパラメーターを a/b/*.orc に設定できます。

WordPress 5.0 以上が必要です。

fileFormat が parquet または orc に設定されている場合、必須

デフォルト値なし

column

データを読み取る列。 type パラメーターはソースデータ型を指定します。 index パラメーターは、ソースファイル内の列の ID を指定します。 列 ID は 0 から始まります。 value パラメーターは、ソースから読み取られるのではなく、自動的に生成される定数列の列値を指定します。

デフォルトでは、リーダーは次の構成に基づいてすべてのデータを文字列として読み取ります。

column": ["*"]

column パラメーターは、次の形式でも構成できます。

"column":    
    {       
        "type": "long",       
        "index": 0 // ファイルの最初の列が読み取られます。 列の型は INT です。
    },    
    {       
        "type": "string",       
        "value": "alibaba" // STRING 型の定数列が Azure Blob Storage Reader によって生成されます。 列の定数値は alibaba です。
}
説明

column パラメーターの場合、type パラメーターと、index または value パラメーターのいずれかを構成する必要があります。

はい

"column": ["*"]

fieldDelimiter

データを読み取るファイルで使用される列区切り文字。

説明
  • Azure Blob Storage Reader には列区切り文字を指定する必要があります。 デフォルトの列区切り文字はカンマ(,)です。 列区切り文字を指定しない場合は、デフォルトの列区切り文字が使用されます。

  • 区切り文字が表示できない文字の場合は、\u001b\u007c など、Unicode でエンコードされた値を入力します。

はい

,

lineDelimiter

データを読み取るファイルで使用される行区切り文字。

説明

このパラメーターは、fileFormat パラメーターが text に設定されている場合にのみ有効です。

いいえ

デフォルト値なし

compress

ファイルの圧縮形式。 デフォルトでは、このパラメーターは空のままです。これは、ファイルが圧縮されていないことを示します。 次の圧縮形式がサポートされています:GZIPBZIP2ZIP

いいえ

デフォルト値なし

encoding

データを読み取るファイルのエンコード形式。

いいえ

utf-8

nullFormat

ヌルポインタを表す文字列。 TXT ファイルでは、標準の文字列でヌルポインタを表すことはできません。 このパラメーターを使用して、ヌルポインタを表す文字列を定義できます。

  • nullFormat:"null" を指定すると、リーダーは表示可能な文字列 null をヌルポインタと見なします。

  • nullFormat:"\u0001" を指定すると、リーダーは表示できない文字列 \u0001 をヌルポインタと見なします。

  • nullFormat パラメーターを構成しない場合、リーダーはソースデータを変換しません。

いいえ

デフォルト値なし

skipHeader

CSV ファイルのヘッダーをスキップするかどうかを指定します。 有効な値:

  • True:リーダーは CSV ファイルのヘッダーを読み取ります。

  • False:リーダーは CSV ファイルのヘッダーを無視します。

説明

skipHeader パラメーターは、圧縮ファイルでは使用できません。

いいえ

false

parquetSchema

読み取る Parquet ファイルのスキーマ。 fileFormat パラメーターを parquet に設定する場合は、parquetSchema パラメーターを構成する必要があります。 スクリプト全体が JSON 構文に準拠していることを確認してください。

message MessageTypeName {
required, dataType, columnName;
......................;
}

parquetSchema パラメーターには、次のフィールドが含まれています。

  • MessageTypeName:メッセージタイプの名前。

  • required:列を空にすることができないことを示します。 ビジネス要件に基づいて optional を指定することもできます。 すべての列に optional を指定することをお勧めします。

  • dataType:Parquet ファイルは、BOOLEAN、INT32、INT64、INT96、FLOAT、DOUBLE、BINARY、FIXED_LEN_BYTE_ARRAY など、さまざまなフィールドタイプをサポートしています。 フィールドに文字列が格納されている場合は、このパラメーターを BINARY に設定します。

  • 最後の行も含め、各行はセミコロン(;)で終わる必要があります。

構成例:

"parquetSchema": "message m { optional int32 minute_id; optional int32 dsp_id; optional int32 adx_pid; optional int64 req; optional int64 res; optional int64 suc; optional int64 imp; optional double revenue; }"

いいえ

デフォルト値なし

csvReaderConfig

CSV ファイルの読み取りに必要な構成。 パラメーター値は MAP 型と一致する必要があります。 CSV ファイルリーダーを使用して、CSV ファイルからデータを読み取ることができます。 このパラメーターを構成しない場合は、デフォルト値が使用されます。

いいえ

デフォルト値なし

maxRetryTimes

ファイルのダウンロードに失敗した場合に許可される最大再試行回数。

説明
  • このパラメーターを 0 に設定すると、ダウンロード再試行機能が無効になります。

  • このパラメーターは詳細パラメーターであり、コードエディタでのみ使用できます。

いいえ

0

retryIntervalSeconds

ファイルのダウンロードに失敗した場合に許可される再試行間隔。 単位:秒。

説明

このパラメーターは詳細パラメーターであり、コードエディタでのみ使用できます。

いいえ

5