すべてのプロダクト
Search
ドキュメントセンター

Simple Log Service:OSS-HDFS データ転送ジョブの作成

最終更新日:Apr 08, 2025

OSS-HDFS (JindoFS) は、クラウドネイティブのデータレイクストレージ機能です。OSS-HDFS は一元化されたメタデータ管理機能を提供し、Hadoop 分散ファイルシステム (HDFS) API と完全に互換性があります。 OSS-HDFS を使用して、ビッグデータおよび AI 分野のデータレイクベースのコンピューティングシナリオでデータを管理できます。Simple Log Service を使用すると、データを OSS-HDFS に転送できます。このトピックでは、OSS-HDFS データ転送ジョブを作成する方法について説明します。

前提条件

サポートされているリージョン

  • Simple Log Service は、同じリージョン内でのみデータを OSS-HDFS に転送できます。使用するプロジェクトと OSS バケットは、同じリージョンに存在する必要があります。

  • OSS-HDFS 転送ジョブは、ドイツ (フランクフルト) リージョンでのみ作成できます。

データ転送ジョブの作成

  1. Simple Log Service コンソール にログオンします。

  2. プロジェクト セクションで、管理するプロジェクトをクリックします。

    image

  3. [ログストレージ] > [ログストア] タブで、ログストアの左側にある [>] アイコンをクリックします。次に、[データ処理] > [エクスポート] > [Object Storage Service] を選択します。

  4. ポインターを [Object Storage Service] に移動し、[+] アイコンをクリックします。

  5. [データ転送ジョブの作成] ダイアログボックスで、[OSS-HDFS エクスポート] を選択し、[OK] をクリックします。

  6. [OSS-HDFS 転送] パネルで、パラメーターを構成し、[OK] をクリックします。

    次の表に、パラメーターについて説明します。

    重要

    OSS-HDFS データ転送ジョブを作成した後、ジョブのステータスと OSS-HDFS に転送されたデータに基づいて、ジョブが要件を満たしているかどうかを確認できます。

    パラメーター

    説明

    ジョブ名

    データ転送ジョブの一意の名前。

    表示名

    データ転送ジョブの表示名。

    ジョブの説明

    データ転送ジョブの説明。

    OSS-HDFS バケット

    データの転送先となる OSS バケットの名前。

    重要
    • 既存の OSS バケットを指定する必要があります。 OSS バケットがプロジェクトと同じリージョンにあることを確認してください。

    • OSS-HDFS が有効になっている OSS バケットを指定する必要があります。

    • 標準ストレージまたは低頻度アクセス (IA) ストレージタイプの OSS バケットを指定できます。 デフォルトでは、転送されたデータを格納する生成された OSS オブジェクトのストレージタイプは、指定された OSS バケットのストレージタイプと同じです。 詳細については、「ストレージタイプの概要」をご参照ください。

    • IA ストレージタイプの OSS バケットには、最小保存期間と最小請求サイズという制限が適用されます。 詳細については、「ストレージタイプ間の違い」をご参照ください。

    • アーカイブ、コールドアーカイブ、およびディープコールドアーカイブストレージタイプの OSS バケットは、OSS-HDFS をサポートしていません。

    ファイル配信ディレクトリ

    OSS バケット内のデータの転送先ディレクトリ。 ディレクトリ名は、スラッシュ (/) またはバックスラッシュ (\) で始めることはできません。

    OSS-HDFS データ転送ジョブを作成した後、ログストア内のデータがディレクトリに転送されます。

    オブジェクトサフィックス

    転送されたデータが格納される OSS オブジェクトのサフィックス。 オブジェクトサフィックスを指定しない場合、Simple Log Service は、指定したストレージフォーマットと圧縮タイプに基づいてオブジェクトサフィックスを自動的に生成します。 例: .suffix

    パーティションフォーマット

    OSS バケットにサブディレクトリを生成するために使用されるパーティションフォーマット。 サブディレクトリは、転送時間に基づいて動的に生成されます。 デフォルトのパーティションフォーマットは %Y/%m/%d/%H/%M です。 パーティションフォーマットはスラッシュ (/) で始めることはできません。 パーティションフォーマットの例の詳細については、「パーティションフォーマット」をご参照ください。 パーティションフォーマットのパラメーターの詳細については、「strptime API」をご参照ください。

    OSS-HDFS 書き込み RAM ロール

    OSS-HDFS データ転送ジョブが OSS バケットにデータを書き込むことを承認するために使用されるメソッド。 有効な値:

    • デフォルトロール: OSS-HDFS データ転送ジョブは、AliyunLogDefaultRole デフォルトロールを担って OSS バケットにデータを書き込みます。 詳細については、「デフォルトロールを使用したデータへのアクセス」をご参照ください。

    • カスタムロール: OSS-HDFS データ転送ジョブは、カスタムロールを担って OSS バケットにデータを書き込みます。

      このオプションを選択した場合は、事前にカスタムロールに OSS バケットにデータを書き込む権限を付与する必要があります。 次に、[OSS-HDFS 書き込み RAM ロール] フィールドにカスタムロールの ARN を入力します。 ARN の取得方法の詳細については、ビジネスシナリオに基づいて、次のいずれかのトピックをご参照ください。

    ログストア読み取り RAM ロール

    OSS-HDFS データ転送ジョブがログストアからデータを読み取ることを承認するために使用されるメソッド。 有効な値:

    • デフォルトロール: OSS-HDFS データ転送ジョブは、AliyunLogDefaultRole デフォルトロールを担ってログストアからデータを読み取ります。 詳細については、「デフォルトロールを使用したデータへのアクセス」をご参照ください。

    • カスタムロール: OSS-HDFS データ転送ジョブは、カスタムロールを担ってログストアからデータを読み取ります。

      このオプションを選択した場合は、事前にカスタムロールにログストアからデータを読み取る権限を付与する必要があります。 次に、[ログストア読み取り RAM ロール] フィールドにカスタムロールの ARN を入力します。 ARN の取得方法の詳細については、ビジネスシナリオに基づいて、次のいずれかのトピックをご参照ください。

    ストレージフォーマット

    データのストレージフォーマット。 データが Simple Log Service から OSS-HDFS に転送された後、データはさまざまなフォーマットで格納できます。 詳細については、「JSON フォーマット」、「CSV フォーマット」、「Parquet フォーマット」、および「ORC フォーマット」をご参照ください。

    圧縮

    OSS-HDFS に転送されるデータを圧縮するかどうかを指定します。 有効な値:

    • 圧縮なし (なし): データは圧縮されません。

    • 圧縮 (snappy): データは snappy アルゴリズムを使用して圧縮されます。 これにより、OSS バケットのストレージ容量が少なくなります。 詳細については、「snappy」をご参照ください。

    • 圧縮 (zstd): データは zstd アルゴリズムを使用して圧縮されます。 これにより、OSS バケットのストレージ容量が少なくなります。

    • 圧縮 (gzip): データは gzip アルゴリズムを使用して圧縮されます。 これにより、OSS バケットのストレージ容量が少なくなります。

    転送タグ

    Simple Log Service の予約フィールド。 詳細については、「予約フィールド」をご参照ください。

    バッチサイズ

    シャード内のログのデータ量がこのパラメーターの値に達すると、ジョブはデータの転送を開始します。 この値は、各 OSS-HDFS オブジェクトの生データのサイズも決定します。 有効な値: 5 ~ 256。 単位: MB。

    説明

    バッチサイズパラメーターは、Simple Log Service に格納されているログのデータ量ではなく、シャードから読み取られるログのデータ量を指定します。 バッチ間隔パラメーターの設定が満たされた場合にのみ、ジョブはデータの読み取りと転送を開始します。

    バッチ間隔

    シャードから取得した最初のログから n 番目のログまでの時間差がこのパラメーターの値に達するか超えると、ジョブはデータの転送を開始します。 有効な値: 300 ~ 900。 単位: 秒。

    転送レイテンシ

    データ転送のレイテンシ。 たとえば、値を 3600 に設定すると、データは 1 時間後に転送されます。 2023 年 6 月 5 日 10:00:00 に生成されたデータは、2023 年 6 月 5 日 11:00:00 まで指定された OSS バケットに書き込まれません。 制限の詳細については、「構成項目」をご参照ください。

    開始時間の範囲

    データ転送ジョブがログストアからデータのプルを開始する時間。

    タイムゾーン

    時間をフォーマットするために使用されるタイムゾーン。

    [タイムゾーン][パーティションフォーマット] の両方を構成すると、システムは構成に基づいて OSS バケットにサブディレクトリを生成します。

データの表示

データが OSS-HDFS に転送された後、OSS-HDFS 内のデータを表示できます。 詳細については、「OSS コンソールを使用して OSS-HDFS にアクセスする」をご参照ください。