logstash-input-maxcompute を使用した MaxCompute からのデータ読み取り - ES

logstash-input-maxcompute プラグインを使用すると、MaxCompute のオフラインテーブルからデータを読み取ることができます。

前提条件

logstash-input-maxcompute プラグインがインストールされていること。
詳細については、「プラグインをインストールおよび削除する」をご参照ください。
Alibaba Cloud MaxCompute がアクティブ化され、プロジェクトが作成され、プロジェクトのテーブルが作成され、データがテーブルにインポートされていること。
詳細については、「準備」および「はじめに」をご参照ください。

logstash-input-maxcompute を使用する

前提条件が満たされたら、「構成ファイルを使用してパイプラインを管理する」に記載されている手順に従って、パイプラインを作成できます。パイプラインを作成するときは、「パラメーター」セクションの表の説明に基づいて、パイプラインパラメーターを構成します。パラメーターを構成したら、設定を保存してパイプラインをデプロイします。このようにして、Logstash をトリガーして MaxCompute からデータを読み取り、そのデータを宛先データソースに転送できます。

次のコードは、パイプライン構成の例を示しています。パラメーターの詳細については、「パラメーター」をご参照ください。

input {
    maxcompute {
        access_id => "Your accessId"  // アクセス ID
        access_key => "Your accessKey" // アクセスキー
        endpoint => "maxcompute service endpoint" // MaxCompute サービスエンドポイント
        project_name => "Your project" // プロジェクト名
        table_name => "Your table name" // テーブル名
        partition => "pt='p1',dt='d1'" // パーティション
        thread_num => 1 // スレッド数
        dirty_data_file => "/ssd/1/<Logstash cluster ID>/logstash/data/XXXXX.txt" // 処理失敗ログのファイルパス
    }
}

output {
    stdout {
        codec => rubydebug
    }
}

重要

デフォルトでは、Alibaba Cloud Logstash は同じ仮想プライベートクラウド (VPC) を介したデータ転送のみをサポートしています。ソースデータがインターネット上にある場合は、Logstash クラスターがインターネットにアクセスできるように、クラスターのネットワークアドレス変換 (NAT) ゲートウェイを構成します。詳細については、「インターネット経由のデータ転送用に NAT ゲートウェイを構成する」をご参照ください。
logstash-input-maxcompute は MaxCompute からデータ全体を読み取ります。

パラメーター

次の表は、logstash-input-maxcompute でサポートされているパラメーターを示しています。

パラメーター	タイプ	必須	説明
`endpoint`	string	はい	MaxCompute にアクセスするために使用するエンドポイント。詳細については、「リージョン別のエンドポイント (インターネット)」をご参照ください。
`access_id`	string	はい	Alibaba Cloud アカウントの AccessKey ID。
`access_key`	string	はい	Alibaba Cloud アカウントの AccessKey シークレット。
`project_name`	string	はい	MaxCompute プロジェクトの名前。
`table_name`	string	はい	MaxCompute テーブルの名前。
`partition`	string	はい	パーティションフィールド。MaxCompute テーブルはこのフィールドを使用してパーティション化されます。例： `sale_date='201911'` および `region='hangzhou'`。
`thread_num`	number	はい	スレッド数。デフォルト値： 1。
`retry_interval`	number	いいえ	再試行間隔。単位：秒。
`dirty_data_file`	string	はい	処理失敗のログを記録するファイルのパス。説明パスを `/ssd/1/<Logstash クラスター ID>/logstash/data/` に設定します。