このトピックでは、MaxComputeにデータをアップロードする方法、またはMaxComputeからデータをダウンロードする方法について説明します。 このトピックでは、必要なサービス接続、SDK、ツール、およびデータのインポートとエクスポート、クラウドへのデータ移行などの一般的な操作についても説明します。
背景情報
MaxComputeは、データのアップロードとダウンロードに次のタイプのチャネルを提供します。 ビジネス要件に基づいてチャネルを選択できます。
MaxCompute Tunnel: データをバッチでアップロードおよびダウンロードできます。
Streaming Tunnel: ストリーミングモードでMaxComputeにデータを書き込むことができます。
DataHub: ストリーミングデータを処理できます。 DataHubを使用すると、ストリーミングデータのサブスクライブ、ストリーミングデータの公開と配布、ストリーミングデータのMaxComputeへのアーカイブを行うことができます。
特徴
MaxCompute Tunnelを使用したデータのアップロード
MaxCompute Tunnelを使用して、単一のバッチ操作を実行してMaxComputeにデータをアップロードできます。 たとえば、外部ファイル、外部データベース、外部オブジェクトストレージシステム、またはログファイルのデータをMaxComputeにアップロードできます。 MaxCompute Tunnelは、次のアップロードソリューションをサポートしています。
Tunnel SDK: Tunnel SDKのインターフェイスを使用して、MaxComputeにデータをアップロードできます。 詳細については、「MaxCompute Tunnel」をご参照ください。
データ同期: DataWorksのData Integrationサービスを使用して、データを抽出、変換、MaxComputeにロードできます。 詳細については、「概要」をご参照ください。
オープンソースツールとプラグイン: Sqoop、Kettle、Flume、Fluentd、およびOracle GoldenGate (OGG) を使用して、MaxComputeにデータをアップロードできます。
MaxComputeの組み込みツール: MaxComputeクライアントは、Tunnel SDKに基づく組み込みコマンドを提供します。 Tunnelコマンドを使用してMaxComputeにデータをアップロードできます。 Tunnelコマンドの使用方法の詳細については、「Tunnelコマンド」をご参照ください。
説明オフラインデータ同期を実行するには、DataWorksのdata Integrationを使用することを推奨します。 詳細については、「概要」をご参照ください。
Streaming Tunnelを使用したデータの書き込み
MaxCompute Streaming Tunnelを使用すると、ストリーミングモードでMaxComputeにデータを書き込むことができ、MaxCompute TunnelのAPIおよびバックエンドサービスとは異なる一連のAPIおよびバックエンドサービスを提供します。 Streaming Tunnelは、次のデータ書き込みソリューションをサポートしています。
Data Integrationのデータ同期: ストリーミングデータをMaxComputeに書き込むことができます。 詳細については、「リアルタイム同期ノードの概要」をご参照ください。
データシッピング: ストリーミング書き込みAPIを統合するデータシッピングモードを使用して、ストリーミングデータをMaxComputeに書き込むことができます。 たとえば、Simple Log ServiceとApsaraMQ For Kafkaを使用して、MaxComputeにデータを送信できます。
リアルタイムでMaxComputeにデータを書き込む: Realtime Compute for Apache Flinkを使用して、リアルタイムでMaxComputeにストリーミングデータを書き込むことができます。
ソリューションの信頼性
MaxComputeは、サービスレベル契約 (SLA) 保証を提供します。 デフォルトでは、MaxCompute TunnelとStreaming Tunnelは無料の共有リソースを使用します。 MaxCompute TunnelとStreaming Tunnelを使用してデータをアップロードまたはダウンロードする場合、使用するソリューションの信頼性を考慮する必要があります。 トンネルサービスは、データアクセスシーケンスに基づいてサービスに利用可能なスロットを割り当てる。
データアクセスに使用できるリソースがない場合、リソースが解放されるまでデータにアクセスできません。
有効なリクエストの数が5分以内に100に達しない場合、トンネルサービスは利用できません。
リクエストの待ち時間とリクエストの制限は、SLA保証の範囲に含まれていません。
注意事項
ネットワークステータスは、Tunnelのアップロードとダウンロードに大きな影響を与えます。 通常、アップロード速度は1メガバイト/秒から10メガバイト/秒です。 大量のデータをアップロードする場合は、クラウド製品相互接続ネットワークまたは仮想プライベートクラウド (VPC) のトンネルエンドポイントを設定することを推奨します。 ECS (Elastic Compute Service) インスタンスまたは専用回線を使用して、クラウド製品相互接続ネットワークまたはVPCのTunnelエンドポイントにアクセスできます。 アップロード速度が遅い場合は、マルチスレッドのアップロード方法を使用できます。
Tunnelエンドポイントの詳細については、「エンドポイント」をご参照ください。