すべてのプロダクト
Search
ドキュメントセンター

MaxCompute:データアップロードシナリオとツール

最終更新日:Jan 08, 2025

このトピックでは、MaxComputeにデータをアップロードする方法、またはMaxComputeからデータをダウンロードする方法について説明します。 このトピックでは、必要なサービス接続、SDK、ツール、およびデータのインポートとエクスポート、クラウドへのデータ移行などの一般的な操作についても説明します。

背景情報

MaxComputeは、データのアップロードとダウンロードに次のタイプのチャネルを提供します。 ビジネス要件に基づいてチャネルを選択できます。

  • MaxCompute Tunnel: データをバッチでアップロードおよびダウンロードできます。

  • Streaming Tunnel: ストリーミングモードでMaxComputeにデータを書き込むことができます。

  • DataHub: ストリーミングデータを処理できます。 DataHubを使用すると、ストリーミングデータのサブスクライブ、ストリーミングデータの公開と配布、ストリーミングデータのMaxComputeへのアーカイブを行うことができます。

特徴

  • MaxCompute Tunnelを使用したデータのアップロード

    MaxCompute Tunnelを使用して、単一のバッチ操作を実行してMaxComputeにデータをアップロードできます。 たとえば、外部ファイル、外部データベース、外部オブジェクトストレージシステム、またはログファイルのデータをMaxComputeにアップロードできます。 MaxCompute Tunnelは、次のアップロードソリューションをサポートしています。

    • Tunnel SDK: Tunnel SDKのインターフェイスを使用して、MaxComputeにデータをアップロードできます。 詳細については、「MaxCompute Tunnel」をご参照ください。

    • データ同期: DataWorksのData Integrationサービスを使用して、データを抽出、変換、MaxComputeにロードできます。 詳細については、「概要」をご参照ください。

    • オープンソースツールとプラグイン: SqoopKettleFlumeFluentd、およびOracle GoldenGate (OGG) を使用して、MaxComputeにデータをアップロードできます。

    • MaxComputeの組み込みツール: MaxComputeクライアントは、Tunnel SDKに基づく組み込みコマンドを提供します。 Tunnelコマンドを使用してMaxComputeにデータをアップロードできます。 Tunnelコマンドの使用方法の詳細については、「Tunnelコマンド」をご参照ください。

    説明

    オフラインデータ同期を実行するには、DataWorksのdata Integrationを使用することを推奨します。 詳細については、「概要」をご参照ください。

  • Streaming Tunnelを使用したデータの書き込み

    MaxCompute Streaming Tunnelを使用すると、ストリーミングモードでMaxComputeにデータを書き込むことができ、MaxCompute TunnelのAPIおよびバックエンドサービスとは異なる一連のAPIおよびバックエンドサービスを提供します。 Streaming Tunnelは、次のデータ書き込みソリューションをサポートしています。

    • Data Integrationのデータ同期: ストリーミングデータをMaxComputeに書き込むことができます。 詳細については、「リアルタイム同期ノードの概要」をご参照ください。

    • データシッピング: ストリーミング書き込みAPIを統合するデータシッピングモードを使用して、ストリーミングデータをMaxComputeに書き込むことができます。 たとえば、Simple Log ServiceとApsaraMQ For Kafkaを使用して、MaxComputeにデータを送信できます。

    • リアルタイムでMaxComputeにデータを書き込む: Realtime Compute for Apache Flinkを使用して、リアルタイムでMaxComputeにストリーミングデータを書き込むことができます。

ソリューションの信頼性

MaxComputeは、サービスレベル契約 (SLA) 保証を提供します。 デフォルトでは、MaxCompute TunnelとStreaming Tunnelは無料の共有リソースを使用します。 MaxCompute TunnelとStreaming Tunnelを使用してデータをアップロードまたはダウンロードする場合、使用するソリューションの信頼性を考慮する必要があります。 トンネルサービスは、データアクセスシーケンスに基づいてサービスに利用可能なスロットを割り当てる。

  • データアクセスに使用できるリソースがない場合、リソースが解放されるまでデータにアクセスできません。

  • 有効なリクエストの数が5分以内に100に達しない場合、トンネルサービスは利用できません。

  • リクエストの待ち時間とリクエストの制限は、SLA保証の範囲に含まれていません。

注意事項

ネットワークステータスは、Tunnelのアップロードとダウンロードに大きな影響を与えます。 通常、アップロード速度は1メガバイト/秒から10メガバイト/秒です。 大量のデータをアップロードする場合は、クラウド製品相互接続ネットワークまたは仮想プライベートクラウド (VPC) のトンネルエンドポイントを設定することを推奨します。 ECS (Elastic Compute Service) インスタンスまたは専用回線を使用して、クラウド製品相互接続ネットワークまたはVPCのTunnelエンドポイントにアクセスできます。 アップロード速度が遅い場合は、マルチスレッドのアップロード方法を使用できます。

Tunnelエンドポイントの詳細については、「エンドポイント」をご参照ください。