すべてのプロダクト
Search
ドキュメントセンター

DataWorks:データのアップロード

最終更新日:Mar 24, 2026

DataWorks のデータアップロード機能を使用すると、ローカルファイル、データ分析のワークブック、Object Storage Service (OSS) ファイル、HTTP ファイルなどのソースからデータをインポートできます。このデータを MaxCompute、EMR Hive、Hologres、StarRocks などのエンジンにロードして、分析および管理を行うことができます。このトピックでは、この機能を使用してデータをアップロードする方法について説明します。

事前準備

  • タスクに越境データ操作 (例えば、中国本土から中国本土以外の場所へのデータ転送、または異なる国やリージョン間のデータ転送) が含まれる場合は、コンプライアンスステートメントを読み、理解しておく必要があります。これを怠ると、アップロードの失敗や法的責任につながる可能性があります。

  • ソースファイルでは英語の列ヘッダーを使用してください。中国語のヘッダーは解析の失敗やアップロードエラーの原因となる可能性があります。

制限事項

  • リソースグループの制限事項:データアップロード機能では、スケジューリング用リソースグループデータ統合用リソースグループを指定する必要があります。

  • データアップロードに必要なテーブル権限

    • MaxCompute テーブル (ODPS テーブル):テーブルの所有者である必要があります。DataWorks ワークスペースで特定のロールは必要ありません。

    • MaxCompute 以外のテーブル (Hologres、EMR Hive、StarRocks など):テーブルの所有者であり、DataWorks ワークスペースで特定のロールを持っている必要があります。

      • 開発環境のテーブル:開発者ロールを持っている必要があります。

      • 本番環境のテーブル:O&M ロールを持っている必要があります。

  • テーブルタイプの制限: 内部テーブルまたは [デフォルトカタログ] (StarRocks の場合) 内のテーブルにのみデータをアップロードできます。

課金

データアップロードには、以下の料金が発生する場合があります。

  • データ転送料金。

  • 新しいテーブルを作成する場合、コンピューティングおよびストレージ料金が発生します。

これらの料金は、各コンピュートエンジンによって課金されます。詳細な料金情報については、各エンジンの課金ドキュメントをご参照ください。MaxCompute の課金Hologres の課金E-MapReduce の課金、およびEMR Serverless StarRocks プロダクトの課金

データアップロードページへの移動

  1. データアップロードとダウンロードに移動します。

    DataWorks コンソールにログインします。DataWorks コンソール の上部ナビゲーションバーで、目的のリージョンを選択します。左側ナビゲーションウィンドウで、[データ統合] > [データのアップロードおよびダウンロード] を選択します。表示されるページで、[データのアップロードおよびダウンロードへ移動] をクリックします。

  2. 左側のナビゲーションウィンドウで、image アイコンをクリックして、Upload Data ページに移動します。

  3. Upload Data をクリックし、指示に従ってデータをアップロードします。

ソースファイルの選択

ローカルファイル、ワークブック、Object Storage Service (OSS)、または HTTP ファイルからデータをアップロードできます。ビジネスニーズに基づいてデータソースを選択してください。

説明

ファイルをアップロードする際、ダーティデータをフィルタリングするかどうかを選択できます。

  • はい:ダーティデータが見つかった場合、プラットフォームは自動的にそれを無視し、アップロードを続行します。

  • いいえ:ダーティデータが見つかった場合、アップロードは停止します。

ローカルファイル

ローカルファイルに保存されているデータには、このオプションを使用します。

  1. Data SourceLocal File に設定します。

  2. [Specify Data to Be Uploaded]の下で、ローカルファイルを[Select File]エリアにドラッグします。

    説明
    • サポートされている形式には、CSVXLSXLSX、および JSON があります。最大ファイルサイズは、CSV ファイルの場合は 5 GB、その他のファイルタイプの場合は 100 MB です。

    • デフォルトでは、ファイルの最初のシートのみがアップロードされます。複数のシートをアップロードするには、各シートに個別のテーブルを作成し、そのシートをファイルの最初のシートにする必要があります。

    • SQL ファイルのアップロードは現在サポートされていません。

ワークブック

アップロードするデータがDataWorks データ分析ワークブックにある場合は、このオプションを選択します。

  1. Data SourceWorkbook に設定します。

  2. Specify Data to Be Uploaded」の下で:

    1. Select File」の横にあるドロップダウンリストから、アップロードするワークブックを選択します。

    2. ワークブックが存在しない場合は、Createボタンをクリックして作成します。また、ワークブックの作成およびデータのインポートをデータ分析モジュールで行うこともできます。

OSS

アップロードするデータが Object Storage Service (OSS) に保存されている場合は、このオプションを選択します。

前提条件

手順

  1. Data Source[OSS] に設定します。

  2. Specify Data to Be Uploaded では:

    1. [Select Bucket] ドロップダウンリストから、アップロードするデータが含まれている OSS バケットを選択します。

      説明

      DataWorks ワークスペースと同じリージョンにあるバケットからのみデータをアップロードできます。

    2. Select File」エリアで、アップロードするデータファイルを選択します。

      説明

      CSVXLSXLSX、および JSON ファイル形式のみがサポートされています。

HTTP ファイル

アップロードするデータが HTTP ファイルである場合は、このオプションを選択します。

  1. Data Source]を[HTTP File]に設定します。

  2. パラメーターを設定します。Specify Data to Be Uploaded の下で:

    パラメーター

    説明

    File URL

    データファイルの URL。

    説明

    HTTP および HTTPS URL の両方がサポートされています。

    File Type

    システムは自動的にファイルタイプを検出します。

    サポートされているファイルタイプは CSVXLS、および XLSX です。CSV ファイルの最大ファイルサイズは 5 GB、その他のファイルタイプの場合は 50 MB です。

    Request Method

    サポートされているメソッドは [GET][POST]、および [PUT] です。データの取得には GET が推奨されますが、必要なメソッドは、お使いのサーバーの構成によって異なります。

    詳細パラメーター

    必要に応じて、Request Header および Request Body[詳細パラメーター] セクションで設定することもできます。

送信先テーブルの構成

Configure Destination Table」セクションで、データのアップロード用の[ターゲットエンジン]を選択し、関連するパラメーターを設定します。

重要

送信先テーブルを構成する際、データソースの本番 (PROD) 環境と開発 (DEV) 環境を区別する必要があります。誤った環境を選択すると、データが意図しない場所にアップロードされます。

MaxCompute

MaxCompute の内部テーブルにデータをアップロードする必要がある場合は、次の表に示すようにパラメーターを構成します。

パラメーター

説明

MaxCompute プロジェクト名

現在のリージョンにバインドされている MaxCompute データソースを選択します。必要なデータソースが見つからない場合は、MaxCompute 計算リソースを現在のワークスペースにバインドして、同じ名前のデータソースを生成できます。

送信先テーブル

Existing Table または Create Table を選択できます。

Destination Table > Existing Table

送信先テーブルの選択

アップロードされたデータが保存されるテーブル。キーワードでテーブルを検索できます。

説明

所有するテーブルにのみデータをアップロードできます。詳細については、「制限事項」をご参照ください。

アップロードモード

送信先テーブルにデータを追加する方法を選択します。

  • Clear Table Data First: マップされた列への完全インポートを実行する前に、送信先テーブルの既存のデータをすべてクリアします。

  • Append: 送信先テーブルの対応するマップされた列に新しいデータを追加します。

Destination Table > Create Table

テーブル名

新しいテーブルのカスタム名を入力します。

説明

MaxCompute エンジンでテーブルを作成すると、システムは DataWorks 計算リソースから構成された MaxCompute アカウント情報を使用して、対応する MaxCompute プロジェクトにテーブルを作成します。

テーブルタイプ

必要に応じて、Non-partitioned Table または Partitioned Table を選択します。パーティションテーブルを選択する場合は、パーティション列とその値を指定する必要があります。

ライフサイクル

テーブルの保持期間を指定します。この期間が期限切れになるとテーブルは削除されます。テーブルのライフサイクルに関する詳細については、「ライフサイクル」および「ライフサイクル操作」をご参照ください。

EMR Hive

EMR Hive の内部テーブルにデータをアップロードする必要がある場合は、次の表に示すようにパラメーターを構成します。

パラメーター

説明

データソース

現在のワークスペースにバインドされている、ご利用のリージョンのEMR Hive データソース (Alibaba Cloud インスタンスモード) を選択します。

送信先テーブル

データは、Existing Tableにのみアップロードできます。

送信先テーブルの選択

アップロードされたデータが保存されるテーブル。キーワードでテーブルを検索できます。

説明
  • 送信先テーブルが存在しない場合は、画面のプロンプトに従って DataStudio (データ開発) のテーブル管理で作成してください。

  • 所有するテーブルにのみデータをアップロードできます。詳細については、「制限事項」をご参照ください。

アップロードモード

送信先テーブルにデータを追加する方法を選択します。

  • Clear Table Data First: マップされた列にフルインポートを実行する前に、送信先テーブルからすべての既存データをクリアします。

  • Append: 新しいデータを送信先テーブルの対応するマップされた列に追加します。

Hologres

Hologres の内部テーブルにデータをアップロードする必要がある場合は、次の表に示すようにパラメーターを構成します。

パラメーター

説明

データソース

現在のワークスペースにバインドされている、ご利用のリージョンの Hologres データソースを選択します。必要なデータソースが見つからない場合は、Hologres 計算リソースを現在のワークスペースにバインドして、同じ名前のデータソースを生成できます。

送信先テーブル

データをアップロードできるのは、Existing Table のみです。

送信先テーブルの選択

アップロードされたデータが保存されるテーブル。キーワードでテーブルを検索できます。

説明
  • 送信先テーブルが存在しない場合は、画面のプロンプトに従って Hologres コンソールで作成してください。

  • 所有するテーブルにのみデータをアップロードできます。詳細については、「制限事項」をご参照ください。

アップロードモード

送信先テーブルにデータを追加する方法を選択します。

  • Clear Table Data First: マッピングされた列への完全なインポートを実行する前に、送信先テーブルから既存のすべてのデータをクリアします。

  • Append: 新しいデータを、送信先テーブルの対応するマップされた列に追加します。

プライマリキー競合戦略

送信先テーブルのプライマリキーの競合を処理する戦略を選択します。

  • Ignore: アップロードされたデータは無視され、送信先テーブルのデータは更新されません。

  • Update (replace): 既存の行全体を新しいデータで置き換えます。マップされていない列は NULL に設定されます。

  • update:既存の行のマップされた列のみを更新します。

StarRocks

StarRocks の [デフォルト カタログ] 内のテーブルにデータをアップロードする必要がある場合は、以下の表に記載されているパラメーターを設定します。

パラメーター

説明

データソース

現在のワークスペースにバインドされている、ご利用のリージョンのStarRocks データソースを選択します。

送信先テーブル

データは Existing Table にのみアップロードできます。

送信先テーブルの選択

アップロードされたデータが保存されるテーブル。キーワードでテーブルを検索できます。

説明
  • 送信先テーブルが存在しない場合は、画面のプロンプトに従って EMR Serverless StarRocks インスタンスページで作成してください。

  • 所有するテーブルにのみデータをアップロードできます。詳細については、「制限事項」をご参照ください。

アップロードモード

送信先テーブルにデータを追加する方法を選択します。

  • Clear Table Data First:マップされた列にフルインポートを実行する前に、送信先テーブルからすべての既存のデータをクリアします。

  • Append: 新しいデータを送信先テーブルの対応するマップされた列に追加します。

詳細パラメーター

Stream Load リクエストパラメーターを構成します。

データのプレビューとマッピングの構成

送信先テーブルを構成した後、データをプレビューし、必要に応じてファイルエンコーディングとデータマッピングを調整できます。

説明

現在、最初の 20 行のデータのみをプレビューできます。

  • File Encoding Format: プレビューに文字化けが表示された場合は、エンコーディングを切り替えてください。サポートされているフォーマットには、UTF-8GB18030Big5UTF-16LE、および UTF-16BE が含まれます。

  • データのプレビューと送信先テーブル列の構成:

    • 既存のテーブルへのデータのアップロード: ソースファイルの列と送信先テーブルの列の間のマッピングを設定する必要があります。サポートされているマッピング方法には、Mapping by Column Name および Mapping by Order が含まれます。マッピング後、送信先テーブルの列名をカスタマイズできます。

      説明
      • ソース列がマッピングされていない場合、そのデータはグレー表示され、アップロードされません。

      • ソース列と送信先列間の重複するマッピングは許可されていません。

      • 列名と列タイプは空にすることはできません。そうしないと、データアップロードが失敗します。

    • 新しいテーブルにデータをアップロードする: Intelligent Field Generation を使用して列情報を自動的に入力することも、列情報を手動で変更することもできます。

      説明
      • 列名と列タイプは空にすることはできません。そうしないと、データアップロードが失敗します。

      • EMR Hive、Hologres、および StarRocks エンジンは、データアップロード中に新しいテーブルを作成することをサポートしていません。

  • Ignore First Row: データファイルの先頭行 (通常は列名) を送信先テーブルにアップロードするかどうかを指定します。

    • 選択済み:最初の行に列名が含まれている場合、送信先テーブルにはアップロードされません。

    • クリア済み:最初の行にデータが含まれている場合、送信先テーブルにアップロードされます。

データのアップロード

設定を構成した後、左下隅のUpload Dataをクリックして、アップロードを開始します。

次のステップ

アップロードが成功した後、左側のナビゲーションウィンドウにある image アイコンをクリックして、Upload Data ページを開きます。作成したデータのアップロードタスクを見つけ、必要に応じて以下の操作を行います:

  • [アップロードを続行]: [操作] 列で、[アップロードを続行] をクリックして、データを再度アップロードします。

  • データのクエリ: [操作] 列で、Query Data をクリックして、クエリおよび分析します。

  • アップロードされたデータの詳細の表示: 送信先の Table Name をクリックすると、Data Map が開き、そのテーブルの詳細を表示できます。詳細については、「メタデータ取得」をご参照ください。

付録:越境アップロードに関するコンプライアンスステートメント

重要

タスクに越境データ操作 (例えば、中国本土から中国本土以外の場所へのデータ転送、または異なる国やリージョン間のデータ転送) が含まれる場合は、事前にこのコンプライアンスステートメントを読み、理解しておく必要があります。これを怠ると、アップロードが失敗する原因となり、法的責任を負う可能性があります。

越境データ操作は、ご利用のクラウドビジネスデータを、選択したリージョンまたはプロダクトデプロイメントエリアに転送します。このような操作が以下の要件に準拠していることを確認する必要があります。

  • 関連するクラウドビジネスデータを処理するために必要な権限を持っていること。

  • 十分なデータセキュリティ保護技術とポリシーを実装していること。

  • データ転送がすべての適用される法律および規制に準拠していること。例えば、転送されたデータには、適用される法律によって転送または開示が制限または禁止されているコンテンツを含めてはなりません。

データアップロードに越境データ操作が含まれる場合は、続行する前に法務またはコンプライアンスの専門家に相談してください。越境データ転送がすべての適用される法律、規制、および規制ポリシーに準拠していることを確認する必要があります。これには、個人情報主体からの有効な同意の取得、関連する契約条件の署名と提出の完了、関連するセキュリティ評価の完了、およびその他の法的義務が含まれますが、これらに限定されません。

このコンプライアンスステートメントに違反する越境データ操作については、法的責任を負うものとします。さらに、Alibaba Cloud およびその関連会社が被った損失に対して責任を負うものとします。

関連ドキュメント

よくある質問

  1. リソースグループ構成の問題。

    エラーメッセージ:ソースファイルまたは送信先エンジン用にリソースグループを構成する必要があります。ワークスペース管理者に連絡して構成してください。

    ソリューション:データ分析でエンジンが使用するリソースグループを構成するには、「システム管理」をご参照ください。

  2. リソースグループバインディングの問題。

    エラーメッセージ:現在のワークスペースで構成されているグローバルデータアップロードリソースグループは、送信先テーブルがあるワークスペースにバインドされていません。ワークスペース管理者に連絡してバインドしてください。

    ソリューション:システム管理で構成したリソースグループをワークスペースにバインドできます。