MaxComputeコンソールを使用したデータのアップロード (オフライン) - MaxCompute

MaxComputeコンソールは、データアップロード機能を提供します。この機能により、オフラインモードでローカルファイルまたはAlibaba Cloud Object Storage Service (OSS) からMaxComputeにデータをアップロードして、分析、処理、および管理を行うことができます。

制限

ローカルファイルまたはAlibaba Cloud OSSからのみデータをアップロードできます。
- ローカルファイル: CSVまたはXLSXファイルからデータをアップロードできます。
  - CSVファイル: 最大5 GBのデータをアップロードできます。
  - XLSXファイル: 最大100 MBのデータをアップロードできます。
- Alibaba Cloud OSS: CSVファイルからのみデータをアップロードできます。最大5 GBのデータをアップロードできます。データが保存されるバケットは、現在のMaxComputeプロジェクトと同じリージョンにある必要があります。
カスタムスキーマを含む既存のテーブルまたは新しいテーブルにデータをアップロードすることはできません。カスタムスキーマの詳細については、「スキーマ関連の操作」をご参照ください。

前提条件

アップロードされたデータを保存するMaxComputeプロジェクトが作成されます。関連するデータ権限が必要です。例:
- 既存のテーブルにデータをアップロードする: テーブルにデータを書き込む権限が必要です。
- 新しいテーブルにアップロードする: プロジェクトにテーブルを作成する権限が必要です。
MaxComputeプロジェクトの作成方法の詳細については、「プロジェクトの管理」をご参照ください。権限を付与する方法の詳細については、「権限の概要」をご参照ください。
OSSからデータをアップロードするときは、次の条件が満たされていることを確認してください。
- OSSが有効化され、バケットが作成されます。アップロードするデータはバケットに保存されます。詳細については、「バケットの作成」および「オブジェクトのアップロード」をご参照ください。
- データのアップロードに使用されるAlibaba Cloudアカウントには、バケットにアクセスする権限があります。詳細については、「概要」をご参照ください。

手順

MaxComputeコンソールにログインします。上部のナビゲーションバーで、リージョンを選択します。
左側のナビゲーションウィンドウで、[データ転送] > [データのアップロード] を選択します。 [データのアップロード] ページが表示されます。

[データのアップロード] ページで、表1のパラメーターを設定します。必要なデータをアップロードするためのパラメータ。

表 1 必要なデータをアップロードするためのパラメーター

セクション	パラメーター	説明
データソース	ローカルファイル	ローカルファイルからデータをアップロードします。データをアップロードするには、CSVファイルまたはXLSXファイルのみを選択できます。 CSVファイル: 最大5 GBのデータをアップロードできます。ファイル内のデータはコンマ (,) で区切ります。 XLSXファイル: 最大100 MBのデータをアップロードできます。デフォルトでは、XLSXファイルの最初のシートのデータのみがアップロードされます。ファイルに複数のシートが含まれている場合、他のシートのデータはアップロードできません。
データソース	OSS	OSSからデータをアップロードします。現在のリージョンのバケット内のCSVファイルのみを選択できます。一度に最大5 GBのデータをアップロードできます。利用可能なバケットがない場合は、バケットを作成する必要があります。詳細は、「バケットの作成」をご参照ください。説明アップロードするデータのサイズが5 GBを超える場合は、アップロード用のデータを分割する必要があります。それ以外の場合、アップロードは失敗します。
アップロードするデータの指定	バケットの選択	[データソース] を [Alibaba Cloud OSS] に設定した場合、目的のファイルが保存されているバケットのパスを選択します。
	ファイルの選択	アップロードするCSVファイルまたはXLSXファイルを選択します。
	ダーティデータを削除するかどうか	アップロードするファイルから、ターゲットMaxComputeテーブルの関連列のデータと同じタイプではないデータを削除するかどうかを指定します。説明たとえば、アップロードするファイルの列のデータがSTRING型で文字が含まれているが、宛先テーブルの関連する列のデータがBIGINT型である場合、STRING型の列のデータはダーティデータと見なされます。ダーティデータを削除するかどうかを [はい] に設定した場合、ダーティデータはアップロードされません。 Yes: アップロードするファイルから、ターゲットテーブルの関連する列のデータと同じタイプではないデータを削除します。 No: ファイルの全データをアップロードします。
宛先テーブルの設定	MaxCompute プロジェクト名	データを保存するMaxComputeプロジェクトを選択します。
宛先テーブルの設定	宛先テーブル	ビジネス要件に基づいて、既存のテーブルにデータをアップロードするか新しいテーブルにアップロードするかを指定します。既存のテーブル: パラメーター設定の詳細については、表2をご参照ください。既存のテーブルにデータをアップロードするためのパラメーター。テーブルの作成: パラメーター設定の詳細については、表3をご参照ください。新しいテーブルにデータをアップロードするためのパラメータ。

表 2. 既存のテーブルにデータをアップロードするためのパラメーター

パラメーター

説明

宛先テーブルの選択

アップロードされたデータを保存するMaxComputeテーブルをドロップダウンリストから選択します。キーワードを入力して、目的のMaxComputeテーブルを検索できます。

アップロード方法

ソースファイルの列と宛先テーブルのフィールドの間に設定されたマッピングに基づいて、宛先テーブルにデータをアップロードする方法を選択します。

空のテーブルデータを最初に: 宛先テーブルの関連フィールドのデータを上書きします。
追加: アップロードするデータを、宛先テーブルの関連フィールドに追加します。

説明

マッピングの構成の詳細については、「アップロードするデータのプレビューと宛先テーブルのフィールドの指定」をご参照ください。

表 3. 新しいテーブルにデータをアップロードするためのパラメーター

パラメーター	説明
テーブル名	テーブルのカスタム名を入力します。
テーブルタイプ	ビジネス要件に基づいて、[非パーティションテーブル] または [パーティションテーブル] を選択します。 [パーティションテーブル] を選択した場合、パーティションのフィールドと値を指定する必要があります。
ライフサイクル	テーブルの有効期間を指定します。有効期限が切れると、テーブルが利用できなくなる場合があります。テーブルのライフサイクルの詳細については、「ライフサイクル」および「ライフサイクル管理操作」をご参照ください。

アップロードするデータをプレビューし、宛先テーブルのフィールドを指定します。

アップロードするファイルとデータを保存する保存先テーブルを選択した後、データの詳細をプレビューし、ファイルの列と保存先テーブルのフィールド間のマッピングを設定できます。マッピングの設定後、データをアップロードできます。次の表に、設定する必要があるパラメーターを示します。

説明

最初の20のデータレコードのみをプレビューできます。

セクション	パラメーター	説明
アップロードされたファイルのプレビューデータ	ファイルのエンコード形式	ファイルに文字化けコードが含まれている場合は、ファイルのエンコード形式を変更できます。有効な値: UTF-8、GB18030、Big5
	列名によるマッピング	列名間のマッピングに基づいて、宛先テーブルにアップロードするファイル内のデータをインポートします。
	注文によるマッピング	アップロードするファイル内のデータを、フィールドの順に宛先テーブルにインポートします。
	最初の列を無視する	アップロード先のテーブルにアップロードするファイルの最初の行をアップロードするかどうかを指定します。ほとんどの場合、ファイルの最初の行には列名が含まれます。 [最初の行を無視] を選択した場合、ファイルの最初の行は宛先テーブルにアップロードされません。 [最初の行を無視] を選択しない場合、ファイルの最初の行が宛先テーブルにアップロードされます。

[データのアップロード] をクリックしてアップロードを送信します。
重要
- アップロードするデータと宛先テーブルのフィールドとの間にマッピングが存在しない場合、データは暗くなり、アップロードされません。
- 1対複数のマッピングはサポートされていません。
- フィールド名とフィールドタイプを設定する必要があります。そうしないと、データをアップロードできません。

アップロードレコードの表示

大量のデータをアップロードすると、データのアップロードに時間がかかります。 [データアップロード] ページの右上隅にある [アップロードレコードの表示] をクリックすると、アップロードされたデータの詳細が表示されます。

説明

[データアップロードレコード] ページでは、DataWorksを使用してデータをアップロードしたときに生成されるレコードを表示することもできます。

次に何をすべきか

データがアップロードされた後、接続ツールを使用して、ターゲットMaxComputeテーブルのデータを照会できます。接続ツールの詳細については、「接続ツールの選択」をご参照ください。