MaxComputeコンソールは、データアップロード機能を提供します。 この機能により、オフラインモードでローカルファイルまたはAlibaba Cloud Object Storage Service (OSS) からMaxComputeにデータをアップロードして、分析、処理、および管理を行うことができます。
制限
ローカルファイルまたはAlibaba Cloud OSSからのみデータをアップロードできます。
ローカルファイル: CSVまたはXLSXファイルからデータをアップロードできます。
CSVファイル: 最大5 GBのデータをアップロードできます。
XLSXファイル: 最大100 MBのデータをアップロードできます。
Alibaba Cloud OSS: CSVファイルからのみデータをアップロードできます。 最大5 GBのデータをアップロードできます。 データが保存されるバケットは、現在のMaxComputeプロジェクトと同じリージョンにある必要があります。
カスタムスキーマを含む既存のテーブルまたは新しいテーブルにデータをアップロードすることはできません。 カスタムスキーマの詳細については、「スキーマ関連の操作」をご参照ください。
前提条件
アップロードされたデータを保存するMaxComputeプロジェクトが作成されます。 関連するデータ権限が必要です。 例:
既存のテーブルにデータをアップロードする: テーブルにデータを書き込む権限が必要です。
新しいテーブルにアップロードする: プロジェクトにテーブルを作成する権限が必要です。
MaxComputeプロジェクトの作成方法の詳細については、「プロジェクトの管理」をご参照ください。 権限を付与する方法の詳細については、「権限の概要」をご参照ください。
OSSからデータをアップロードするときは、次の条件が満たされていることを確認してください。
OSSが有効化され、バケットが作成されます。 アップロードするデータはバケットに保存されます。 詳細については、「バケットの作成」および「オブジェクトのアップロード」をご参照ください。
データのアップロードに使用されるAlibaba Cloudアカウントには、バケットにアクセスする権限があります。 詳細については、「概要」をご参照ください。
手順
MaxComputeコンソールにログインします。 上部のナビゲーションバーで、リージョンを選択します。
左側のナビゲーションウィンドウで、[データ転送] > [データのアップロード] を選択します。 [データのアップロード] ページが表示されます。
[データのアップロード] ページで、表1のパラメーターを設定します。 必要なデータをアップロードするためのパラメータ。
表 1 必要なデータをアップロードするためのパラメーター
セクション
パラメーター
説明
データソース
ローカルファイル
ローカルファイルからデータをアップロードします。
データをアップロードするには、CSVファイルまたはXLSXファイルのみを選択できます。
CSVファイル: 最大5 GBのデータをアップロードできます。 ファイル内のデータはコンマ (,) で区切ります。
XLSXファイル: 最大100 MBのデータをアップロードできます。 デフォルトでは、XLSXファイルの最初のシートのデータのみがアップロードされます。 ファイルに複数のシートが含まれている場合、他のシートのデータはアップロードできません。
OSS
OSSからデータをアップロードします。
現在のリージョンのバケット内のCSVファイルのみを選択できます。 一度に最大5 GBのデータをアップロードできます。 利用可能なバケットがない場合は、バケットを作成する必要があります。 詳細は、「バケットの作成」をご参照ください。
説明アップロードするデータのサイズが5 GBを超える場合は、アップロード用のデータを分割する必要があります。 それ以外の場合、アップロードは失敗します。
アップロードするデータの指定
バケットの選択
[データソース] を [Alibaba Cloud OSS] に設定した場合、目的のファイルが保存されているバケットのパスを選択します。
ファイルの選択
アップロードするCSVファイルまたはXLSXファイルを選択します。
ダーティデータを削除するかどうか
アップロードするファイルから、ターゲットMaxComputeテーブルの関連列のデータと同じタイプではないデータを削除するかどうかを指定します。
説明たとえば、アップロードするファイルの列のデータがSTRING型で文字が含まれているが、宛先テーブルの関連する列のデータがBIGINT型である場合、STRING型の列のデータはダーティデータと見なされます。 ダーティデータを削除するかどうかを [はい] に設定した場合、ダーティデータはアップロードされません。
Yes: アップロードするファイルから、ターゲットテーブルの関連する列のデータと同じタイプではないデータを削除します。
No: ファイルの全データをアップロードします。
宛先テーブルの設定
MaxCompute プロジェクト名
データを保存するMaxComputeプロジェクトを選択します。
宛先テーブル
ビジネス要件に基づいて、既存のテーブルにデータをアップロードするか新しいテーブルにアップロードするかを指定します。
表 2. 既存のテーブルにデータをアップロードするためのパラメーター
パラメーター
説明
宛先テーブルの選択
アップロードされたデータを保存するMaxComputeテーブルをドロップダウンリストから選択します。 キーワードを入力して、目的のMaxComputeテーブルを検索できます。
アップロード方法
ソースファイルの列と宛先テーブルのフィールドの間に設定されたマッピングに基づいて、宛先テーブルにデータをアップロードする方法を選択します。
空のテーブルデータを最初に: 宛先テーブルの関連フィールドのデータを上書きします。
追加: アップロードするデータを、宛先テーブルの関連フィールドに追加します。
説明マッピングの構成の詳細については、「アップロードするデータのプレビューと宛先テーブルのフィールドの指定」をご参照ください。
表 3. 新しいテーブルにデータをアップロードするためのパラメーター
パラメーター
説明
テーブル名
テーブルのカスタム名を入力します。
テーブルタイプ
ビジネス要件に基づいて、[非パーティションテーブル] または [パーティションテーブル] を選択します。 [パーティションテーブル] を選択した場合、パーティションのフィールドと値を指定する必要があります。
ライフサイクル
テーブルの有効期間を指定します。 有効期限が切れると、テーブルが利用できなくなる場合があります。 テーブルのライフサイクルの詳細については、「ライフサイクル」および「ライフサイクル管理操作」をご参照ください。
アップロードするデータをプレビューし、宛先テーブルのフィールドを指定します。
アップロードするファイルとデータを保存する保存先テーブルを選択した後、データの詳細をプレビューし、ファイルの列と保存先テーブルのフィールド間のマッピングを設定できます。 マッピングの設定後、データをアップロードできます。 次の表に、設定する必要があるパラメーターを示します。
説明最初の20のデータレコードのみをプレビューできます。
セクション
パラメーター
説明
アップロードされたファイルのプレビューデータ
ファイルのエンコード形式
ファイルに文字化けコードが含まれている場合は、ファイルのエンコード形式を変更できます。 有効な値: UTF-8、GB18030、Big5
列名によるマッピング
列名間のマッピングに基づいて、宛先テーブルにアップロードするファイル内のデータをインポートします。
注文によるマッピング
アップロードするファイル内のデータを、フィールドの順に宛先テーブルにインポートします。
最初の列を無視する
アップロード先のテーブルにアップロードするファイルの最初の行をアップロードするかどうかを指定します。 ほとんどの場合、ファイルの最初の行には列名が含まれます。
[最初の行を無視] を選択した場合、ファイルの最初の行は宛先テーブルにアップロードされません。
[最初の行を無視] を選択しない場合、ファイルの最初の行が宛先テーブルにアップロードされます。
[データのアップロード] をクリックしてアップロードを送信します。
重要アップロードするデータと宛先テーブルのフィールドとの間にマッピングが存在しない場合、データは暗くなり、アップロードされません。
1対複数のマッピングはサポートされていません。
フィールド名とフィールドタイプを設定する必要があります。 そうしないと、データをアップロードできません。
アップロードレコードの表示
大量のデータをアップロードすると、データのアップロードに時間がかかります。 [データアップロード] ページの右上隅にある [アップロードレコードの表示] をクリックすると、アップロードされたデータの詳細が表示されます。
[データアップロードレコード] ページでは、DataWorksを使用してデータをアップロードしたときに生成されるレコードを表示することもできます。
次に何をすべきか
データがアップロードされた後、接続ツールを使用して、ターゲットMaxComputeテーブルのデータを照会できます。 接続ツールの詳細については、「接続ツールの選択」をご参照ください。