タスクを実行する前に、ファイルや JAR パッケージなどの必要なリソースをアップロードするか、ファイルディレクトリを EMR Serverless Spark にロードする必要があります。これにより、タスクは実行時に必要なリソースにシームレスにアクセスできます。
背景情報
マネージドファイルディレクトリ:ユーザーインターフェースを通じて、ローカルファイルを指定のバケットにアップロードできます。その後、タスクの実行時にこれらのファイルに直接アクセスできます。
統合ファイルディレクトリ:Object Storage Service (OSS) または汎用型 NAS ファイルシステム (NAS) を Notebook セッションや Data Studio タスクにマウントできます。これにより、統合ファイルディレクトリ内のファイルに直接アクセスできます。
制限事項
マネージドファイルディレクトリにアップロードできる単一ファイルの最大サイズは 500 MB です。
1 つのワークスペースでサポートされる統合ファイルディレクトリは最大 10 個です。
Livy Gateway または Kyuubi Gateway を通じて送信されたタスクは、統合ファイルディレクトリのマウントをサポートしていません。
マネージドファイルディレクトリ
ファイルのアップロード
リソースアップロードページに移動します。
E-MapReduce コンソールにログインします。
左側のナビゲーションウィンドウで、 を選択します。
Spark ページで、対象のワークスペースの名前をクリックします。
EMR Serverless Spark ページで、左側のナビゲーションウィンドウにある Files をクリックします。
Managed File Directory ページで、Upload File をクリックします。
Upload File ダイアログボックスで、アップロードエリアをクリックしてローカルファイルを選択するか、ファイルをアップロードエリアにドラッグします。
ファイルとフォルダの管理
Managed File Directory ページで、既存のファイルとフォルダに対して次の操作を実行できます:
ファイル:
Download File:ファイルをローカルマシンにダウンロードします。
Copy Address:ファイルのアクセスパスをコピーします。
Delete:ファイルを削除します。
フォルダ:フォルダの Create Folder、Rename、Delete ができます。
統合ファイルディレクトリ
統合ファイルディレクトリを追加すると、ワークスペースのファイル編集権限を持つメンバーは、ファイル管理インターフェイスから統合された OSS ファイルディレクトリ内のファイルとフォルダを編集できます。Data Studio 権限を持つメンバーは、Data Studio タスクを使用してファイルとフォルダの読み書きができます。
ファイルディレクトリの追加
Integrated File Directory ページで、Create File Directory をクリックします。
Create File Directory ダイアログボックスで、次のパラメーターを設定し、OK をクリックします。
OSS
次の表に、OSS の設定パラメーターを示します。
パラメーター
説明
ファイルディレクトリ名
ファイルディレクトリの名前です。
OSS パス
アクセス権限のある OSS パスを選択します。ワークスペースの実行ロールが、このパスへのアクセス権限を持っていることを確認してください。
Mount Path
パスはカスタマイズできますが、
/mntパス配下にある必要があります。汎用型 NAS
次の表に、汎用型 NAS の設定パラメーターを示します。
パラメーター
説明
[ファイルディレクトリ名]
ファイルディレクトリの名前。
ファイルシステム
アクセス権限のある汎用型 NAS ファイルシステムを選択します。ワークスペースの実行ロールに、その NAS ファイルシステムへのアクセス権限があることを確認してください。
マウントターゲット
NAS ファイルシステムにアクセスするためのマウントポイントを設定します。
ファイルシステムパス
NAS 内の既存のストレージパスを設定します。空のままにした場合、デフォルトでルートディレクトリがマウントされます。
[マウントパス]
パスはカスタマイズできますが、
/nasパス配下である必要があります。
ファイルディレクトリの削除
ファイルディレクトリを削除しても、ワークスペースのファイルディレクトリと OSS または NAS との関連付けが解除されるだけで、OSS または NAS パス内のファイルは削除されません。
Integrated File Directory ページで、[操作] 列の [削除] をクリックします。
OK をクリックします。
次のステップ
マネージドファイルディレクトリ:リソースをアップロードした後、タスクを開発する際に、アップロードしたファイルを依存関係または入力データソースとして使用できます。
統合ファイルディレクトリ:統合ファイルディレクトリを追加した後、Notebook セッションまたは Data Studio タスクを設定する際にマウントできます。