このトピックでは、データを HDFS (Hadoop Distributed File System) から、OSS (Object Storage Service) にデータを格納する JindoFS (JindoFileSystem) に移行する方法について説明します。
データの移行
-
Hadoop FS シェルコマンドを使用する
FS (File System) シェルコマンドを使用すると、少量のデータを移行できます。
-
hadoop dfs -cp hdfs://emr-cluster/README.md jfs://emr-jfs/
-
hadoop dfs -cp oss://oss_bucket/README.md jfs://emr-jfs/
-
-
Hadoop DistCp を使用する
Hadoop のビルトインツールである DistCp を使用すると、大量のデータを移行できます。
-
hadoop distcp hdfs://emr-cluster/files jfs://emr-jfs/output/
-
hadoop distcp oss://oss_bucket/files jfs://emr-jfs/output/
注 DistCp パラメーターの詳細については、『DistCp Version2 Guide』をご参照ください。 -
キャッシュモードの使用
キャッシュモードでは、JindoFS はメタデータとデータを変更せずに、データファイルを OSS にオブジェクトとして保存します。 保存された OSS オブジェクトにアクセスすると、データとメタデータがローカルクラスターにキャッシュされるため、次回からすばやくアクセスすることができます。 詳細については、「キャッシュモードの使用」をご参照ください。