このトピックでは、データを HDFS (Hadoop Distributed File System) から、OSS (Object Storage Service) にデータを格納する JindoFS (JindoFileSystem) に移行する方法について説明します。

データの移行

  • Hadoop FS シェルコマンドを使用する

    FS (File System) シェルコマンドを使用すると、少量のデータを移行できます。

    • hadoop dfs -cp  hdfs://emr-cluster/README.md  jfs://emr-jfs/
    • hadoop dfs -cp  oss://oss_bucket/README.md  jfs://emr-jfs/
  • Hadoop DistCp を使用する

    Hadoop のビルトインツールである DistCp を使用すると、大量のデータを移行できます。

    • hadoop distcp  hdfs://emr-cluster/files  jfs://emr-jfs/output/
    • hadoop distcp  oss://oss_bucket/files  jfs://emr-jfs/output/
    DistCp パラメーターの詳細については、『DistCp Version2 Guide』をご参照ください。

キャッシュモードの使用

キャッシュモードでは、JindoFS はメタデータとデータを変更せずに、データファイルを OSS にオブジェクトとして保存します。 保存された OSS オブジェクトにアクセスすると、データとメタデータがローカルクラスターにキャッシュされるため、次回からすばやくアクセスすることができます。 詳細については、「キャッシュモードの使用」をご参照ください。