本文以OSS为例,介绍如何将Hadoop文件系统上的数据迁移至JindoFS。

迁移数据

  • Hadoop FsShell

    对于文件较少或者数据量较小的场景,可以直接使用Hadoop的FsShell进行同步:

    • hadoop dfs -cp hdfs://emr-cluster/README.md jfs://emr-jfs/
    • hadoop dfs -cp oss://oss_bucket/README.md jfs://emr-jfs/
  • DistCp

    对于文件较多或者数据量较大的场景,推荐使用Hadoop内置的DistCp进行同步:

    • hadoop distcp hdfs://emr-cluster/files jfs://emr-jfs/output/
    • hadoop distcp oss://oss_bucket/files jfs://emr-jfs/output/
    说明 DistCp参数详情,请参见 DistCp Version2 Guide

利用JindoFS缓存模式

缓存模式是兼容现有OSS的存储方式,文件会以原生对象的形式存储在OSS上,同时OSS文件通过JindoFS缓存模式访问时,也有机会在本地进行数据和元数据的缓存、加速访问,具体请参见JindoFS缓存模式