Sqoop使用说明 - 开源大数据平台E-MapReduce

Sqoop是一款Apache社区的开源软件，支持在Hadoop生态软件和结构化数据集（例如数据库）之间进行高效的批量数据传输。

背景信息

常见数据传输场景如下：

将MySQL数据导入HDFS
将HDFS数据导入MySQL
将Hive数据导入MySQL
将MySQL数据导入Hive
将MySQL数据导入OSS
将OSS数据导入MySQL
使用SQL作为导入条件

将MySQL数据导入HDFS

在Master节点上执行如下命令。

sqoop import --connect <dburi>/<dbname> --username <username> --password <password> --table <tablename> --target-dir <hdfs-dir> --split-by <split-column> --check-column <col> --incremental <mode> --last-value <value>

参数	描述
dburi	数据库的访问链接。例如jdbc:mysql://192.168..:3306/。
dbname	数据库的名称。
username	数据库登录用户名。
password	数据库登录密码。
tablename	MySQL表的名称。
hdfs-dir	HDFS的写入目录。例如/user/hive/result。
split-column	可选参数。指定一个用于切分任务的列，默认为表主键列。
col	可选参数。增量导入场景的检查列。
mode	可选参数。增量导入模式，支持append和lastmodified两种模式。
value	可选参数。指定上次增量导入的检查列的最大值。

详细的参数信息请参见Sqoop Import。

将HDFS数据导入MySQL

创建好对应HDFS中的数据结构的MySQL表后，在集群的Master节点上执行如下命令。

sqoop export --connect <dburi>/<dbname> --username <username> --password <password> --table <tablename> --export-dir <hdfs-dir>

参数	描述
dburi	数据库的访问链接。例如jdbc:mysql://192.168..:3306/。
dbname	数据库的名称。
username	数据库登录用户名。
password	数据库登录密码。
tablename	MySQL表的名称。
hdfs-dir	HDFS的写入目录。例如/user/hive/result。

详细的参数信息请参见Sqoop Import。

将MySQL数据导入Hive

在集群的Master节点上执行如下命令。

sqoop import --connect <dburi>/<dbname> --username <username> --password <password> --table <tablename> --check-column <col> --incremental <mode> --last-value <value> --fields-terminated-by "\t" --lines-terminated-by "\n" --hive-import --target-dir <hdfs-dir> --hive-table <hive-tablename>

参数	描述
dburi	数据库的访问链接。例如jdbc:mysql://192.168..:3306/。
dbname	数据库的名称。
username	数据库登录用户名。
password	数据库登录密码。
tablename	MySQL表的名称。
col	可选参数。增量导入场景的检查列。
mode	可选参数。增量导入模式，支持append和lastmodified两种模式。
value	可选参数。指定上次增量导入的检查列的最大值。
hdfs-dir	HDFS的写入目录。例如/user/hive/result。
hive-tablename	Hive中的表名。

详细的参数信息请参见Sqoop Import。

将Hive数据导入MySQL

执行命令与导入HDFS数据至MySQL一致，但需要指定Hive表对应的HDFS路径。详情请参见将HDFS数据导入MySQL。

将MySQL数据导入OSS

在集群的Master节点上执行如下命令。

sqoop import --connect <dburi>/<dbname> --username <username> --password <password> --table <tablename> --target-dir <oss-dir> --temporary-rootdir <oss-tmpdir> --check-column <col> --incremental <mode> --last-value <value>

参数	描述
dburi	数据库的访问链接。例如jdbc:mysql://192.168..:3306/。
dbname	数据库的名称。
username	数据库登录用户名。
password	数据库登录密码。
tablename	MySQL表的名称。
oss-dir	OSS的写入目录。例如oss://<AccessKeyId>:<AccessKeySecret>@<BucketName>.oss-cn-hangzhou-internal.aliyuncs.com/result。
oss-tmpdir	临时写入目录。指定mode为append模式时，需要指定该参数。采用append模式后，Sqoop会先将数据导入临时目录，然后将文件重命名为正常目标目录。如果目标目录已经存在于HDFS中，则Sqoop拒绝导入并覆盖该目录的内容。
col	可选参数。增量导入场景的检查列。
mode	可选参数。增量导入模式，支持append和lastmodified两种模式。
value	可选参数。指定上次增量导入的检查列的最大值。

详细的参数信息请参见Sqoop Import。

将OSS数据导入MySQL

创建好对应OSS中数据结构的MySQL表后，在集群的Master节点上执行如下命令。

sqoop export --connect <dburi>/<dbname> --username <username> --password <password> --table <tablename> --export-dir <oss-dir>

参数	描述
dburi	数据库的访问链接。例如jdbc:mysql://192.168..:3306/。
dbname	数据库的名称。
username	数据库登录用户名。
password	数据库登录密码。
tablename	MySQL表的名称。
oss-dir	OSS的写入目录。例如oss://<AccessKeyId>:<AccessKeySecret>@<BucketName>.oss-cn-hangzhou-internal.aliyuncs.com/result。

详细的参数信息请参见Sqoop Import。

使用SQL作为导入条件

命令和参数如下所示。

sqoop import --connect <dburi>/<dbname> --username <username> --password <password> --query <query-sql> --split-by <sp-column> --hive-import --hive-table <hive-tablename> --target-dir <hdfs-dir>

参数	描述
dburi	数据库的访问链接。例如jdbc:mysql://192.168..:3306/。
dbname	数据库的名称。
username	数据库登录用户名。
password	数据库登录密码。
query-sql	使用的查询语句。例如`SELECT * FROM profile WHERE id>1 AND \$CONDITIONS`。
sp-column	进行切分的条件。通常跟MySQL表的主键有关。
hdfs-dir	HDFS的写入目录。例如/user/hive/result。
hive-tablename	Hive中的表名。

详细的参数信息请参见Sqoop Import。