sqoop导入数据到hive成功但是结束日志有错误:自动提交功能设置为启用时无法回退

点击联系发帖人 时间：2018-08-29 12:38

sqoop导入数据到hive

1.1 登陆数据库查看表

我们选择employee这张表进行导入。

导入的命令非常简单，如下：

上面代码是把test数据库下employee表中数据导入HDFS中，运行结果如下：

是不是很眼熟，这就是MapReduce作业的输出日志，说明Sqoop导入数据是通过MapReduce作业完成的，并且是没有Reduce任务的MapReduce。为了验证是否导入成功，查看HDFS的目录，执行如下命令：

我们发现多出了一个目录，目录名称正好是表名employee，继续查看目录，会发现有两个文件：

其中，_SUCCESS是代表作业成功的标志文件，输出结果是part-m-00000文件（有可能会输出_logs文件，记录了作业日志）。查看输出文件内容：

Sqoop导出的数据文件变成了CSV文件（逗号分割）。这时，如果查看执行Sqoop命令的当前文件夹，会发现多了一个employee.java文件，这是Sqoop自动生成的Java源文件。

查看源文件看到employee类实现了Writable接口，表名该类的作用是序列化和反序列化，并且该类的属性包含了employee表中的所有字段，所以该类可以存储employee表中的一条记录。

从前面的样例大致了解到Sqoop是通过MapReducer作业进行导入工作，在做作业中，会从表中读取一行行的记录，然后将其写入HDFS中。

（1）第一步，Sqoop会通过JDBC来获取所需要的数据库元数据，例如，导入表的列名，数据类型等。

（2）第二步，这些数据库的数据类型(varchar, number等)会被映射成Java的数据类型(String, int等)，根据这些信息，Sqoop会生成一个与表名同名的类用来完成反序列化工作，保存表中的每一行记录。

（4）第四步，启动的作业在input的过程中，会通过JDBC读取数据表中的内容，这时，会使用Sqoop生成的类进行反序列化操作

（5）第五步，最后将这些记录写到HDFS中，在写入到HDFS的过程中，同样会使用Sqoop生成的类进行序列化

如上图所示，Sqoop的导入作业通常不只是由一个Map任务完成，也就是说每个任务会获取表的一部分数据，如果只由一个Map任务完成导入的话，那么在第四步时，作业会通过JDBC执行如下SQL：

这样就能获取表的全部数据，如果由多个Map任务来完成，那就必须对表进行水平切分，水平切分的依据通常会是表的主键。Sqoop在启动MapReducer作业时，会首先通过JDBC查询切分列的最大值和最小值，在根据启动任务数(使用-m命令指定)划分出每个任务所负责的数据，实质上在第四步时，每个任务执行的SQL为：

使用sqoop进行并行导入的话，切分列的数据分布会很大程度上会影响性能，如果在均匀分布的情况下，性能最好。在最坏的情况下，数据严重倾斜，所有数据都集中在某一个切分区中，那么此时的性能与串行导入性能没有差别，所以在导入之前，有必要对切分列的数据进行抽样检测，了解数据的分布。

Sqoop可以对导入过程进行精细的控制，不用每次都导入一个表的所有字段。Sqoop允许我们指定表的列，在查询中加入WHERE子句，甚至可以自定义查询SQL语句，并且在SQL语句中，可以任意使用目标数据库所支持的函数。

在开始的例子中，我们导入的数据存放到了HDFS中，将这份数据导入Hive之前，必须在Hive中创建该表，Sqoop提供了相应的命令：

与Sqoop导入功能相比，Sqoop的导出功能使用频率相对较低，一般都是将Hive的分析结果导出到关系数据库中以供数据分析师查看，生成报表等。

在将Hive中表导出到数据库时，必须在数据库中新建一张来接受数据的表，需要导出的Hive表为order_info，如下：

我们在mysql中新建一张用于接受数据的表，如下：

在Hive中，字符串数据类型为String类型，但在关系性数据库中，有可能是varchar(10)，varchar(20)，这些必须根据情况自己指定，这也是必须由用户事先将表创建好的原因。

接下来，执行导入操作，执行命令如下：

导出完毕之后，我们可以在mysql中通过order_info表进行查询：

其实在了解了导入过程后，导出过程就变的更容易理解了，如下图所示：

同样，Sqoop根据目标表（数据库）的结构会生成一个Java类（第一步和第二步），该类的作用为序列化和反序列化。接着会启动一个MapReduce作业（第三步），在作业中会用生成的Java类从HDFS中读取数据（第四步），并生成一批INSERT语句，每条语句对会向mysql的目标表插入多条数据（第五步），这样读入的时候是并行的，写入的时候也是并行的，但是其写入性能会受限于目标数据库的写入性能。

来自于：《Hadoop海量数据处理技术详解与项目实战》

}

执行列表操作能正常列出数据库中的表：

但是执行import操作则提示权限问题：

（注：此处的目标路径应为hdfs路径，如：/user/table）

受此贴的启发，更改登录账户为hdfs，重新执行import操作，成功。

由于操作一直是在root账户下，而导入操作是要导入到HDFS中，当然会提示权限不足的问题。

2、重新执行import操作。

另一种解法是给要访问的路径授权给root用户：

}

天天发财游戏网

sqoop导入数据到hive成功但是结束日志有错误:自动提交功能设置为启用时无法回退

1.1 登陆数据库查看表

我要回帖

更多关于 sqoop导入数据到hive 的文章

更多推荐