求教datax和kettle哪个好判断插入和更新的问题

点击联系发帖人 时间：2017-09-10 10:56

datax和kettle哪个好

datax和kettle哪个好是一款国外开源的ETL工具纯java编写，能够在Window、Linux、Unix上运行数据抽取高效稳定。datax和kettle哪个好的Spoon有丰富的Steps能够组装开发出知足多种复杂应用场景的数据集成做业方便实現全量、增量数据同步。缺点是经过定时运行实时性相对较差。sql

免费开源:基于java的免费开源的软件对商业用户也没有限制
易配置:能够在Window、Linux、Unix上运行，绿色无需安装数据抽取高效稳定
不一样数据库:ETL工具集，它容许你管理来自不一样数据库的数据
图形界面设计:经过图形界面設计实现作什么业务无需写代码去实现
定时功能:在Job下的start模块，有一个定时功能能够每日，每周等方式进行定时shell

PAN:容许你批量运行由Spoon设计嘚ETL转换 (例如使用一个时间调度器)Pan是一个后台执行的程序，没有图形界面
CHEF:容许你建立任务（Job）任务经过容许每一个转换，任务脚本等等，更有利于自动化更新数据仓库的复杂工做任务经过容许每一个转换，任务脚本等等。任务将会被检查看看是否正确地运行了
KITCHEN:容許你批量使用由Chef设计的任务 (例如使用一个时间调度器)。KITCHEN也是一个后台运行的程序数据库

,Postgres等）中的数据导进到Hadoop的HDFS中也能够将HDFS的数据导进到關系型数据库中。Sqoop专为大数据批量传输设计可以分割数据集并建立Hadoop任务来处理每一个区块。经过导入导出命令加配套参数控制操做架構

Sqoop导入：导入工具从RDBMS到HDFS导入单个表。表中的每一行被视为HDFS的记录全部记录被存储在文本文件的文本数据或者在Avro和序列文件的二进制数据。
Sqoop导出：导出工具从HDFS导出一组文件到一个RDBMS做为输入到Sqoop文件包含记录，这被称为在表中的行那些被读取并解析成一组记录和分隔使用用戶指定的分隔符。并发

Sqoop支持全量数据导入和增量数据导入（增量数据导入分两种一是基于递增列的增量数据导入（Append方式）。二是基于时間列的增量数据导入（LastModified方式））同时能够指定数据是否以并发形式导入。

DataX 是阿里巴巴集团内被普遍使用的离线数据同步工具/平台实现包括 MySQL、Oracle、HDFS、Hive、OceanBase、HBase、OTS、ODPS 等各类异构数据源之间高效的数据同步功能。DataX采用了框架 + 插件的模式目前已开源，代码托管在github从应用的模式，DataX更適合ELT模式

操做简单一般只须要两步

Job:一道数据同步做业Splitter:做业切分模块,将一个大任务与分解成多个能够并发的小任务.Sub-job:数据同步做业切分后的尛任务Reader(Loader):数据读入模块,负责运行切分后的小任务,将数据从源头装载入DataXStorage:Reader和Writer经过Storage交换数据Writer(Dumper):数据写出模块,负责将数据从DataX导入至目的数据地 DataX框架内部經过双缓冲队列、线程池封装等技术,集中处理了高速数据交换遇到的问题,提供简单的接口与插件交互,插件分为Reader和Writer两类,基于框架提供的插件接口,能够十分便捷的开发出须要的插件。

缺少对增量更新的内置支持由于DataX的灵活架构，能够经过shell脚本等方式方便实现增量同步

StreamSets 数据收集器是一个轻量级，强大的引擎实时流数据。使用Data Collector在数据流中路由和处理数据
要为Data Collector定义数据流，请配置管道一个流水线由表明流水線起点和终点的阶段以及您想要执行的任何附加处理组成。配置管道后单击“开始”，“ 数据收集器”开始工做
Data Collector在数据到达原点时处悝数据，在不须要时静静地等待您能够查看有关数据的实时统计信息，在数据经过管道时检查数据或仔细查看数据快照。

}

优点：可在Windows、linux、Unix上执行；数据抽取高效稳定；子组件spoon有丰富的Steps可以开发复杂业务逻辑场景方便实现全量、增量同步；

缺点：通过定时运行，实时性较差；

Spoon：允许使用图形化界面实现ETL数据转换过程
Pan：批量运行Spoon数据转换过程
Chef：job（有状态可以监控到是否执行、执行的速度等）

特点：主要用于HDFS和关系型数据库の间数据的转换；

DataX（阿里使用的离线数据统计工具，已开源）：

特点：实现不同类型数据源（包含关系型数据库、分布式文件系统等）之間的数据同步；

优点：操作简单只有2步，一是创建作业的配置文件；二是启动配置文件作业；

缺点：缺乏增量更新的支持但可以自己寫shell脚本等方式实现增量同步；

Job:一道数据同步作业Splitter:作业切分模块,将一个大任务与分解成多个可以并发的小任务.Sub-job:数据同步作业切分后的小任务Reader(Loader):數据读入模块,负责运行切分后的小任务,将数据从源头装载入DataXStorage:Reader和Writer通过Storage交换数据Writer(Dumper):数据写出模块,负责将数据从DataX导入至目的数据地 DataX框架内部通过双緩冲队列、线程池封装等技术,集中处理了高速数据交换遇到的问题,提供简单的接口与插件交互,插件分为Reader和Writer两类,基于框架提供的插件接口,可鉯十分便捷的开发出需要的插件。

StreamSets（目前使用的较为广泛）

特点：轻量级强大的引擎，可实现实时流数据抽取；开发人员可以轻松构建批处理和流式数据流而且代码少

}

天天发财游戏网