同样大数据分析上报几个系统,有其他方案实现把大数据分析自动填进软件系统的

Hadoop是由Apache基金会开发的一个大大数据汾析分布式系统基础架构最早版本是2003年原Yahoo!DougCutting根据Google发布的学术论文研究而来。

  用户可以在不了解分布式底层细节的情况下轻松地在Hadoop上開发和运行处理海量大数据分析的应用程序。低成本、高可靠、高扩展、高有效、高容错等特性让Hadoop成为最流行的大大数据分析分析系统嘫而其赖以生存的HDFS和MapReduce组件却让其一度陷入困境——批处理的工作方式让其只适用于离线大数据分析处理,在要求实时性的场景下毫无用武の地

对大大数据分析以及人工智能概念都是模糊不清的,该按照什么线路去学习学完往哪方面发展,想深入了解想学习的同学欢迎加入大大数据分析学习qq群:,有大量干货(零基础以及进阶的经典实战)分享给大家并且有清华大学毕业的资深大大数据分析讲师给大镓免费授课,给大家分享目前国内最完整的大大数据分析高端实战实用学习流程体系


  因此各种基于Hadoop的工具应运而生,本次为大家分享Hadoop生态系统中最常用的13个开源工具其中包括资源调度、流计算及各种业务针对应用场景。首先我们看资源管理相关。

  资源统一管悝/调度系统   在公司和机构中服务器往往会因为业务逻辑被拆分为多个集群,基于大数据分析密集型的处理框架也是不断涌现比如支持离线处理的MapReduce、支持在线处理的Storm及Impala、支持迭代计算的Spark及流处理框架S4,它们诞生于不同的实验室并各有所长。

  为了减少管理成本提升资源的利用率,一个共同的想法产生——让这些框架运行在同一个集群上;因此就有了当下众多的资源统一管理/调度系统,本次为大镓重点介绍ApacheMesos及YARN:

  Mesos提供了高效、跨分布式应用程序和框架的资源隔离和共享支持Hadoop、MPI、Hypertable、Spark等。

  Mesos是Apache孵化器中的一个开源项目使用ZooKeeper实現容错复制,使用LinuxContainers来隔离任务支持多种资源计划分配(内存和CPU)。提供Java、Python和C++APIs来开发新的并行应用程序提供基于Web的用户界面来提查看集群状態。

  YARN又被称为MapReduce2.0借鉴Mesos,YARN提出了资源隔离解决方案Container但是目前尚未成熟,仅仅提供Java虚拟机内存的隔离

  Hadoop上的实时解决方案

  前面峩们有说过,在互联网公司中基于业务逻辑需求企业往往会采用多种计算框架,比如从事搜索业务的公司:网页索引建立用MapReduce自然语言處理用Spark等。

  Spark是个开源的大数据分析分析集群计算框架最初由加州大学伯克利分校AMPLab开发,建立于HDFS之上Spark与Hadoop一样,用于构建大规模、低延时的大数据分析分析应用Spark采用Scala语言实现,使用Scala作为应用框架

  Spark采用基于内存的分布式大数据分析集,优化了迭代式的工作负载以忣交互式查询与Hadoop不同的是,Spark和Scala紧密集成Scala像管理本地collective对象那样管理分布式大数据分析集。Spark支持分布式大数据分析集上的迭代式任务实際上可以在Hadoop文件系统上与Hadoop一起运行(通过YARN、Mesos等实现)。

  Storm是一个分布式的、容错的实时计算系统由BackType开发,后被Twitter捕获Storm属于流处理平台,多鼡于实时计算并更新大数据分析库Storm也可被用于“连续计算”(continuouscomputation),对大数据分析流做连续查询在计算时就将结果以流的形式输出给用户。咜还可被用于“分布式RPC”以并行的方式运行昂贵的运算。

  Hadoop上的其它解决方案

  Shark代表了“HiveonSpark”,一个专为Spark打造的大规模大数据分析倉库系统兼容ApacheHive。无需修改现有的大数据分析或者查询就可以用100倍的速度执行HiveQL。

  Shark支持Hive查询语言、元存储、序列化格式及自定义函数与现有Hive部署无缝集成,是一个更快、更强大的替代方案

  Phoenix是构建在ApacheHBase之上的一个SQL中间层,完全使用Java编写提供了一个客户端可嵌入的JDBC驅动。Phoenix查询引擎会将SQL查询转换为一个或多个HBasescan并编排执行以生成标准的JDBC结果集。直接使用HBaseAPI、协同处理器与自定义过滤器对于简单查询来說,其性能量级是毫秒对于百万级别的行数来说,其性能量级是秒Phoenix完全托管在GitHub之上。

  Phoenix值得关注的特性包括:1嵌入式的JDBC驱动,实現了大部分的java.sql接口包括元大数据分析API;2,可以通过多个行键或是键/值单元对列进行建模;3DDL支持;4,版本化的模式仓库;5DML支持;5,通过客户端的批处理实现的有限的事务支持;6紧跟ANSISQL标准。

  ApacheAccumulo是一个可靠的、可伸缩的、高性能、排序分布式的键值存储解决方案基于单元访问控制鉯及可定制的服务器端处理。使用GoogleBigTable设计思路基于ApacheHadoop、Zookeeper和Thrift构建。Accumulo最早由NSA开发后被捐献给了Apache基金会。

  对比GoogleBigTableAccumulo主要提升在基于单元的访问忣服务器端的编程机制,后一处修改让Accumulo可以在大数据分析处理过程中任意点修改键值对

  本质上,ApacheDrill是GoogleDremel的开源实现本质是一个分布式嘚mpp查询层,支持SQL及一些用于NoSQL和Hadoop大数据分析存储系统上的语言将有助于Hadoop用户实现更快查询海量大数据分析集的目的。当下Drill还只能算上一个框架只包含了Drill愿景中的初始功能。

  Drill的目的在于支持更广泛的大数据分析源、大数据分析格式及查询语言可以通过对PB字节大数据分析的快速扫描(大约几秒内)完成相关分析,将是一个专为互动分析大型大数据分析集的分布式系统

  Giraph处理平台适用于运行大规模的逻辑計算,比如页面排行、共享链接、基于个性化排行等Giraph专注于社交图计算,被Facebook作为其OpenGraph工具的核心几分钟内处理数万亿次用户及其行为之間的连接。

  ApacheTez是基于HadoopYarn之上的DAG(有向无环图DirectedAcyclicGraph)计算框架。它把Map/Reduce过程拆分成若干个子过程同时可以把多个Map/Reduce任务组合成一个较大的DAG任务,减少叻Map/Reduce之间的文件存储同时合理组合其子过程,减少任务的运行时间由Hortonworks开发并提供主要支持。

  ApacheAmbari是一个供应、管理和监视ApacheHadoop集群的开源框架它提供一个直观的操作工具和一个健壮的HadoopAPI,可以隐藏复杂的Hadoop操作,使集群操作大大简化首个版本发布于2012年6月。

  ApacheAmbari现在是一个Apache的顶级項目早在2011年8月,Hortonworks引进Ambari作为ApacheIncubator项目制定了Hadoop集群极致简单管理的愿景。在两年多的开发社区显着成长从一个小团队,成长为Hortonworks各种组织的贡獻者Ambari用户群一直在稳步增长,许多机构依靠Ambari在其大型大数据分析中心大规模部署和管理Hadoop集群

}

“驾驶舱”系统有助于银行管理囚员快速了解全行经营情况以提高决策的准确性和时效性的有效分析平台。一直以来中信银行四川分行都希望构建一套“行长驾驶舱”系统,以快速方便地考核各机构的指标大数据分析 中信银行四川分行希望随时随地了解大额存款变动等综合经营分析指标,但面临的狀况是IT部门人手有限而且又希望该项目快速上线,并通过合理的权限控制把系统交付给业务部门自行操作分析同时,中信银行四川分荇存在大量大数据分析录入需求以往只能通过批量录入或填报方式。

并非没有考虑购买IBM, SAP,Oracle等传统BI产品但是,动辄几百万量级的费用让Φ信银行四川分行难以接受。同时该行也在搜寻符合要求的国内BI产品。但是大多数国内BI产品是上一代BI软件,从大数据分析建模到项目仩线的周期非常长更为严重的是这些产品往往还不具备处理大大数据分析量的能力。

不过在试用了永洪BI产品之后,中信银行四川分行嘚这些问题迎刃而解永洪科技是国内领先的大数据分析可视化分析解决方案提供商,在大大数据分析、分布式计算、大数据分析分析等領域具备核心竞争力、自主创新的产品已经拥有多项发明专利永洪科技的技术顾问根据该行给出的分析需求,协助该行共同梳理业务指標最后,该行采用了永洪科技的新一代BI软件永洪BI并在一个月内将整体项目成功上线。

以往直连大数据分析库的报表中有几张报表是對私客户大额变动情况的分析表,业务人员需要在限定时间内对超过特定额度的客户做排名分析并定位出有异常大额变动的客户,这个過程需要关联千万级大数据分析表大数据分析量较大,给服务器带来不小的计算压力十几分钟才能出一张报表。项目成功上线之后Φ信银行四川分行发现,新系统通过搭建分布式大数据分析集市来提速让这类报表的晌应速度提升到10秒以内,比以往快了500-600倍

永洪BI不仅茬性能上更胜一筹,而且成本只有传统BI的四分之一更被中信银行四川分行所称道的是,永洪BI操作起来十分简单只需点击拖曳几下分析指标,系统就自动生成了所需报表这极大地方便了该行那些没有技术背景的业务人员和运营人员独立自主地完成大大数据分析分析操作,让决策者的任意需求都可以在一天内实现自此,一个高性能的行长驾驶舱系统就此搭建完毕

图1:中信银行2014年度指标分析报表

}

我要回帖

更多关于 大数据分析 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信