10690479667507是阿里大数据平台吗

覆盖业务中的多种数据来源包括了终端(Web、App、H5、软件)的用户行为,后端服务器日志(Log)和业务数据(DataBase)大数据平台根据业务分析需求,高效地采集散落各处的基础數据沉淀企业数据资产。

}

我可能还不够资格回答这个问题没有经历过一个公司大数据平台从无到有到复杂的过程。不过说说看法吧也算是梳理一下想法找找喷。
这是个需求驱动的过程
曾经聽过spotify的分享,印象很深的是他们分享说,他们的hadoop集群第一次故障是因为机器放在靠窗的地方,太阳晒了当机了(笑)从简单的没有機房放在自家窗前的集群到一直到现在复杂的数据平台,这是一个不断演进的过程
对小公司来说,大概自己找一两台机器架个集群算算也算是大数据平台了。在初创阶段数据量会很小,不需要多大的规模这时候组件选择也很随意,Hadoop一套任务调度用脚本或者轻量的框架比如luigi之类的,数据分析可能hive还不如导入RMDB快监控和部署也许都没时间整理,用脚本或者轻量的监控大约是没有ganglia、nagios,puppet什么的这个阶段也许算是技术积累,用传统手段还是真大数据平台都是两可的事情但是为了今后的扩展性,这时候上Hadoop也许是不错的选择
当进入高速發展期,也许扩容会跟不上计划不少公司可能会迁移平台到云上,比如AWS阿里大数据云什么的小规模高速发展的平台,这种方式应该是經济实惠的省了运维和管理的成本,扩容比较省心要解决的是选择平台本身提供的服务,计算成本打通数据出入的通道。整个数据岼台本身如果走这条路可能就已经基本成型了。走这条路的比较有名的应该是netflix
也有一个阶段,你发现云服务的费用太高虽然省了你佷多事,但是花钱嗖嗖的几个老板一合计,再玩下去下个月工资发布出来了然后无奈之下公司开始往私有集群迁移。这时候你大概需偠一群靠谱的运维帮你监管机器,之前两三台机器登录上去看看状态换个磁盘什么的也许就不可能了你面对的是成百上千台主机,有些关键服务必须保证稳定有些是数据节点,磁盘三天两头损耗网络可能被压得不堪重负。你需要一个靠谱的人设计网络布局设计运維规范,架设监控值班团队走起7*24小时随时准备出台。然后上面再有平台组真的大数据平台走起
然后是选型,如果有技术实力可以直接用社区的一整套,自己管起来监控部署什么的自己走起。这个阶段部署监控和用户管理什么的都不可能像两三个节点那样人肉搞了配置管理,部署管理都需要专门的平台和组件;定期Review用户的作业和使用情况决定是否扩容,清理数据等等否则等机器和业务进一步增加,团队可能会死的很惨疲于奔命,每天事故不断进入恶性循环。
当然有金钱实力的大户可以找ClouderaHortonworks,国内可以找华为星环会省不少倳,适合非互联网土豪当然互联网公司也有用这些东西的,比如Ebay
接下去你可能需要一些重量的组件帮你做一些事情。
比如你的数据接叺之前可能找个定时脚本或者爬log发包找个服务器接收写入HDFS,现在可能不行了这些大概没有高性能,没有异常保障你需要更强壮的解決方案,比如Flume之类的
你的业务不断壮大,老板需要看的报表越来越多需要训练的数据也需要清洗,你就需要任务调度比如oozie或者azkaban之类嘚,这些系统帮你管理关键任务的调度和监控
数据分析人员的数据大概可能渐渐从RDBMS搬迁到集群了,因为传统数据库已经完全hold不住了但怹们不会写代码,所以你上马了Hive然后很多用户用了Hive觉得太慢,你就又上马交互分析系统比如Presto,Impala或者SparkSQL
你的数据科学家需要写ML代码,他們跟你说你需要Mahout或者Spark MLLib于是你也部署了这些。
至此可能数据平台已经是工程师的日常工作场所了大多数业务都会迁移过来。这时候你可能面临很多不同的问题
比如各个业务线数据各种数据表多的一塌糊涂,不管是你还是写数据的人大概都不知道数据从哪儿来接下去到哪儿去。你就自己搞了一套元数据管理的系统
你分析性能,发现你们的数据都是上百Column各种复杂的Query,裸存的Text格式即便压缩了也还是慢的偠死于是你主推用户都使用列存,ParquetORC之类的。
又或者你发现你们的ETL很长中间生成好多临时数据,于是你下狠心把pipeline改写成Spark了
再接下来吔许你会想到花时间去维护一个门户,把这些零散的组件都整合到一起提供统一的用户体验,比如一键就能把数据从数据库chua一下拉到HDFS导叺Hive也能一键就chua一下再搞回去;点几下就能设定一个定时任务,每天跑了给老板自动推送报表;或者点一下就能起一个Storm的topology;或者界面上写幾个Query就能查询Hbase的数据这时候你的数据平台算是成型了。
当然磕磕碰碰免不了。每天你都有新的问题和挑战否则你就要失业了不是?
伱发现社区不断在解决你遇到过的问题于是你们架构师每天分出很多时间去看社区的进展,有了什么新工具有什么公司发布了什么项目解决了什么问题,兴许你就能用上
上了这些乱七八糟的东西,你以为就安生了Hadoop平台的一个大特点就是坑多。尤其是新做的功能新起嘚项目对于平台组的人,老板如果知道这是天然坑多的平台那他也许会很高兴,因为跟进社区帮忙修bug,一起互动其实是很提升公司影响力的实情当然如果老板不理解,你就自求多福吧招几个老司机,出了问题能马上带路才是正道当然团队的技术积累不能不跟上,因为数据平台还是乱世三天不跟进你就不知道世界是什么样了。任何一个新技术都是坑啊坑啊修啊修啊才完善的。如果是关键业务換技术那需要小心再小心,技术主管也要有足够的积累能够驾驭,知道收益和风险

}

做数据可视化或者数据分析的朋伖可能经常会碰到的问题就是有想法没有数据想到我有几位朋友就是这样,因此每次我抓取了数据我会第一时间输出给他们

有些可视囮或者数据分析的朋友可能自己会爬虫所以当自己有想法的时候他们就回自己手动取做爬虫去抓取一些数据。但是往往是有可能有些数据抓取不到还有可能有些人根本不会爬虫。这时候为了更加方便我们快捷的学习可视化和数据分析的知识我们的时间应该投入到后续的研究而不是数据的获取。

但是 如果你很倔强(比如我)非要通过爬虫方式抓取数据进行研究分析那么同样可以给你推荐一个学习爬虫的路線和学习资料助你10天入门爬虫:

冲着以上的一些方面,于是在今天想给大家推荐一些可以免费或者只需要花费很小的代价就可以获取数據的网站或者方式一下推荐的网站格式为标题加简单那介绍加网站的一张配图,你可以按照介绍取寻找你需要的资源

第一推荐这样一個获取数据的方式:

不得不说这真是一个获取数据的好地方,

主要包含:国内宏观、区域数据、世界经济、价格数据、工业行业、区域数據、国内宏观、区域数据、世界经济、价格数据、工业行业、区域数据

是否免费:否(花费论坛金币)

此网站数据就比较多涉及的方面吔比较多了,合适各种行业各种朋友

主要包括数据:语音识别、医疗健康、交通地理、电子商务、社交网络、图像识别、统计年鉴、研發数据等领域。

是否免费:否(论坛金币部分免费,部分花费少量金币)

主要包含数据:生活服务、教育、能源、建筑、交通运输、政府、金融、农业、医疗、卫生

是否免费:否(大部分免费根据自己选择)

主要数据包括:社交网络、电子商务、企业名录、 金融数据、苼活服务、科研数据、知识库

是否免费:否(不全免费,部分需要rmb)

(5)、(此网站界面有点low不截图解释请自行访问查看)

(6)、 (有蔀分数据)

听名字就知道是什么数据了吧,而且所有数据都是免费当然这个网站还有彩蛋。在文末的友情链接里面有很多地方的数据以忣国外各国的数据所以不要简单的认为只有本网站那么点数据喔。网站最后的友情链接请仔细查看不要说我没告诉你。

这一位博主的博客maybe出于研究目的,他整理了一些 地球物理相关的资如果有人需要研究这方面的东西可以这里去下载你想要的资源,当然全部是免费嘚资源了

同样包含了国家的各种数据,点进去你可能会发现新世界的大门而且所有数据均是免费!果然党是不会骗你钱的,好好跟党混没错

数据主要包括:能源、电力、冶金、化工、机电、电子、汽车、物流、房产、建材、农林、安防、包装、环保、食品、烟酒、医藥、保健品、IT、通信、数码、家电、家居、家具、文化、传媒、办公、文教、服务、金融、培训、旅游、服装、玩具、礼品、工艺品

不喷鈈喷不喷!重要的事情说三次。这点数据还是有用的!

}

我要回帖

更多关于 阿里大数据 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信