在前面几章里讲了很多关于数据汾析市场和数据分析师的职业生涯发展下面的几篇会重点介绍数据分析的理论知识、数据分析的方法论、数据分析的分析流程、数据分析报告如何撰写、电商中的数据分析应用等具体的应用案例。经常也会被问到作为一个不是统计学背景的学生能否入行数据分析的问题。还有包括像平时的具体数据分析工作都有哪些作为数据分析入门菜鸟怎么才能打好数据分析方面的基础,需要看哪些方面的书等等其实这些问题对于一个刚毕业的或者没有太多数据行业经验的人来说,是很正常的一个情况包括自己在内,如果要重新跨行去进入一个噺领域也会遇到这些问题首先咨询相关行业的内部师兄师姐,看看相应的介绍和材料如果能够有比较系统的书籍介绍那是最好不过的叻。当然自己也需要花时间去归纳和总结再结合大量的实践案例长期以往基本上会对这块新领域能够了然于胸了。
让我在此我向大家推薦一个交流学习群:里面会分享一些资深大数据工程师架构师录制的视频录像:有Linux、Hadoop核集群搭建、HDFS、Mapreduce、YARN、离线计算Flume 、Hive、实时计算、大数据ETL、大数据应用与数据挖掘的原理这些成为大 数据开发师必备的知识体系还能领取免费的学习资源,受益良多
前段时间和做大数据培训嘚创始人聊到,我问他原来是做什么的诧异的是他原来是做用户体验(User Experience Design,UED)出身的对我来说,第一反应认为产品提需求UED根据PD的相应需求文档构思设计相应的产品,而对于数据分析以及业务运营这的确就是很多UED所欠缺的核心,而脱离实际业务的UED并不是真正的UED没有结匼产品和用户需求本身来设计,很多也只是空中楼阁我和那位创始人聊了很久,特别是他在过去的一些经历和感受同时他也是阿里巴巴曾经做过UED的同事,我想这个经验分享在互联网公司还是比较有代表性的
说到用户体验,很多人会感觉这是一个很虚的概念是一种纯主观的在用户使用一个产品(服务)的过程中建立起来的心理感受。因为它是纯主观的就带有一定的不确定因素。我接着问道那平时調查用户体验时你们会关注数据吗?令我欣慰的是那位创始人说平时太需要数据的支持了。包括之前设计的功能布局、页面结构、按钮嘚颜色、整体的风格都需要通过大量的AB 测试来验证用户的体验是否符合预期这在互联网公司尤为典型,像现在上线的产品和功能很多都昰拍脑袋决定或者固有的思维模式认为就应该这样而实际情况没并就一定是用户希望看到的。特别是典型的Facebook从早期的一个简单的社交产品到现在日活跃用户十亿一个很小的改变就可能会引来用户的强烈感觉。在这些多年里Facebook尝试了各种方案,像newspaper、clipboard等样式虽然这些都实現了,但是都因为数据的原因没有上线
我那位大数据培训的朋友也分享了一下他们亲身经历的故事,是关于当时做超市购物车的案例購物车是每个网上超市都有的,可以让用户挑选商品快速结账,所以功能上一点都不能少而且文案要给用户都能看明白。而在具体设計到购物车的布局时产生了分歧:一种是希望以纵向列表的方式展示另一种是以大图的方式。但是大家都没有尝试过这种大图的模式洏纵向列表的方式是用户使用最方便的,比较一目了然另外,对于购物车的单位设计也存在一些争议很多电商网站都是用“件”来表礻一个商品,比如同一件商品买了两个到底是算一件还是两件大家对此一直争论不休。通过那几年的UED工作他对UED有了更深的理解,虽然對于UED有很多想法但是由于各种原因,比如上线时间老板说了算还有很多想法受限技术的原因很难实现,特别是在实现方案上没有用户研究的数据支撑很难判断而导致最终都没有实现我听了他的诉苦也是感触很深,跨部门之间的沟通的确需要很大的成本特别是没有站茬对方的利益场上就更难合作。所以如果大家都能有一种共同的价值观和意向在沟通协调上能够达到事半功倍的效果。
3.1 常见的数据分析問题
如果你希望从事这个数据分析行业的亦或是对数据分析感兴趣的,那就需要把数据分析常见的一些问题弄明白避免被别人忽悠到鈈知东南西北。即使作为在数据分析行业从事了几年的职场老鸟来说再次回顾常见的数据分析问题也会有不一样的思考和感受。
在我们接触到数据分析这个领域的时候不同的对象、不同的时期会遇到不同的问题。对于刚入行的同学来说可能需要知道数据分析的基本概念数据分析都有哪些,包括数据分析和统计分析、数据挖掘的区别和联系是什么在数据分析上常见的工具都有哪些,还需要了解如何增加自己在数据分析这块的经验和技术在面试的过程中如何给自己加分等。对于入行1、2年的数据新人来说需要在有一些基本的数据处理囷分析能力基础上思考如何自我成长,在现有的环境下突破瓶颈对于工作了很长时间的资深数据分析人员来说,则需要考虑如何能够在技能上和个人发展上再次升华这些都是在数据分析生涯中会遇到的问题。而本小节会重点介绍我们作为入门的数据分析新人遇到的一些瑺识问题这些都是我们在数据分析讨论、论坛以及在面试环节可能会聊到的话题。
1. 数据分析是什么数据分析包含哪些?
数据也称观测徝是实验、测量、观察、调查等的结果,常以数量的形式给出数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内在规律在实用中,数据分析可帮助人们作出判断以便采取适当行动。数据分析是组织有目的哋收集数据、分析数据使之成为信息的过程。这一过程是质量管理体系的支持过程在产品的整个寿命周期,包括从市场调研到售后服務和最终处置的各个过程都需要适当运用数据分析过程以提升有效性。例如J.开普勒通过分析行星角位置的观测数据找出了行星运动规律。又如一个企业的领导人要通过市场调查,分析所得数据以判定市场动向从而制定合适的生产及销售计划。因此数据分析有极广泛嘚应用范围
而数据分析包括的内容从需求识别、获取数据、整理数据、观察数据到分析数据、数据展现的各个环节。
第一步就是要准确識别需求定位到问题的核心所在和需要哪些数据来支撑你的观点,这样为收集数据、分析数据提供清楚的目标区分一个高级数据分析師和一般数据分析师,能够第一眼就识别问题的所在掌握数据库的熟练程度,第一时间通过数据的校验验证自己的观点
第二步获取数據,将需求转变成具体的数据要求明确哪些数据是需要的,他们在什么地方可以通过谁来获取。
第三步就是观察数据通过加工、整悝分析成有用的信息,通常结合时间序列、对比、趋势等
第四步分析数据,结合现有的业务和数据发现的问题提出建议和意见。
最后往往还要再回过头看看数据分析方法是否正确、是否数据质量上还有什么问题、收集到的数据是否真实等
2. 数据分析与数据挖掘的区别?
茬接触数据分析和数据挖掘的时候也会遇到数据分析和数据挖掘是什么,之间区别有哪些从实际工作中来看数据分析和数据挖掘也是兩件不同的事情,但是两者有很强的相关联性
从概念上讲,数据分析是在统计数据的基础上通过结合分析方法论得出一定的结论而数據挖掘更多是对历史数据进行未知结果的探索。像我们最常见的“啤酒与尿布”的故事我们结合数据只能分析出啤酒和尿布的销量都很高,但是这其中为什么啤酒和尿布是有相关联的那就需要通过数据挖掘的方法来挖掘,从中发现去买尿布的男士都会顺便去买啤酒再仳如我们通过数据分析发现电商购物的人群70%都是女性,所以结论就是女性更喜欢购物而通过数据挖掘我们发现由于女性天生喜欢逛街购粅、大部分时间会去关注比较漂亮的商品、没有太多目的性,导致女性在电商中的购物比例很高
在工作内容上,数据分析的工作偏重对業务层面的理解能够结合具体的业务和已有的数据,给出自己有力的观点给到业务决策的支持。数据挖掘的工作偏重系统工程通过曆史数据样本召回、数据特征工程和模型算法,对未来结果预测所以在工作内容上两者的差别也是比较巨大,但又有联系举个例子,茬公司做数据分析师的阶段日常的工作是整理网站流量趋势变化的报表,如果流量上涨或者下跌要能够分析这其中的原因是什么可能昰业务方有营销活动的动作,也有可能是系统层面的数据问题而在公司做数据挖掘的平时工作就在某一个小点上,如果利用数据挖掘来預测明天可能有哪些用户会来登陆涉及登陆频次、用户的个人属性情况、用户使用网站的周期、网站的活动因素等各方面的数据特征。利用模型去训练和预测明天登陆用户的概念最后在实际的业务场景中去应用。
因而不难发现数据分析更多是对已有数据进行观察分析,数据挖掘更多是对知识的规律探索总结在方法论上数据分析更多凭借人结合数据经验,数据挖掘会结合算法模型分析
3. 数据分析和做報表的区别?
过去BI一直被人认为就是做报表的所以不管是业务部门还是技术部门一有报表需求就会去找BI部门。而BI部门也不想把自己定位荿做报表的部门所以一直在接这方面的需求没有太多积极性。
咨询行业内有一个经典的故事:
一个农民赶着羊群在草原上走迎面碰到┅个人对他说:“我可以告诉你,你的羊群有几只羊”随即,他用卫星定位技术和网络技术将信息发到总部的数据库……片刻后他告訴农民羊群共有1460只羊,并且要求农民给他一只羊作为报酬农民答应了。随后农民对他讲:“如果我能说出你是干嘛的,你能否把羊还給我”那人说,“行”农民说:“你是一个咨询顾问。”那人很惊讶问农民是怎么知道的。农民说:“有三个理由足以让我知道:1.峩没有请你你自己就找上门来;2.你告诉了我一个早已知道的东西,还要向我收费;3.一看就知道你不懂我们这一行你抱的根本不是羊,洏是一只牧羊犬”
这个笑话在咨询界广为流传,并有不同的公司版本和前段时间“友谊的小船说翻就翻”一样在微博和朋友圈被人转發。而有意思的是许多资深咨询顾问看到这个笑话并不感到恼怒,而是会心地一笑公开场合下,他们一定会非常自信地说咨询非常罙刻地影响企业的战略,因此具有非常重要的价值不过私底下,他们对于是否真的“能改变世界”这一点并不够自信作为定位于公司輔助决策的数据分析部门而言,BI也在接受这样的调整名称叫商业智能,指导公司的高层而在具体的实际行动中,因为高层不懂数据或鍺数据部门不理解业务再或者没有足够的数据能够支撑你去做很多的分析,导致最终的很多公司数据部门变成了一个“做报表”的部门而报表作为管理层经常需要看的媒介,又不可或缺值得高兴的是,现在有很多可视化的数据工具来帮助传统企业在做报表的过程中提高效率和优化美观与过去需要数据分析师专门每天去重复拉取excel报表来说明显进步很多。但对于一些更加深入的分析还是需要资深的数据汾析师来结合业务单独分析并非是简单的报表的能够解决的情况。所以资深的数据分析师还是一种是众多公司争抢的资源
如今在市场方面,数据分析、数据仓库、数据挖掘、大数据等概念热得发烫数据分析师被认为是万众仰慕的职场新宠,关于数据分析师技能、职责、职业素质、发展前景等的讨论不绝于耳就像“姚黑”一样,数据分析的质疑声也不断传出和放大数据分析、挖掘到底能否产生价值,多大价值
数据分析员、数据分析师不应当只会“数羊”!不应当只是发现本应该发现的“经验”!而应当掌握数据探索,发现潜在的價值预见可能将发生的某种“坏的未来”!
4. 数据分析难不难学?特别是背景非理工科的
只要有恒心就会学会,而且这个目前也是一个熱门因为现在数据量越来越大了,所以对这方面的需求也越来越多学习数据分析,先要打好理论基础《概率论与数理统计》、《统計学》、《深入浅出数据分析》等。然后就是主流的数据分析软件关于数据分析主流软件有(从上手度从易到难):Excel,SPSSStata,RPython,SAS等
如果是理工科背景的,了解数据分析并掌握相对来说比较好上手重点是对统计学知识的熟练掌握,另外就是在编程方面能够有一定的基础在处理数据和查询数据、分析上面能够自己操作,特别推荐像R、python这样比较好上手的语言基本能够解决目前80%的数据分析需求。
如果是非悝工科的那可能还是需要在高等数据、微积分这些上面先花段时间学习一下,了解数学方面的基本方法论学习常用的数据分析方法论嘟有哪些,比如趋势分析、对比分析、关联分析、预测分析等常用的市场分析方法论,如SWOT、PEST、4P、波士顿矩阵、5W2H等
最后还是需要大量的項目和工作案例来锻炼,学会怎样操作那些数据分析软件学习从哪些角度去思考分析常见的指标问题。然后是利用软件从数据的清洗开始一步步进行处理分析,最后输出结果检验及解读数据。
5. 数据分析可以有哪些应用
随着互联网、电信、金融等行业的数据爆发式的增长,对海量数据的分析和处理的需求也非常多重点集中在电商领域的人群偏好和客户画像、社交领域的关系模型分析、内容搜索排序、金融的反作弊反欺诈、保险定价分析、用户账户安全登录、个人征信数据分析等都是很典型的应用案例。
在电商领域像最早接触的网站汾析其中包括流量分析,每天的流量的PV/UV的监控用户路径流量的入口出口,用户特征分布情况交易数据的记录详情,会员交叉销售和嶊荐等后面就陆续开始做用户的画像研究,包括用户的基本属性、购买能力、行为特征、社交网络、心理特征、兴趣爱好像有些比如囿没有生孩子、有没有结婚、具体职业都需要做模型分析预测。再后来就是接入具体商品库和营销平台尝试做各种各样的个性化营销和商品推荐。
在社交领域结合好友之间的个人属性相似度、互动程度、内容排序做用户间的社交平台社交网络中充斥着用户的潜在需求、熱点资讯信息、用户关系,这里面大量的信息对于企业来说具有巨大的价值如果掌握了这些数据之后加上分析,无论对于现有产品的改進还是对未来产品的走势都有十分帮助像我们在实际模型中应用到的社区圈子的识别、人物影响力的计算、社交网络上的信息传播、僵屍账号和垃圾信息的识别、基于社交对热点内容的舆情监控分析等。
在金融反作弊领域同样数据分析扮演着重要的作用识别账号的交易昰否符合正常的范围,有没有存在虚假交易、刷单等行为
保险定价中像车险,可以根据车主平时的行车路线、里程、行车习惯、出险记錄、职业、年龄、性别等给出不同的定价比如你开一个紧凑型车的两个人,在平时的驾驶习惯上一个比较急躁那这个人出险的概率就昰另一个人的几倍,那么如果两个人的车险定价是一样的很明显不合理对于前者来说对保险的损失更大,而后者是相对来说比较优质的愙户
6. 厉害的数据分析都是什么样?
就像刚刚介绍到的数羊的故事如果年轻人走入羊群进行考察,并用各种统计方法和不同工具进行了铨面的判断然后,他告诉农民羊群共有1460只羊仅有10只公羊、其余为母羊,可以繁殖的母羊有1000只其余为羊仔,根据一些特征羊群可以汾为“肯吃型”、“疯跑型”、“活蹦乱跳小仔型”三类。农民听后既惊讶又失望惊讶的是一个没放过羊的人和他一样了解羊群,失望嘚是他所听到的都是他早已知道的
而如果回答是“羊群共有1460只羊,仅有10只公羊、其余为母羊可以繁殖的母羊有1000只,其余为羊仔因此,当务之急是卖掉长肥的小羊马上引进更多的种公羊,以解决当前种羊和母羊比例严重失调的问题;根据对市场的预估5月份每卖掉一呮小羊将比4月份多赚150元,因此我们必须把握先机,4月前育肥5月清栏;对于“疯跑型”羊,有必要采取两条腿绑绳的方法限制其大范围跑动对于“活蹦乱跳小羊”应采取与成年羊隔离的放养的方式。”
厉害的数据分析师就是在大量数据集中发现有用关系的系统性的方法在开始之前,你不必知道寻找的是什么你可以通过拟合不同模型和研究不同关系来探索数据,直到你发现有用的信息为止通过数据汾析的方式来帮助业务快速的成长。
能力:一定要懂点战略、才能结合商业;一定要漂亮的presentation、才能buying;一定要有global view、才能打单;一定要懂业务、才能结合市场;一定要专几种工具、才能干活;一定要学好、才能有效率;一定要有强悍理论基础、才能入门;一定要努力、才能赚钱;最重要的:一定要务实、才有reputation;不懂的话以后慢慢就明白了
目标:1-做过多少个项目?2-业务背景有哪些是否跨行业?3-做过多少种类型嘚模型做了多少个模型?4-基于模型做过多少次完整的marketing闭环
7. 数据分析方面有哪些好书值得推荐的?
这个我在知乎上也发表过像《深入淺出数据分析》、《R语言实战》、《数据之美》、《数据之魅》、《大数据时代》、《集体智慧编程》、《从0到1》、《失控》等都是比较熱门且实用的。
7.大数据预测:告诉你谁会点击、购买、死去或撒谎
10.跨界:开启互联网与传统行业融合新趋势
11.删除:大数据取舍之道
12.互联网思维:工莋、生活、商业的大革新
1.数据化管理:洞悉零售及电子商务运营
2.转化:提升网站流量和转化率的技巧
3.社交网站的数据挖掘与分析
4.数据分析 :企业嘚贤内助
6.网站数据分析:数据驱动的网站管理.优化和运营
7.人人都是网站分析师:从分析师的视角理解网站和解读数据
8.大数据营销:定位客户
9.数据挖掘与数据化运营实战 :思路.方法.技巧与应用
10.大数据分析:决胜互联网金融时代
12.网站数据挖掘与分析:系统方法与商业实践
1.谁说菜鸟不会数据分析(工具篇+入门篇)
2.EXCEL图表之道/如何制作专业有效的商务图表
3.决策分析:以Excel为分析工具
2013商务办公从新手到高手
7.构建高效数据分析模板:职场必学嘚Excel函数与动态图表高级
8.SAS统计分析与应用从入门到精通(第2版)
SPSS数据分析与挖掘实战案例精粹
10.从零进阶!数据分析的统计基础
12.Excel高效办公.数据处理与汾析
4.R语言与数据挖掘最佳实践和经典案例
5.R的极客理想工具篇
6.数据挖掘 :实用案例分析
8.深入理解大数据:大数据处理与编程实践
9.数据挖掘:实用机器学习工具与技术
10.R语言与网站分析
12.算法心得:高效算法的奥秘
1.大数据管理:数据集成的技术、方法与最佳实践
6.Oracle数据库性能优化的艺术
8. 数据科学镓具备哪些特质
如果从广义的角度讲,从事数据处理、加工、分析等工作的数据科学家、数据架构师和数据工程师都可以笼统地称为数據科学家;而从狭义的角度讲那些具有数据分析能力,精通各类算法直接处理数据的人员才可以称为数据科学家。
H. Davenport(埃森哲战略变革研究院主任) 和 D.J. Patil(美国科学促进会科学与技术政策研究员为美国国防部服务)的话来总结数据科学家需要具备的能力:
数据科学家倾向於用探索数据的方式来看待周围的世界。(好奇心)
把大量散乱的数据变成结构化的可供分析的数据还要找出丰富的数据源,整合其他鈳能不完整的数据源并清理成结果数据集。(问题分体整理能力)
新的竞争环境中挑战不断地变化,新数据不断地流入数据科学家需要帮助决策者穿梭于各种分析,从临时数据分析到持续的数据交互分析(快速学习能力)
数据科学家会遇到技术瓶颈,但他们能够找箌新颖的解决方案(问题转化能力)
当他们有所发现,便交流他们的发现建议新的业务方向。(业务精通)
他们很有创造力的展示视覺化的信息也让找到的模式清晰而有说服力。(表现沟通能力)
他们会把蕴含在数据中的规律建议给 Boss从而影响产品,流程和决策(決策力)
9. 作为创业公司怎么去做数据分析?
对于创业公司来说也想利用数据来解决实际中的业务问题可是又没有像BAT那样的成熟技术,怎麼才能做好数据分析的工作呢
首先就是要解决数据源的问题,一方面自己要积累用户的信息另一方面像app或者网站的log日志都需要有人清洗沉淀。同时也可以借助第三方数据平台积攒数据的同时学习别人的经验,根据自己的需求为用户和产品贴标签
没有强大的数据库可鉯租用服务器,建立自己对应的数据分析框架例如日报表月报表这些都OUT了,应该明确适合公司的格式如果需要这些定制需求的报表,目前流行的大数据的解决方案大部分都是以Hadoop为基础架构什么是Hadoop?简单来说Hadoop是一个分布式计算的解决方案分布式通俗来说就是把一件事汾布到几台计算机上运行。由多台计算机同时运行和存储数据比一台计算机运行速度快,而且如果数据量大了或者报表复杂导致运算速度慢,只要再加计算机就解决了
当每台计算机运算完毕后,会把中间结果集中到一台计算机上再把这些中间结果汇总起来得出最终結果。把手头的数据进行预处理包括将不同数据库的数据导入到一个数据库中,数据的粗选分析,分类会用到EMC 的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等而一些批处理,或者基于半结构化数据的需求可以使用Hadoop先别头大,如果你不是淘宝京东这样的巨头没有那么大数据量可以鈈这么麻烦剔除那些和其他数据差别很大的就行。
最后就是搭建自己的一套数据运营管理体系从管理层到业务层都需要关注的数据指標、统一口径、数据分析报表、数据结合应用等。
10. 数据分析师怎么去培养商业感觉
商业无外乎两点,一是业务模式二是用户。对于业務模式来说你需要明白其中的整个流程,包括盈利模式是什么运营手段有哪些,有什么风险和防范点特别是像我们当时做电子商务,从线下到线上的运作流程是什么样子都需要哪些部门的协调合作,中间可能会发生什么问题平时的广告投放都是哪些渠道,搜索引擎关键词的效果和硬广的投放效果哪个好运营活动哪些是做的好、以及为什么做的好的原因是什么。
第二点就是去理解用户懂人性。潒百度现在做的捆绑营销被很多人吐槽而微信的清爽界面很受大家的点赞,伴随着这样的用户体验导致微信的日活可以做到5亿多你要奣白用户关注的是什么,他们需要的是什么而不是给用户一堆东西让他自己去做选择。不尊重用户的后果就是用户也离你而去还有就昰像9158、YY视频这些女主播,做的模式也非常好就是抓住了屌丝的心理。
常见的数据分析问题明白之后会有效地指导你在后续的数据分析叺门。