大数据分析是做什么的师主要是做什么的?没有基础能学吗?

有人说这个时代,只要站在了風口猪都能飞起来,尤其互联网行业千变万化,日异月殊一不小心就错过了风口,如果没记错的话前几年火的是App开发,后来是洅接着是,现在则是区块链有人甚至用币圈一日互联网十年来形容虚拟币和区块链的火爆,如果单从热点看貌似有点out了,那究竟如何呢?今天就对拉勾网上的职位的相关信息来一个探索性分析

之所以采用拉勾网(201712)的数据,是由于在互联网垂直招聘领域拉勾网坐第一把交椅,无论是职位数量还是职位有效性都优于其它渠道。

本次采用的数据集主要有以下变量:薪酬下限、薪酬上限、工作地点、经验要求、学历要求、工作时间、公司、所处行业、公司融资情况、投资机构、岗位要求等

通过实际数据来看看数据分析是做什么的一职的现况洳何,薪资是否还有吸引力等具体来说,探索以下几个问题:

? 数据分析是做什么的职位在各城市的需求对比;

? 数据分析是做什么的师嘚待遇情况;

? 互联网热点城市的待遇情况;

? 工作经验对待遇的影响;

? 学历对待遇的影响;

? 不同的经验要求是否意味着不同的技能要求

准備工作完成,下面正式读取数据并整理

经过处理后的数据有16个变量,1766个观测值其中投资机构(investor)缺失值太多,不过它不是这次分析的重点影响不大。

一、职位在地域方面的区别:

分析结果显示与以往媒体报道的北京互联网发展遥遥领先不同,上海至少在数据分析是做什麼的职位方面的需求超过了北京但也只是略超,同时深圳与上海和北京相比,需求数量差距也不是非常大其次杭州和广州的需求比較大,且两者几乎无差距再者就是成都有一定需求,其它城市的需求非常少总体来说与人们对互联网强城市的印象相符。

从分布看薪资差异较大,有大量五千到两万五之间的职位超过三万的寥寥无几,最高有达到七万多的与人们印象不同,并不是每个数据分析是莋什么的师都能"月薪过万"低于一万的也有一定比例,但最多的还是一万五到一万七的总的来说,待遇非常吸引人

绝大部分岗位都要求有工作经验,3-5年的最多其次是1-3年的,5-10年的专家级也有一定需求还有一些不限经验的,可能是忘记填写或实习之类的

四、互联网热點城市薪资概况:

从结果看,北京的月薪中位数最高在2万元,其次是上海在1.75万左右,深杭在1.5万左右广州成都只有1万,但薪资最高的職位在深圳

五、工作经验对薪资的影响:

可见经验越久,待遇越高有5年经验的薪资中位数最低也有2万,远比传统行业高

六、学历对薪资的影响:

其中不限学历的可能由于招聘者忘记选择,也可能由于其是新兴领域更看重实际能力而非学历,对于有明确要求的大专奣显低于本科和硕士,本科和硕士的差距倒不是特别大只是硕士的起薪要高。

可见SQL,Office(主要是Excel和PPT)是需求最大的是绝大多数要求必须掌握的;其次,Python,算法和R的需求也很大另外SAS,SPSSHadoop,Hive的需求也不小

八、查看主流技能的薪酬平均中值:

泡泡大小代表了需求量,从结果看会R嘚薪资最高,但这只是高薪的必要条件而非充分条件,另外算法太低可能是由于大多数岗位需求里都提到了算法,进而拉低了其均值如果进一步分析,应该能得出比较贴合实际的数据或者也可直接将此项剔除,分析其它岗位如深度学习机器学习的薪资来得到算法的薪资均值Java是走向高级开发必不可少的路,HadoopSpark,Hive仍然是数据分析是做什么的类职位的高薪必备技能

九、看看主要工作经验对主流技能的偠求是否有差别:

几乎所有主流技能,3-5年工作经验的需求量都比1-3年的多但这很大可能是因为3-5年的招聘数本身就比1-3年的多100个左右,但我注意到对Matlab、MySQL、VBA及Tableau的需求两者相差无几,VBA方面3-5年的甚至低于1-3年的这说明3-5年经验要求的对这四种技能的需求不如1-3年的多。

? 对数据分析是做什么的一职的需求主要集中在北上广深杭其中北京和上海遥遥领先,深圳需求紧随其后广州和杭州相比上海和北京需求减半,但比起其它城市依然不少

? 大多数职位提供的薪资中值在5千到2万5之间,很少有给出3万的但也有极少数岗位,给出了五六万的高薪

? 大多数崗位要求有工作经验,要求有3-5年经验的最多其次是1-3年的,不要求或只要求不到一年的很少

? 互联网发展热门城市中,北京给出的薪资嘚中值最高达到了2万元,上海紧随其后比北京低一两千,杭州和深圳基本持平基本在1万5左右,这有点出人意料考虑到置业成本,詓杭州貌似比深圳更好广州和成都的中值在1万左右,可见至少在数据方面,杭州的发展已经超过广州这个一线城市了

? 工作经验与薪资密切相关,1-3年经验的薪资中值大部分超过了1万3-5年的都在1万5以上,而5年以上的薪资中值都在2万以上。

? 学历方面硕士对本科的优勢不是很明显,但下限是肯定高于本科的大专相比本科劣势就比较明显了,薪资低不少而博士相对硕士也有很大优势,但需求少

? 對于拿到高薪的必要条件,R优势最大其次是Java,Linux等当然这些条件并非单一满足,一般要同时会其它高级技能才能拿到高薪显然这已经鈈是基础的数据分析是做什么的需要的技能了,可能侧重于数据挖掘和建模等

? 要求3-5年经验的和要求1-3年经验的在技能需求上没有太大差別,对于这条结论不是很有把握不是太符合逻辑,等日后再详细分析

通过这次分析,深切的感受到了思路的重要性如果你对探索数據没有好奇心,没有一点自己的想法那真可谓无处下手,不知道该分析什么正所谓思路为“道”,工具为“术”分析之前,得先给洎己提出几个想探索的问题或想验证的假设,当然这点不是非得一步到位也可以循序渐进,随着分析的不断进行再开展新的探索

“術”方面的工具技能也很重要,有时候你不知道那个函数的用法不知道那个参数的设置,可能找很久都找不到比如对柱状图添加文字說明,起初我按照搜索到的方法添加可就是不出效果,搜了好几种方法都不行无奈之下我只得把别人的代码截图一行一行敲下来运行驗证,最后发现是因为没放在一个cell里这个低级原因当然,这个过程中我又学到了别的知识术方面还有一点需要说的是,早期seaborn包会对matplotlib的圖自动美化但新版改了,不会自动美化得自己设置,这方面花了大量时间搜索主要是不知道对应的术语叫什么,只能按文字描述搜索最后发现,图像的灰底不是颜色是style,可以用两种方式设置但两种都不好用,因为只要对一个图设置后那做其它图时都会默认采鼡你设置的这个style,而我希望只针对单个图起作用

项目之外的,我感到主动学习非常重要对于自己不会的,不要畏惧也不要偷懒,要楿信自己碰到的问题别人也绝对碰到过搜一搜,看看别人是怎么解决的比如对于技能的提取及词云的绘制,起初用了结巴分词提取泹提取有疏漏,不过没有大的问题但绘制词云时,出来的都是中文词基本没有技能名,我只好去找别的方法看能不能过滤掉结巴提取后的中文词,最后发现何不采用正则重新提取呢于是进行了重新提取,但绘制词云时又碰到重复显示的问题同样的词以不同大小和顏色显示好几次,但词并没有问题最后用自定义词典解决了。

另外就是英语非常重要有些函数的参数太多,以至于官网文档都没有详細说它可能是作为一些共用的参数放在了其它函数中介绍。最后对于岗位描述的探索还能进一步采用语义分析,得出更明确的要求洇为有些要求是必须满足的,有些是加分项但水平所限,还不能语义分析还有就是投资公司,如果数据较全也能探索下金融方面这些機构的投资偏好及相互间的裙带关系毕竟,中国的互联网谁都绕不开阿里腾讯及其背后的资本。

}

如何成为一名大数据工程师


未來,对熟练的工程师的需求将急速增长现实的情况是这样的,无论公司属于哪个行业要想在当今竞争激烈的市场环境中取得成功,需偠一个强大的软件架构用来存储和访问公司数据最好从公司创立一开始就要搭建它。

在如今有时候有数据的地方就叫这未免有些夸张,在本文中统称为数据工程师和

先了解一下,数据工程师究竟做什么事?一个人怎么样成为数据工程师?我们将讨论这个有趣的领域以及如哬成为数据工程师

数据工程师负责创建和维护分析基础架构,该基础架构几乎可以支持数据世界中的所有其他功能他们负责架构的开發、构建、维护和测试,例如和处理系统工程师还负责创建用于建模,挖掘获取和验证数据集合等流程。

因此数据工程师需要掌握通用脚本语言和工具,利用和改进系统不断提高数据数量和质量。

虽然在技能和角色方面存在一定程度的重叠但这两个职位正日益分囮为不同的角色。

更关注与数据基础设施的互动而不是去创建和维护数据基础设施。通常负责进行市场和业务运营研究以确定趋势和關系,用各种复杂的机器和方法与数据进行交互并对其采取行动

通常精通机器学习和高级数据建模,因为他们希望借助高级数学模型和算法将原始数据转化为可操作的可理解的内容。这些信息通常用作分析来源以告诉决策者“更大的图景”。

那么是什么让与数据工程師不同呢?两者主要区别在目标焦点数据工程师更专注于构建用于数据生成和数据基础架构; 专注于对生成的数据进行数学和统计分析。

下媔介绍数据工程师所需的几项关键技能

数据工程师更关注分析基础架构,因此所需的大部分技能都是以架构为中心的

2.深入了解SQL和其它解决方案

数据工程师需要熟悉管理系统,深入了解SQL至关重要同样其它解决方案,例如Cassandra或BigTable也须熟悉因为不是每个都是由可识别的标准来構建。

3.数据仓库和ETL工具

数据仓库和ETL经验对于数据工程师至关重要像Redshift或Panoply这样的数据仓库解决方案,以及ETL工具比如StitchData或Segment都非常有用。此外數据存储和数据检索经验同样重要,因为处理的数据量是个天文数字

对基于Apache Hadoop的分析有深刻理解是这个领域的一个非常必要的需求,一般凊况下HBaseHive和MapReduce的知识存储是必需的。

说到解决方案编码与开发能力是一个重要的优点(这也是许多职位的要求),你要熟悉PythonC/C++,JavaPerl,Golang或其它语訁这会非常有价值。

虽然数据工程师主要关注的是数据科学但对数据处理技术的理解会加分,比如一些统计分析知识和基础数据建模

机器学习已经成为标准数据科学,该领域的知识可以帮我们构建同类产品的解决方案这种知识还有一个好处,就是让你在这个领域极具市场价值因为在这种情况下能够“戴上两顶帽子”会让你成为一个更强大的工具。

最后需要我们对Unix,Linux和Solaris系统有深入了解许多数学笁具基于这些操作系统,因为它们有Windows和Mac系统功能没有的访问权限和特殊硬件需求

与其他职业相比,数据工程师需要用更复杂的学习方法数据工程师通常有计算机科学技术相关学位会更好,然后再进一步学习供应商特定的认证计划和培训课程

计算机相关学位虽然重要,泹只是故事的一部分获得适合的认证可能非常有价值,市场上也有一些工程师专门认证如下:

Google认证专家 – 数据工程。该认证表明学生熟悉数据工程原理可以作为该领域的助理或专业人员。

IBM认证数据工程师 – 此认证更侧重于数据工程技能集的特定应用,而不是一般技能这被许多人视为黄金标准。

Cloudera的CCP数据工程师:该认证针对Cloudera解决方案体现学生在ETL工具和分析方面的经验。

二级技能认证例如MCSE(微软认证解决方案专家),涵盖更广泛的主题但具有特定的子认证,如MCSE:数据管理与分析

当然,在线教育平台提供该领域的重要培训Udemy提供了数據工程众多的课程和数据科学,其他如EDX和Memrise也提供了类似课程DataCamp专注于数据科学和工程,Galvanize的品类则更为广泛

虽然这些数据解决方案可以帮助您踏进工程领域,虽然它们有分发或授予认证但只是提供证书或文凭。虽然一般学习够了但它们不能被认视为实际认证或实践的替玳品。

希望本文能够给大家阐明数据工程师所需的特定知识技能和要求。这个领域正在迅速发展但它也充满了挑战与险阻。在工作中通过适当的认证填补技能组合的空白实现最好学习的关键一步。



}

近十几年来随着信息通讯领域的迅猛发展已经进入了全新的数字化及智能化时代,大数据以全新概念出现在大众面前从刚开始的无人谈及,到现在的盛行谈论就这樣走进了公众的视野。什么是大数据呢对于数据分析是做什么的师,它有意味着什么?处在人人高谈的大数据时代数据分析是做什么的師该了解哪些内容。

当下几乎每个行业都在努力追着趋势跑、紧跟大数据步伐每家企业都担心被时代给抛下,甚至很多企业将大数据当莋了救命稻草大数据技术已经逐渐成为企业标配。但是大数据并不是万能的并不是所有企业都懂得如何真正运用大数据,帮助其完成洎身的转型升级、驱动其业务的增长

什么是“大数据”,目前并没有统一的定义维基百科提供的定义有些拙劣,也不完整:“ 大数据指的是所涉及的数据量规模巨大到无法通过主流的工具,在合理的时间内撷取、管理、处理、并整理成为人们所能解读的信息 “

IBM 提供叻一个充分的简单易懂的概述:

大批量 – 大数据体积庞大。企业里到处充斥着数据信息动不动就达到了TB级,甚至是PB级

高速度 – 大数据通常对时间敏感。为了最大限度地发挥其业务价值大数据必须及时使用起来。

多样化 – 大数据超越了结构化数据它包括所有种类的非結构化数据,如文本、音频、视频、点击流、日志文件等等都可以是大数据的组成部分

MSDN的布莱恩·史密斯在IBM的基础上增加了第四点:

变異性 – 数据可以使用不同的定义方式来进行解释。不同的问题需要不同的阐释

数据分析是做什么的师的职责,就是从大数据库中提取信息通过数据挖掘和数据存储为人力资源、市场营销、客户服务和运营等多个业务领域的决策提供信息。

据前瞻产业研究院《中国大数据產业发展前景与投资战略规划分析报告》数据显示2016年我国大数据行业市场规模约168亿元,同比2015年的116亿元增长了44.8%

现在,中国的海量数据快速增长数据量年均增速超过50%,预计到2020年数据总量在全球占比将达20%

从专利上看,中国大数据技术产业不断突破大数据专利公开量约占铨球的40%,涵盖了制造、商务、金融、交通、医疗等众多领域

此外,融合新动能加快培育2017年,中国数字经济总量达到27.2万亿元同比增长20%,占GDP比重达32.9%贡献了GDP增长的55%。

根据美国劳工局数据统计到2024年,大数据相关岗位将增加440万;

PayScale数据显示德国数据分析是做什么的师的年均收入为41329欧元(合计51320美元),英国为25511英镑(合计32930美元)瑞士为88049法郎(92838美元)。

当“网站分析”发展到“数据智能“毫无疑问,数据分析昰做什么的人员也工作也应该发生一些转变过去的工作主要是以网站为中心并制定渠道的具体战术,而在将来则需要负责更具战略性的、面向业务和(大)数据专业知识的工作

数据分析是做什么的师的主要关注点不应该是较低层的基础设施和工具开发。以下几点是数据分析昰做什么的的机会领域:

处理 :掌握正确的工具以便可以在不同条件下(不同的数据集、不同的业务环境等)进行高效的分析目前网站分析專家们最常用的工具无疑是各类网站分析工具,大多数人并不熟悉商业智能和统计分析工具如Tableau、SAS、Cognos等的使用拥有这些工具的专业技能将對数据分析是做什么的人员的发展大有好处。

NLP:学习非结构化数据分析是做什么的的专业技能比如社交媒体、呼叫中心日志和邮件的数據多为非结构化数据。从数据处理的角度来看在这个行业中我们的目标应该是确定和掌握一些最合适的分析方法和工具,无论是社会化媒体情感分析还是一些更复杂的平台

可视化 :掌握仪表板的展示技能,或者宽泛点来说掌握数据可视化的技术是摆在数据分析是做什麼的师面前一个明显的机会(注:不要把数据可视化与现在网络营销中常用的“信息图”infographics相混淆)。

在大数时代其中一个最大的挑战将是满足需求和技术资源的供给。当前的“网站分析”的基础普遍并不足够成熟以支持真正的大数据的使用填补技能差距,越来越多的“网站汾析师”将成长为“数据分析是做什么的师”

使用大数据,这是耗费大量成本的问题值得一提。人们需要了解大数据如何以从未想象過的方式悄然改变世界

当人们利用大数据的强大功能来改善人口统计学研究并定制其用户体验时,可以充分利用这一工具的强大功能嶊动全球范围内的业务发展,无论其位置如何

学习好数据分析是做什么的万向行业在等你:

财务:创新技术和投机技术将成为养老金成功唍善的关键性驱动因素;

银行:大数据能够提升客户参与度,并且最大程度地减少客户服务咨询;

法律:21实际的法律将基于数学和数据分析是做什么的的结合例如米兰麦克律师事务所正在与数据科学家合作,进行账目分析、人事分配、时间安排和文件流程等工作以更准確地确定公司的成本及利润;

能源方向:公共事业和店里行业正处于几十年来最严重的的破坏之中,大数据将帮助人类通过技术变革更恏地节能减排;

医学:可穿戴设备、数据传感器等在医疗保健行业变得越来越普遍,数据分析是做什么的可以为更加个性化的护理系统提供帮助;

艺术文化:在app上扫描绘画不只是用户识别,它还可以提供有关艺术及创作者的大量信息而不仅仅是标签显示的内容。

}

我要回帖

更多关于 数据分析是做什么的 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信