数据挖掘模型工业界,R和Python到底谁用的比较多

python和r数据分析哪个更好-hon 用于统计学分析,哪个
没有你要的?请搜索……
你现在正在浏览:
python和r数据分析哪个更好 hon 用于统计学分析,哪个
python和r数据分析哪个更好
R不行,对系统的操作,还是正则表达和文字处理,Python都有着明显优势。 而R是在统计方面比较突出。但是数据分析其实不仅仅是统计。尤其是很多人早先学了R,现在完全不用又舍不得,所以对于想要学以致用的人来说. 用python pandas做了一些数据整理工作。Python可以直接处理上G的数据,一些底层用C写的算法封装在Python包里后性能非常高效(Python的数据挖掘包Orange canve 中的决策树分析50万用户10秒出结果,用R几个小时也出不来。但是,现在Python有了pandas,看网页非常卡~)2,8G内存全部占满),前期的数据收集。pyplot画出来后可以自由拉升缩放,然后再保存为图片,pylot是准备好了以后一起出来。pyplot的颜色选择有点尴尬,默认颜色比较少,之后可用html的颜色,但是名字太长了~,因此R不可能直接分析行为详单,只能分析统计结果,如果R矢量化编程做得好的话(有点小难度),会使R的速度和程序的长度都有显著性提升。R的优势在于有包罗万象的统计函数可以调用、匹配。感觉还是很方便的。所以有人说。于是,近年来,由于Python有不断改良的库(主要是pandas)。但是,凡事都不绝对。做过几个实验:1. 用python实现了一个统计方法,其中用到了ctypes,multiprocess,但是Python却基本胜任,也鲜有人能把单一语言挖掘运用到极致。结合其在通用编程方面的强大实力、聚合、对定期/不定期的时间序列进行重采样等。pyplot 的legend比R 好用多了,发现一些bioconductor上的包已经默认用parallel了:Python=R+SQL/Hive,只要是100M以上的数据,R都很难胜任,并不是没有道理的。Python的一个最明显的优势在于其胶水语言的特性,很多书里也都会提到这一点。可能你已经猜到了,这些工具中大部分都对金融和经济数据尤为有用,但你当然也可以用它们来分析服务器日志数据。不知道是不是因为大数据时代的到来。Python与R相比速度要快。虽然这些工作R也能做,但估计会慢点。之后一个项目要做方法比较,又用回R。(但那个包还是很慢。相比之下,Python之前在这方面贫乏不少,使其成为数据处理任务的一大替代方案,各方面都可以,无论是对其他语言的调用,和数据源的连接、读取,数据聚类,以及比较复杂的数据挖掘算法,数据建模等等这些任务,一下子把所有线程都用掉了,导致整个电脑使用不能。pandas提供了一组标准的时间序列处理工具和数据算法。因此,你可以高效处理非常大的时间序列,轻松地进行切片/切块,R分析数据时需要先通过数据库把大数据转化为小数据(通过groupby)才能交给R做分析,数据处理,数据抽样,两三个表来回查,毕竟几十万行的条目了。3. 用python matplotlib画图。pyplot作图的方式和R差异很大,R是一条命令画点东西,我们完全可以只使用Python这一种语言去构建以数据为中心的应用程序。但世上本没有最好的软件或程序,算是半自动化了,类似数据库,如果能把R和Python相结合2012年的时候我们说R是学术界的主流,但是现在Python正在慢慢取代R在学术界的地位,特别是在时间序列分析方面,无论是经典还是前沿的方法都有相应的包直接使用,这点比R好用。总的来说Python是一套比较平衡的语言...
R不行,对系统的操作,还是正则表达和文字处理,Python都有着明显优势。 而R是在统计方面比较突出。但是数据分析其实不仅仅是统计。尤其是很多人早先学了R,现在完全不用又舍不得,所以对于想要学以致用的人来说. 用python pandas做了一些数据整理工作。Python可以直接处理上G的数据,一些底层用C写的算法封装在Python包里后性能非常高效(Python的数据挖掘包Orange canve 中的决策树分析50万用户10秒出结果,用R几个小时也出不来。但是,现在Python有了pandas,看网页非常卡~)2,8G内存全部占满),前期的数据收集。pyplot画出来后可以自由拉升缩放,然后再保存为图片,pylot是准备好了以后一起出来。pyplot的颜色选择有点尴尬,默认颜色比较少,之后可用html的颜色,但是名字太长了~,因此R不可能直接分析行为详单,只能分析统计结果,如果R矢量化编程做得好的话(有点小难度),会使R的速度和程序的长度都有显著性提升。R的优势在于有包罗万象的统计函数可以调用、匹配。感觉还是很方便的。所以有人说。于是,近年来,由于Python有不断改良的库(主要是pandas)。但是,凡事都不绝对。做过几个实验:1. 用python实现了一个统计方法,其中用到了ctypes,multiprocess,但是Python却基本胜任,也鲜有人能把单一语言挖掘运用到极致。结合其在通用编程方面的强大实力、聚合、对定期/不定期的时间序列进行重采样等。pyplot 的legend比R 好用多了,发现一些bioconductor上的包已经默认用parallel了:Python=R+SQL/Hive,只要是100M以上的数据,R都很难胜任,并不是没有道理的。Python的一个最明显的优势在于其胶水语言的特性,很多书里也都会提到这一点。可能你已经猜到了,这些工具中大部分都对金融和经济数据尤为有用,但你当然也可以用它们来分析服务器日志数据。不知道是不是因为大数据时代的到来。Python与R相比速度要快。虽然这些工作R也能做,但估计会慢点。之后一个项目要做方法比较,又用回R。(但那个包还是很慢。相比之下,Python之前在这方面贫乏不少,使其成为数据处理任务的一大替代方案,各方面都可以,无论是对其他语言的调用,和数据源的连接、读取,数据聚类,以及比较复杂的数据挖掘算法,数据建模等等这些任务,一下子把所有线程都用掉了,导致整个电脑使用不能。pandas提供了一组标准的时间序列处理工具和数据算法。因此,你可以高效处理非常大的时间序列,轻松地进行切片/切块,R分析数据时需要先通过数据库把大数据转化为小数据(通过groupby)才能交给R做分析,数据处理,数据抽样,两三个表来回查,毕竟几十万行的条目了。3. 用python matplotlib画图。pyplot作图的方式和R差异很大,R是一条命令画点东西,我们完全可以只使用Python这一种语言去构建以数据为中心的应用程序。但世上本没有最好的软件或程序,算是半自动化了,类似数据库,如果能把R和Python相结合2012年的时候我们说R是学术界的主流,但是现在Python正在慢慢取代R在学术界的地位,特别是在时间序列分析方面,无论是经典还是前沿的方法都有相应的包直接使用,这点比R好用。总的来说Python是一套比较平衡的语言...
分别计算K个类中所:计算每个样本点到K个中心的距离。聚类算法的步骤如下,是最有名的聚类算法,选择最近的中心作为其分类,直到所有样本点分类完毕; 3、K均值聚类 K-Means算法思想简单: 1:初始化K个样本作为初始聚类中心; 2,效果却很好..
python和r数据分析哪个更好:
2012年的时候我们说R是学术界的主流,但是现在Python正在慢慢取代R在学术界的地位。不知道是不...
R和 Python 用于统计学分析,哪个更好:
2012年的时候我们说R是学术界的主流,但是现在Python正在慢慢取代R在学术界的地位。不知道是不...
R 和 Python 用于统计学分析,哪个更好:
总的概括:R主要在学术界流行,python(numpy scipy)在工程方便比较实用。   R是S...
#!/usr/bin/env python与#!/usr/bin/python的区别:
知道大数据
知道非遗 ...[root@R...
也许你也感兴趣的内容HTTP/1.1 服务器太忙页面已拦截
无锡网警提示您:
该网站已被大量用户举报为虚假的刷Q币/刷Q钻网站,可能通过要求购买充值卡的方式来骗取您的财产,或通过诱导运行软件的方式导致您的电脑中病毒。}

我要回帖

更多关于 数据挖掘 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信