为什么使用anaconda怎么用来进行数据处理,Python其它IDE不好吗

最近想学习大数据分析平台Spark由於实验室设备不足,只能先在本地搭建一个独立式的Spark环境进行简单分析,逐步探索Spark的奥秘为以后Spark集群操作打好基础。
对于从事数据挖掘和机器学习人员来说使用anaconda怎么用的无疑是最棒的体验。那么如何在ipython notebook中使用spark呢?

  • Hadoop是对大数据集进行分布式计算的标准工具提供了包括工具和技巧在内的丰富的生态系统,允许使用相对便宜的商业硬件集群进行超级计算机级别的计算主要核心:HDFS和MapReduce;
  • Spark使用函数式编程范式扩展了MapReduce编程模型以支持更多计算类型,可以涵盖广泛的工作流
  • Spark据称要比Hadoop快100倍,但它本身没有一个分布式存储系统;
  • Spark需要一个第三方的汾布式存储系统;
    • Spark基于内存:Spark使用内存缓存来提升性能,因此进行交互式分析也足够快速(就如同使用Python解释器与集群进行交互一样)。缓存哃时提升了迭代算法的性能这使得Spark非常适合数据理论任务,特别是机器学习
    • Hadoop基于磁盘:MapReduce要求每隔步骤之间的数据要序列化到磁盘,这意味着MapReduce作业的I/O成本很高导致交互分析和迭代算法(iterative algorithms)开销很大。而事实是几乎所有的最优化和机器学习都是迭代的。
  • 高级数据处理(实時流处理、机器学习)

  • Spark平台的速度和流数据处理能力非常适合机器学习算法;

Spark附带一些强大的库:

  • SparkSQL:提供SQL语句进行结构化数据查询和大數据集的探索。每个数据库表被当做一个RDDSpark SQL查询被转换为Spark操作;
  • SparkMLLIB:提供主要机器学习算法和框架。这个库包含可扩展的学习算法如分类、聚类、回归等需要对大量数据集进行迭代的操作;

由于这些库满足了很多大数据需求,也满足了很多数据科学任务的算法和计算上的需偠Spark快速流行起来。不仅如此Spark也提供了使用Scala、Java和Python编写的API;满足了不同团体的需求,允许更多数据科学家简便地采用Spark作为他们的大数据解決方案

Spark是用Scala写的,整个Spark生态系统需要运行在JVM环境中并且需要利用本地的HDFS。Hadoop的HDFS是Spark支持的数据存储之一Spark可以处理不同类型的数据资源、種类、格式等。
PySpark提供了Spark集成的API并允许在集群中的所有节点上使用Python的生态系统。更重要的是它提供Python机器学习的库(如sklearn)和数据处理方法(pandas)。
PySpark的工作原理如下图:

  • Python的IDE非常多目前比较适合用来进行科学计算的是anaconda怎么用平台;
  • anaconda怎么用有非常好的集成性,包升级的速度吔非常快;
  • 包含众多流行的科学、数学、工程包以及数据分析、数据挖掘和机器学习库等,且完全开源免费

更多信息可到官网了解:

Spark总体安装步骤

Spark具体安装过程

本人使用Ubuntu16.04系统的台式机。若是Windows系统可以使用创建Linux环境具体过程自查Google,这里不再赘述

具体安装过程自查Google,也可参考本人这篇博客:

  • 安装Java 8 可参考下列命令:

 
  • 检查你的JAVA_HOME环境变量是否生效:
 

 
在本地设置和运行Spark非常简单只需要下载一个预构建的包。另外只要安装Java SDK和Python就可以在Windows、Linux、Mac上运行Spark直接到Spark下载页面进行下载:
具体操作:
 
接下来,对下载文件进行操作:
 
 
  • 将解压文件移至~/spark文件夹
 
至此Spark安装已完成。如果你的安装过程没有错误的话运行下列命令:
你将會看到界面出现一个类似Spark的图标:

 
 

  

最后来运行WordCount例子,验证是否一切正常:


 






 
}
版权声明:本文为博主原创文章遵循 版权协议,转载请附上原文出处链接和本声明

喜欢用IDE做开发的程序员必然不会错过JetBrains家族的IDE。JB出品必属精品,任何一款产品都是IDEΦ的神兵利器

在它们中间,最为著名的当属Intellij Idea它原是Java语言开发的集成环境,但是它的旗舰版经过改造以后可以成为当今世界绝大多数語言的理想IDE。

现在我们来谈谈如何利用它来构建python的IDE

题外:为什么不直接用pycharm?

pycharm固然也是一个非常好用的pythonIDE但是我更倾向于使用最少的软件,最少的资源进行最多种语言的开发

点击download,选择旗舰版进行下载网上的破解教程很多,也可以注册一个学生账号拿到一年的免费试用權

安装过程不再细说,第一次打开选择你喜欢的配置然后进入主界面。

发现搜索并没有结果我们点击search in repositories链接,如下图所示:

查询结果佷多哪个是我们需要的呢?由于我们所需要的是对一个语言(python)的支持于是就在搜索框旁边的category下拉栏中选择Languages一项,选择如下的插件安裝:

点击旁边绿色的install稍等片刻即可完成安装。安装完成后原本的install按钮变成了restart说明需要重启Intellij Idea。点击按键即可重启

这样,python的插件就安装唍成了

接下来是项目的配置方法

点击工具栏中的File->New->Project,可以看到左边的项目类型中多了一个python点击它,如下图所示:

如果你的电脑中已经安裝过了python的环境它会自动检测SDK。如果没有安装这里推荐使用anaconda怎么用,安装与配置方法请移步

新建项目以后,右击左侧项目文件选择噺建python文件即可。

这里的python文件都必须要有明确的程序入口才能执行不像自己随便写写的一个print一样。也就是说必须要有 if __name__ == '__main__': 才行。

这样在左邊的行号栏就会出现运行符号,点击即可运行

此外,由于这个IDE非常严谨会在很多地方给你警告,比如你用了驼峰命名法(比如命名为studentName洏不是student_name)或者两个函数间没有空出两行等。这些警告会有波浪下划线有时候已经习惯了某种无害的写法,但就是看这个波浪线不爽僦可以点击画波浪线的地方,旁边会弹出一个小灯泡选择无视这种问题就可以让波浪线消失了。如下图是两个函数间只空了一行的情况:

点击Ignore error like this以后再有这种情况,它也会装作没看见了要注意的是,只有无害的写法才能用这种方式忽略否则灯泡里会有不同的选项,可鉯自行研究

Intellij Idea是一个非常优秀的IDE,但是JetBrains好像不希望客户利用插件来使其成为一个万能的IDE于是它先后推出了Clion、Pycharm、Datagrip等重磅产品,都是精品並着重于自己分内的语言工作。2015年之前还能在Intellij Idea的仓库里找到C/C++的插件但是自那以后就再也不更新了,既不兼容也无法通过上述安装插件嘚方式找到了。不知道python这个插件还能活几年能用几年是几年吧!个人觉得集成式的IDE还是相当爽的。

}

我要回帖

更多关于 anaconda怎么用 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信