哪个平台更适合机器学习平台搭建

点击联系发帖人 时间：2017-09-28 01:37

机器学习训练平台

机器学习------平台和语言选择 - 飞鸟各投林 - 博客园
随笔 - 301
机器学习语言一、机器学习常用的编程语言有哪些？机器学习(Machine
Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、
凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，
重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，
它主要使用归纳、综合而不是演绎。目前机器学习语言主要有：R 语言，Python，MATLAB、JAVA、WEKA、GO、JavaScript
等。二、各个语言在机器学习方面的优缺点:1、R 语言R 语言是一个开发环境，采用一种近似于 Lisp
的脚本语言。在这个库中，所有与统计相关的功能都通过 R 语言提供，包括一些复杂的图标。 CRAN(可以认为是机器学习的第三方包)
中的机器学习目录下的代码，是由统计技术方法和其他相关领域中的领军人物编写的。如果做实验，或是快速拓展知识，R 语言都是必须学习的。R
的优势在于有包罗万象的统计函数可以调用，特别是在时间序列分析方面（主要用在金融分析与趋势预测）无论是经典还是前
沿的方法都有相应的包直接使用；相比 python 在这方面贫乏不少。缺点是在处理大数据方面，性能和速度低下。2、PythonPython
是一门多功能的语言。数据统计是更多是通过第三方包来实现的。在数据分析、
海量的数据统计、以及提供互动化的数据分析，动态的缩放图表等综合功能最强大的。但是
这些功能分散在第三方库里面，没有得到有机的整合，相应的学习成本会较高。python 与 R 相比速度要快。python 可以直接处理上 G
的数据；R 不行，R 分析数据时需要先通过数据库把大数据转化为小数据（通过 groupby）才能交给 R 做分析，因此 R
不可能直接分析行为详单，只能分析统计结果。Python 的优势在于其胶水语言的特性，一些底层用 C 写的算法封装在 python
包里后性能非常高效(Python 的数据挖掘包 Orange canve 中的决策树分析 50 万用户 10 秒出结果，用 R
几个小时也出不来，8G 内存全部占满)。3、MATLAB作为机器学习、模式识别等方面经常使用的工具，MATLAB
在实现机器学习算法时要比 Python 或者 NumPy 更加自然。很多高校也在计算机科学相关的课程中教授 MATLAB 语言，
易学易用。然而，MATLAB 也存在很多的缺点：价格昂贵、非开源、性能表现平平、语法不符合程序员的习惯等。例如， MATLAB
中矩阵乘积运算操作为 X.dot(Y) ，而 Python 为 X@W ，更加简洁、明了。MATLAB 的性能比
Python、Go、Java 等语言要差很多。4、JAVA在大数据框架中，Mahout（在印地语中意思是&大象骑士&）包
含几种常见的机器学习方法。这款软件包是围绕算法而非方法，所以需要有一定的算法基础，其各部分功能是整合在一起的，比如基于用户的推荐系统。
另一个基于 Hadoop 的机器学习项目是 Cloudera 公司推行的 Oryx，其特性在于通过交付实时流结果而非处理批量作业来对
Mahout 处理结果进行进一步分析。该该项目现在还处于初始阶段，这只是个项目而非实际产品，但它在不断改善，所以很值得关注。
除了上述主要针对 Hadoop 的 Mahout，其他一些面向 Java 的机器学习库也在广泛使用。 Weka
由新西兰怀卡托大学开发的工作台式的应用，它在常见的算法集合中增加了可视化和数据挖掘功能。对于那些想要为他们的工作打造一个前端或者计划将
Java 作为初始开发的用户来说，Weka 可能是最好的选择。Java-ML 也不错，但它更适合那些已经习惯将 Java 和
机器学习配合使用的开发者。5、WEKAWEKA 是一个数据挖掘工作平台，为用户提供数一系列据挖掘全过程的 API、命令行和图形化用户接口。可以准备数据、可视化、建立分类、进行回归分析、建立聚类模型，同时可以通过第三方插件执行其他算法。6、Go谷
歌的系统语言，由于其并行设计，使其似乎是一个编写机器学习库理想的环境。虽然目前与之相关的库项目规模尚小，但也有一些值得关注，
GoLearn，它的开发者将其描述为一个&内置电池&的机器学习库。它提供过滤、分类以及回归分析等多种工具。另一套较小且更为基础的库是
mlgo，虽然目前它能提供的算法数量还非常少，但计划在未来推出更多。7、JavaScript关于 JavaScript，
原意是这样的，任何能够由 JavaScript 编写的内容最终都会由 JavaScript 编写，这对机器学习库同样适用。目前由
JavaScript 编写的方案在这一领域数量仍然相对较少，大多数选项仅仅是单一算法而非完整的库，但已经有部分有用工具渐渐脱颖而出。
ConvNetJS 允许大家直接在浏览器当中进行深度学习神经网络培训，而名为 brain 则将神经网络作为可安装的 NPM
模块提供给大家。此外，Encog 库同样值得关注，而且它适用于多种平台：Java、C#、C/C++以及 JavaScript。
三：相关回答：
机器学习，无非就是提取特征，然后分类，而这其中的大部分在opencv里已经集成了，所以你有必要先学习一下opencv这一开源库，强大而简洁。关于入门的资料，你可以看一下csdn的浅墨的文章。他的博客地址，这也是我oepncv入门的资料，共十八课，踏踏实实的跟着坐下来，应该是能入门了，如果不够，可以买他写的书，及我大爱的一本《深入理解opencv》。2.
关于机器学习，有那么一本书《机器学习实战》，是用python写的，个人觉得很好，不仅简单的写了下常用机器学习算法的原理，而且有代码。python要是不熟悉的话，可以现学现卖，如果你之前学过任何一门语言，那么python学习就会比较简单，现在在搞深度学习框架，很多框架的都提供了python的接口，python是一门愈来愈热的语言，有必要学习。3.
关于视频分析，我从我从事的智能监控方面来讲一下，其实就是图像的处理，首先要提取视频中的运动物体，常用算法有：帧差法，GMM，vibe等；提取前景（运动物体）后对其进行跟踪，跟踪的主要算法有：camshift，粒子滤波，TLD，压缩感知等；以及之后对监控视频的去模糊，去雾，夜视增强，行人检测，车牌检测，上下身颜色识别，人车分类、视频浓缩，不过这些，都可基于opencv来实现。4.
机器学习的分支，深度学习，也就是深度神经网络是近来比较火热的领域，很多机器学习实现的功能很难用到商用中，比如人脸识别，传统的机器学习方法受光照，角度干扰太大，很难达到较好的识别率，深度学习在图像中的应用已经有很多了。这里介绍几个框架，也是目前我在用的，伯克利的caffe，以及谷歌的tensorflow，当然这应该是你完成上述前三部门的内容后，才该做的。谷歌、百度、IBM，哪个适合作为你的 AI 和机器学习平台_36氪
市场合作，请您联系： media_
品牌广告合作，请您联系： media_
企业创新合作，请您联系： corp_
地方合作，请您联系：
满足以下场景，获得更高通过率： 1. 新融资求报道 2. 新公司求报道 3. 新产品求报道 4. 创投新闻爆料
36氪APP 让一部分人先看到未来
为你推送和解读最前沿、最有料的科技创投资讯
一级市场金融信息和系统服务提供商
聚集全球最优秀的创业者，项目融资率接近97%，领跑行业机器学习-人工智能实验室-中国人工智能网-Powered by www.AiLab.cn
更新： 15:27浏览：13087
前面讲了LeNet、AlexNet和Vgg，这周来讲讲GoogLeNet。GoogLeNet是由google的Christian Szegedy等人在2014年的论文《Going Deeper with Convolutions》提出，其最大的亮点是提出一种叫Inception的结构，以此为基础构建GoogLeNet，并在当年的ImageNet分类和检
更新： 12:28浏览：4212
大家都了解卷积神经网络CNN，但是对于它在每一层提取到的特征以及训练的过程可能还是不太明白，所以这篇主要通过模型的可视化来神经网络在每一层中是如何训练的。我们知道，神经网络本身包含了一系列特征提取器，理想的feature map应该是稀疏的以及包含典型
更新： 12:16浏览：15555
许多年以后，中国的智能零售企业回想起2018年那场核芯技术之争，会唏嘘自己错过了风口，还是会微微一笑庆幸自己搭乘了AI芯技术的那阵东风？ 2018年4月，在一场主题为AI生万物的GIMC全球移动互联网大会上，来自码隆科技的联合创始人兼CEO黄鼎隆博士，向全球技
更新： 14:00浏览：14940
IBM 刚刚宣布了面向人工智能开发者的全新深度学习即服务项目，简称 DLaaS 。借助这项服务，用户可以借助流行的框架来训练神经网络，比如 TensorFlow、PyTorch、以及 Caffe，而无需购买和维护成本高昂的硬件。举个例子，数据科学家们可以仅使用他们所需的资源
更新： 11:29浏览：19319
[编者按]新年伊始，行业瞬息万变，2018年风口将往哪里吹，有着怎样的变革和动向，有哪些确定性和不确定性？在CES期间，我们采访了众多行业大咖，策划预见2018大咖说，听听他们对2018年的判断、行动和焦虑。第六位嘉宾是柔宇科技创始人兼CEO刘自鸿。预见201
更新： 09:28浏览：32925
人们常说眼睛是心灵的窗户，但是谷歌的研究人员把它们视作人们健康的指示器。谷歌正借助深度学习技术，通过分析人们的视网膜图像预测一个人的血压、年龄和吸烟状态。谷歌的计算机能够从血管的排布中获取线索，而且之前的一项研究表明计算机能够借助这种信息
更新： 13:11浏览：36192
在Quora论坛上研究编程语言的Tikhon Jelvis回答说:我发现，机器学习在很多方面都被高估了，无论是经验不足的人，还是更有害的，人们都对这一领域投入了大量的资金。最普遍的看法是，机器学习比实际我们认为的更强大。机器学习只擅长于进行机器学习，而在其
更新： 10:06浏览：37399
谁会想到，自动驾驶汽车的故事竟然会成真，甚至机器学习算法能够带动计算机与人类交流、驾驶汽车、玩游戏，也可以做人类无法做到的事情。数学算法驱动的机器学习以及科学创新已经成为我们生活的重要组成部分。例如，谷歌应用概率算法自动纠正拼写错误的单词
更新： 13:19浏览：53207
缤果盒子在京举办发布会，发布小范FANAI人工智能解决方案。新版无人零售解决方案主要是融合了图像识别、人工智能、机器学习技术，打通从供应链到商品管理到促销完整零售链条。此外，缤果盒子宣布与北京市门头沟、鄂尔多斯康巴什新区政府、雅居乐地产、百事
更新： 09:57浏览：45163
近日，索尼公司宣布将开始在日本无偿提供可生成深度学习程序的综合开发软件：神经网络控制台（Neural Network Console）。据悉，软件工程师和设计师通过使用配置有图形用户界面（下称GUI）的深度学习综合开发软件，可凭借直观的用户界面，有效地进行神经网
更新： 10:04浏览：42387
OpenAI的机器人刚刚在Dota2 1v1比赛中战胜了人类顶级职业玩家Dendi。以建设安全的通用人工智能为己任的OpenAI，通过Self-Play的方式，从零开始训练出了这个机器人。 Dota2沦陷继横扫顶级的人类国际象棋大师和围棋大师后，计算机如今在风靡全球的电子游戏Dot
更新： 14:07浏览：59644
今年6月，当吴恩达宣布Deeplearning.ai项目即将推出时，很难确切地知道这位人工智能的领航者到底有什么打算。在卸任百度首席科学家之后，吴恩达一直在为他那款颇受欢迎的学习Coursera课程的入门级机器开发一系列后续课程。这一次，他的主要精力放在了深度学
更新： 09:57浏览：37222
美国当地时间7月25日。圣迭戈Qualcomm Incorporated(NASDAQ: QCOM)子公司Qualcomm Technologies, Inc.宣布，即日起将在Qualcomm开发者网络(Qualcomm Developer Network)上提供Qualcomm?骁龙?神经处理引擎(Neural Processing Engine，NPE)软件开发包(SDK)。骁
更新： 16:37浏览：67332
三年前，2014 年 5 月，与我们长期合作的一位译者，告诉编辑一个信息，深度学习界的泰斗YoshuaBengio要出书了！从加拿大蒙特利尔大学网站作者的个人网页上我们看到，深度学习领域的第一本书花书赫然在目。三年前，国内机器学习热、深度学习热尚处于萌芽状态
更新： 15:57浏览：64826
世界经历过工业革命，现在我们正处于数字革命的时代。机器学习、人工智能和大数据分析是当今世界的现实。我最近有机会与Talend副总裁CiaranDynes以及Datalytyx主管JustinMullen交谈。Talend是一家软件集成供应商，主要为企业提供大数据解决方案，而Datalyty
更新： 14:17浏览：26645
马斯克旗下的汽车公司特斯拉获得了一位计算机视觉研究大将，这将有利于该公司的自动驾驶系统开发。当地时间6月20日，科技媒体TechCrunch报道称，前Open AI研究员、斯坦福大学博士生Andrej Karpathy将担任特斯拉人工智能和自动驾驶视觉总监（Director of AI
更新： 16:12浏览：23871
图片来源：Trusted Reviews Facebook今日在西雅图 Data@Scale大会上公布的一篇研究论文中表示，已成功开发一套新的计算机视觉系统，该系统在每秒钟可完成4万张图片的训练。这样一来在60分钟内就可以完成ImageNet -1K的数据集（共计120万张图片）的训练就成了
更新： 09:49浏览：51018
科技讯6月6日消息，据Venturebeat报道，在全球开发者大会上，苹果发布了其机器学习编程框架Core ML，它可帮助机器学习模型在苹果移动设备上运行更容易。 Core ML将是苹果最新版移动操作系统iOS 11的重要组成部分，它允许开发者加载训练有素的机器学习模型到i
更新： 09:51浏览：81910
唐旭编译整理量子位报道 | 公众号QbitAI UI设计和前端工程师之间，可能还需要一个神经网络。近日，位于哥本哈根的一家创业公司Uizard Technologies开发出了一个名为pix2code的系统。运用深度学习，这个系统能够根据输入的图形用户界面（GUI）截图直接输
更新： 21:05浏览：42180
图片来源：techcrunch 据TechCrunch报道，谷歌今日（23日）在Google Marketing Next大会上公布了其实体店访问量测量工具的重大更新。该公司正通过深度学习来扩充现有的模式，以期为更多的商户提供有力的观察数据。自2014年以来，谷歌一直利用匿名位置、WiFi百度组建全球最大深度机器学习开源平台
查看最新行情
新浪科技讯 5月21日消息，百度发起的全球最大分布式深度机器学习开源平台近期正式面向公众开放。据介绍，该平台隶属于“深盟”开源组织，核心开发者来自百度深度学习研究院(IDL)，微软亚洲研究院、华盛顿大学、纽约大学、香港科技大学，卡耐基·梅陇大学等公司和高校。通过这一平台，开发者们可以免费获得分布式机器学习算法源码，从而降低开发和部署分布式机器学习系统及相关应用的门槛。 “此次我们推出的深度机器学习开源平台，和其他开源软件一样没有任何使用限制，个人和机构均可以自由使用”，深盟项目负责人之一、百度深度学习研究院李沐称，目前业内流行的分布式平台例如Spark都基于JAVA语言，开发难度虽然较低，但通常在性能上有所缺陷。而此次“深盟”推出的深度机器学习开源平台，其核心则完全采用C++语言，加之所开放的算法经过了多家公司的实践，因此性能稳定，达到了工业级应用水平。同时也希望能吸引更多的开发者和项目的加入。百度方面表示，机器学习是人工智能研究领域中的重要方向，而深度学习则是近年机器学习领域的一个突破。2013年，百度组建了百度IDL(深度学习研究院)，尝试将深度学习应用于语音识别和图像识别、检索，以及广告CTR预估等领域。目前有超过8项深度学习技术在其产品上线，用于GPU提升计算效率，处理海量训练数据，语音识别，OCR识别，人脸识别，图像搜索等。据介绍，现在“深盟”分布式深度机器学习开源平台的已有组件已成功覆盖三类最常用的机器学习算法，包括被广泛用于排序的决策树模型(GBDT)，用于点击预测的稀疏线性模型，以及深度学习。目前，“深盟”的重点开发项目被命名为“虫洞”，其将成为所有深盟项目的统一入口。虫洞将自动构建深盟所有项目，为对所有组件提供一致的数据流支持，无论数据是以何种格式存在网络共享磁盘，HDFS，还是Amazon S3，此外，它还提供统一脚本来编译和运行所有组件，使得用户即可以在方便的本地集群运行任何一个分布式组件，又可以将任务提交到任何一个包括Amazon EC2，Microsfot Azure, Google Compute Engine在内的云计算平台，并提供自动的容灾管理。(童郜)
您可能也感兴趣:
官方微博/微信
每日头条、业界资讯、热点资讯、八卦爆料，全天跟踪微博播报。各种爆料、内幕、花边、资讯一网打尽。百万互联网粉丝互动参与，TechWeb官方微博期待您的关注。
↑扫描二维码
想在手机上看科技资讯和科技八卦吗？想第一时间看独家爆料和深度报道吗？请关注TechWeb官方微信公众帐号：1.用手机扫左侧二维码；2.在添加朋友里，搜索关注TechWeb。
Copyright (C)
All rights reserved. 京ICP证060517号/京ICP备号京公网安备76号
TechWeb公众号
机情秀公众号对于已有的开源的机器学习框架，很多都是单机环境下部署的，但是对于大公司层面的机器学习的应用需求，简单的单机，分布式spark机器学习平台很难满足公司的大数据应用需求，因为不仅要求具有正确性，还要求高效性和稳定性。
这里面存在很多的问题，比如模型如何在多台机器上跑，参数如何分布在多台服务器上，构成parameter server （google提出的），同样的，这些参数如何时时的更新，学习，并且如何保存中间结果，多台训练worker时时的相互交互，实现同步或者异步等问题。
想要把tensorflow，caffe，torch等非常好的机器学习，深度学习框架实现并行化，需要很大的投入。其中对于这些模型，很重要的部分就是参数的学习，在一定程度上，这些参数就表征了整个模型，最终学习，训练的结果就是编码体现在这些参数中的。因此想要实现分布式的机器学习框架平台，很大程度需要实现分布式参数服务器，有了分布式参数服务器，便可以在此基础上扩展机器学习平台，将单机版的机器学习模型转换为分布式PS-机器学习模型。
在有了参数服务器之后，便需要将模型分布式化，这里主要修改I/O层和通信层，这两个模块必须要好好的研究，才能实现这个转换工程。
机器学习（包括深度神经网络）python开发环境搭建（超详细）（适合新手）
本博客主要为新手介绍如何利用虚拟机搭建一个用python进行数据挖掘的分析平台，并安装常用的机器学习Python模块。...
CNTK机器学习：平台搭建
CNTK：微软的认知工具集是一个统一的深度学习工具集，它通过一系列的步骤来描述神经网络。在这个有向图中，叶子节点代表输入值或者网络参数，而其它节点代表矩阵操作依赖这些输入。CNTK允许容易的实现和结合...
机器学习平台一期概要设计
随着大数据技术的日趋成熟，很多互联网企业都积累了海量的数据资产。如何利用这些数据，充分发掘其价值逐渐成为各个公司亟待解决的新难题。其中机器学习已经被业界证明是十分有用的数据...
【机器学习神器之二】深度学习新手平台Floyd
想必每个学习深度学习的小伙伴，特别是新手小白，总要为找到以及调试一个适合的gpu云主机煞费苦心。不知道大家有没有经历过，用自己的显卡计算时，每出一个结果，就能听到显卡”兹”的一声，仿佛在向我哀嚎。就在...
Machine Learning第十周笔记：大规模机器学习
刚刚完成了Andrew Ng在Cousera上的Machine Learning的第十周课程，这周主要介绍的是大规模机器学习，现将笔记整理在下面。Gradient Descent with Large...
在云栖TechDay第十五期活动上，阿里云iDST资深技术专家褚崴给大家带来了《阿里云机器学习平台》的分享，他以机器学习的概念入手展开了此次分享，演讲中他重点介绍了阿里云机器学习平台的基础架构和产品特...
本文转自：https://news.cnblogs.com/n/566061/
　　腾讯正式发布了旗下深度学习平台 DI-X（Data Intelligence X），这是继今年 1 月推出 ...
| 黄波，何沧平
责编 | 何永灿
随着人工神经网络算法的成熟、GPU计算能力的提升，深度学习在众多领域都取得了重大突破。本文介绍了微博引入深度学习和搭建深度学习平台的经验，...
摘要：机器学习，特别是深度学习（DL），最近已经在语音识别、图像识别、自然语言处理、推荐/搜索引擎等领域获得了成功。这些技术在自主驾驶汽车、数字卫生系统、CRM、广告、物联网等方面都存在着非常有前景...
深度学习-在线推断（Inference）技术
深度学习一般分为训练和在线推断两个部分，大家平时经常关注的多为训练阶段，也就是搜索和求解模型最优参数的阶段。而当模型参数已经求解出来，如何使用模型，以及在在线环境中部署模型，也是非常重要的。 ...
没有更多推荐了，}

天天发财游戏网