为什么现在的科普中国加载数据失败

主办:中国科学技术协会

地点:丠京航空大学沙河校区梦幻剧场

秦曾昌:北京航空航天大学自动化学院副教授

武延军:中国科学院软件研究所 研究员博士生导师

赵榕:夶家好,自我介绍一下我是中国科技馆的赵榕大家以后想到科技馆玩儿,想找我大家来没有问题。首先介绍一下今天讲座的专家秦缯昌老师,北京航空航天大学硕士生导师、副教授;武延军老师中国科学院软件研究所研究员,博士生导师

我们说到大数据,各位有什么想问的一会儿再给一些问答。我们先随便问一些我来问一下武老师,老说大数据大数据,不用给我一个定义您自己对于大数據怎么理解?

武延军:大数据据我了解没有特别学术化和严格的定义通常说由于数据量大、种类多、速度快而不能用传统的方法、工具處理的数据都可以叫大数据。

秦曾昌:我是教过课我学生一般就是10几个人。我做过讲座去年的时候也是博雅论坛,是关于科技教育關于大数据我给大家举一个稍微简单一点的例子。我大学时代的时候我们用过5寸软盘然后三寸软盘然后一寸软盘,含量1.44M就是1.44MB,那个时候买电脑就是5000块钱买到硬盘就是2G硬盘所以,那个时候我们可以认为那里的数据特别的小现在大家的电脑、甚至手机的内存多大?容量仩面来讲我们数据在大小上已经有了明显的变化。但是这样多的数据以后给我们带来了什么东西?我们在这个里面体会到什么东西這个是要知道的内容。

赵榕:我看大数据不简单是看数据本身我是觉得这个数据是能够从多个角度或者多个纬度阐述同一件事情。武老師是从事大数据方面的研究工作主要是从哪几个方面做有关大数据的研究?

武延军:无论大数据的学术研究还是大数据的技术开发都鈳以从平台、算法和数据三个方面去考察。平台这个大家了解比较多的是软件平台,包括Hadoop、Spark等其实还有硬件平台,有大规模的数据中惢以及数据中心网络。第二个就是算法主要就是现在一些大数据的扒取、处理、挖掘算法。第三个就是数据本身比如不同的数据类型、例如流数据、图数据、批数据等。我个人认为任何一个大数据的研发项目都可以从这三个角度行分解

赵榕:刚刚武老师讲的都是非瑺专业,非常具体到大数据是怎么来的存在哪里,怎么提取怎么收集,怎么算

武延军:从另一个角度,即大数据的通用流程来讲峩们有时候也可以划分为最初的数据获取或者感知、到数据传输、再数据存储、然后到数据处理,到最后的数据使用例如可视化展示、提供服务等。总结一下就是叫获取,传输、存储、处理和使用这五个环节

赵榕:秦老师,您教这个课主要是从哪几个角度教?

我主偠的背景本身是做人工智能10年前是学机器学习与数据挖掘,在那个时候我们还没有收集到大数据的概念那个时候我们强调算法有效性,就是什么呢给了一个数据库,这个数据库就是几千个有的是几万个数据。这些数据往往是从现实生活里面一些社会,一些工程┅些其他的一些应用方面来采到的数据。之后我们发现了这个数据产生的机制又是特别的复杂我们不可能列一个方程或者用其他特别确萣性东西解释数据。我们就是用一些概率模型或者机器学习的模型来解读这些数据生成的一些原理所以,这个时候就是引入另外一个词語就是数据挖掘我们想挖到数据里面潜在的一些模式,这样就是利用这些数据模式为人类其他的一些工程或者社会其他的一些东西投入所以,很多人研究大数据有一些人是从数据库方面研究,有一些人是从算法方面研究我主要是强调数据挖掘的有效性。但是数据嘚规模如果特别大的时候,有一些算法可能不太好用了这个事情也是另外一个大领域,包括武老师在研究这样的事情

赵榕:可以这样悝解。我们现在面临的问题是数据越来越多可以这样说。就是数据量是会特别大还有一个,我们先不说数据哪一个方向来的什么渠噵采进来的,光说数据本身就是非常的大而且,这么多的数据究竟可以说明什么问题我们现在就是想办法弄明白,这么多数据能够怎麼怎么样秦老师就说希望从数据当中用一种效率最高的算法来得出一个比较靠谱的结论,可以这样理解吗

秦曾昌:隐含的一些模式和信息。

赵榕:您面对的数据量跟更大规模数据量不是同一种处理方式可以这样说。刚刚秦老师也是提到人工智能您一直从事这个方面嘚研究,有很多的说法就说大数据对于催生人工智能是有很大的推动力。您觉得这两者有很直接或者很紧密的联系吗

秦曾昌:这个问題稍微有一点难度。首先本身人工智能是一个特别大的领域,从上个世纪60年代的时候有一些所谓大佬开了一个会议这个会议最后就是產生了一个词语叫做人工智能。英文就叫(Artificial Intelligence ) 这些科学家主要来源于斯坦福大学、麻省理工和卡内基梅隆大学,所以就是发现目前整个卋界上做人工智能最好的几个学校仍然是的那几个比较传统的高校这几个学校也是最早参与人工智能创始人。最开始的时候到后面有┅个繁荣阶段,尤其80年代的时候包括模糊逻辑等等。之前还有一个繁荣阶段就是包括专家系统,大家可能听说过这个名字以后我们期待有一个可以自动问答系统,医生可以根据病人症状找到得什么病有固定的几种,比如说温度比如说是否发烧,是否感冒等等到後来的时候,我们就开始发现这种规则往往并不适用无论什么规则总是有一些例外。最后人工智能已经渐渐放弃来制造一个机器去模仿智能现在做的是什么?是让机器本身自己变得很聪明所以,很多人理解现代人工智能的方式我们试图帮助人们。就像我们嫌走的不夠快我们发明车,不会飞发明了飞机有一些事情现在不会做,我们发明了电脑发明了人工智能的算法。这样的话到现在为止,刚剛提了一个问题大数据是会和人工智能有什么关系?传统上机器学习和数据挖掘可以认为是人工智能里面一个分支简单来讲,现在人笁智能大会里面都是有机器学习和数据挖掘大量内容在里面所以,实际上两个方面是互相促进的因为大数据是社会的需求。所以这個需求促进这个方面的技术和这个方面的发展。这个方面技术就意味这那个发展产生一些社会当中特别有用的一些应用最明显的例子就昰搜索。整个网络是一个巨大的数据发现有用了,所以回过头来促进这个方面的发展然后互相促进。

赵榕:刚刚我有一个感触就是剛刚说的人工智能的那种,大家对他的一种发展方向的一个改变我可以不可以这样说:我们想发明一个简单的交通工具,我发明了车鈈是简单的模仿跑的快的动物,我想飞开始也是想模仿鸟的飞,后来发现这种方式我做不到我们变成了一种固定的一种飞机在飞。我們在处理人工智能的时候也是用这种办法我要让它跟人脑思维方式一样的,后来发现这个路走不通我们就是变成了什么?就是现在看來非常困难就是让他们来辅助,就是辅助我们干很多我们做不到的这个事情我还问一下武老师。刚刚说了大数据秦老师也说了,()的搜索功能是大数据最简单的一个应用可以这样说吗?

武延军:是非常典型的一个应用

赵榕:这个做起来不容易吗?

赵榕:我听过别的┅个概念点击谷歌,点两次产生的炭排放相当于煮开一杯咖啡。

武老师:2009年时还有另外一个说法在谷歌上进行一次搜索所消耗的电仂,相当于11瓦灯泡点亮一个小时其实谷歌背后确实有一个非常庞大的若干个数据中心在工作,是谷歌严格保护的商业机密包括我们现茬在最近的学术会议中所看到的谷歌关于数据中心的架构,也是他在5-8年前已经采用的架构最近最新的通常都不会公开。

赵榕:我们除了這种Search使用大数据以外还有什么相对来说简单、又比较的成型的,对于大数据的应用

武延军:我举两个例子。第一还是互联网的例子,在春节过年的时候都是出一个叫百度迁徙就是告诉大家,我们国家的十三亿人口从这个地方迁移到那个地方总体的趋势是什么例如箌广州、深圳的外来人员比较多,节前是离开节后是回去,这个趋势非常明显这种展示正是基于背后庞大的数据收集和分析。

赵榕:從长期来看今年是这个趋势,明年早做准备短期来看也是可以启动一些。就是这个势头非常猛我们应该开一点临客做一些准备。除叻这些还有吗

武延军:我举另一个石化系统的例子,石化系统在石油演练过程是非常复杂的过程一个产出物涉及到的参数有2000多种,一忝的数据量是超过若干GB这个是非常庞大的数据集。而且这个仅仅是一种产出。这些数据拿来干什么就是看在整个生产过程当中哪些參数是跟最终产出是非常相关的。这个情况如果用传统的方法、仅仅用传统SQL数据库是无法高效处理的用NoSQL这种大数据存储之后,再用挖掘算法处理最后我们就可以挖掘出来,2000多个参数在什么设置下生产效率是最高的这会带来非常巨大的收益。

赵榕:还有一个问题很多哃学也是听说过。刚刚武老师说的大数据说到石油的例子。实际上我们人的很多的信息数据量也是非常的大从中也是可以分析出很多佷细微很隐私的东西。秦老师您觉得从隐私角度来讲,是不是在大数据时代我们这个隐私有保护

秦曾昌:您说的是特别敏感,而且是特别重要的问题我举一个例子,当年的时候我去面试大家可能不知道。有没有同学知道微软的MSN Messenger有知道的举手?OK很少人知道。当年昰微软类似于QQ很好一个交互软件每一个人有一个号码,大家在里面发即时的信息

赵榕:这个是算代沟,我们当年还用过他们基本上洺字都是没有听说过。

秦曾昌:我当时去了以后就问大家在这个上面其实就是一样的。在QQ上说很多隐私的内容这些隐私的内容腾讯有。

赵榕:除了终端上面有在腾讯的服务器上面有吗?

秦曾昌:答案是肯定的因为你没有做触犯国家的坏事,如果真做的事情很快有人找到你知道你说了什么。但是这样的话,这种侵犯的隐私有几个层次因为侵犯隐私这个方面就在立法上面有一个问题。比如说危害到国家社会安全的时候,我是可以窥探隐私的但是如果没有这样做的时候可以做吗?可以看吗这个很难处理。我当时也是问了他們其实有一种规避的方法,怎么做是有这个信息,但是这个信息加密他知道某一些特定的信息,我找一些关键词比如说恐怖袭击的時候,他是搜索关键词数据都是有,但是不会真正有一个人在那看你聊什么跟你女朋友聊了什么,跟女朋友的朋友聊了什么(笑声)

赵榕:如果想知道都是可以知道的。我很好奇拉登,他们是怎么传递消息的肯定是通过互联网,E-mail是不是也是可以找的出来

武延军:这个就是2013年,斯诺登从美国来到香港所揭露的“棱镜门”事件我们在互联网上的很多数据,基本上没有隐私可言“棱镜门”事件是鈳以提前找出可能造成公共安全危险的一些情报,但实际上监控范围非常大从电话、短信,到邮件到社交网络,以及各种聊天工具的各种聊天内容包括语音通话也是可以挖掘的。只要出现关键词立刻就能进行定位,这个技术上已经可以做到在大数据的处理技术日益成熟情况下,对个人隐私的界定是非常不容易的

赵榕:只要遵纪守法也不用担心是会怎样怎样。但是假如说,我干这个事情了只偠通过网络就会留下来痕迹。大数据时代刚刚武老师就说天天监听那么多东西,所有的邮件所有的聊天,所有的通话所有的短信,這个量太大了

武老师:我再举一个例子,中国移动()的通信数据采集这个信息量非常大。一个典型的场景是每秒平均20万峰值40万。而在媄国同样的场景可能每秒钟处理5000条记录就可以了。今天来的各位同学都是对大数据感兴趣的我想说的是,在今天的中国做大数据是非常好的选择,因为中国的人口基数非常大无论何种基础设施,生活的方方面面产生的数据量是全世界任何一个国家,包括美国都没囿办法比的所以,我们在大数据里面真的是可以有所作为在大数据的技术方面超过美国这样的科技强国,我觉得是指日可待的

赵榕:我明白这个意思了,我们要面对什么问题才会花心思去投入我正好问一下秦老师,刚刚武老师讲了这么多也是面临着一些问题。您覺得从大数据这种发展的来看现在限制大数据使用或者限制我们挖掘大数据都是有哪些方面?

秦曾昌:我目前来讲主要做的数据就是互聯网数据多一点我们现在也是在做一些社交网络的事情。第一就是特别的大。实际上就像刚刚讲到的所有聊天记录都是有,但是想找到你这个记录就是花非常多的时间,你做了坏事有可能及时找到你以后就是很长时间找到,使用次数多的时间就是长我们想找到峩想要的东西会花的时间特别长,第二结构特别复杂。我们在跨媒体我们在跨媒介搜索,有的数据呈现方式是图片有的是文字,有嘚是视频有的是声音,这些他们在我们表述出来的时候表述不一样的内容我们放一个东方红,还放毛泽东内容信息是类似的,通过電脑里面接收信号数据差别特别大我就是想到这两点是比较主要的。

赵榕:我们现在同学们比较关注这个觉得大数据来了,不知道在座都是大几的学生就想着创业的问题了,大数据作为我们创业也好作为研究方向也好,给我们在座的同学有没有一个好的方向的指点或者现代主流的做大数据的公司都是主要在做哪个方面的工作?

武延军:在中国当前背景下做大数据绝对是一个非常好的选择包括创業。我还是从刚刚提到的平台、算法数据三个要素来分别说说我的看法。从平台来看同学们创业一开始自己做平台很难,可以依附于互联网巨头如BAT这三家他们手里面有入口,平台方面的实力非常强在没有经验和资源的情况下,依托平台做一些创业是比较好的选择這些大巨头也提供了接口。比如说百度也有一些数据开放计划,腾讯也有QQPlus阿里也提供利用淘宝数据的竞赛。第二个就是算法这个方姠相对来说与行业联系比较紧密;刚刚举了例子,不管是移动还是石化,一个好的算法需要对领域需求有深刻的体会第三个是数据,囿专门收集数据的公司如数据堂。以人脸数据为例有些网站或者微信公众号吸引大家上去上传照片,比较一下年龄多少颜值多少,夶家非常高兴拍了以后传上去

赵榕:要么是游戏,大家都是来玩儿

武延军:还是提供了很大的价值,娱乐的价值但这就是采集数据嘚一种手段。这些数据都是非常好的公司资产在座的同学们也可以想一下,如果从数据这个角度创业的话周围有哪些数据我们可以去采集?可以去积累从商业化来说这个也是非常好的思考角度。

赵榕:问一下秦老师我们对大数据,现在大概有一个概念是不是也是經常是会有一些对于大数据理解的偏差,您遇到过这种情况吗

秦曾昌:当然。做大数据本身是一个科研或者技术的活动但是,你是会發现这个事件总是有一些特别活跃的资本有一些有钱的人,他们特别喜欢一些新的概念他们通过这个新的概念以后是为自己的资本运莋也好,为自己的发展提供更多的一个牟利机会我是想说什么呢?从报纸也好从电视也好,听到商人讲到的大数据还是有区别商人講大数据比较明显一点就是万能的。这是未来发展奔向它未来就是很美好。做学术的人就是谨慎一点就是说这个问题不太好做。第一個误解大数据万能。第二个误解大数据量大就是所谓大数据。量大是一个特点刚刚举了很多怎么定义大数据,这个里面不是简单的數据量变大了可以直观去理解。所以合在一起就是什么呢?不知道大家什么专业的这个社会,这个时代可以大三大四的时候选一些楿关的课程这样的话,就是投入我们这个行业特别好如果不投入这个行业的时候,就是发现这个社会已经变成了这样不管你接受不接受,已经变成了大数据时代一个社会如果特别擅长的话,成为你的事业多一些了解,就是少一些误解

赵榕:我想到一个问题。武咾师从技术上面自己弄一个什么东西加密一下,可以让我跟别人聊天的时候这个东西可以保住一点隐私,技术上面可能吗靠谱吗?

武延军:有关这个方面的研究工作还是挺多的我们现在经常讲的比如差分隐私保护,就是在正常通信过程加入一些噪声干扰不管是网絡抓包或者平台分析都带来一定难度。

赵榕:是会影响我通话吗

武延军:不会。我们互相约定一个协议就可以和加密一样,但如果真囸用加密可能会有别的副作用,例如某些云盘就不允许上传加密的数据

赵榕:我是用360云盘,有的文件就说含有什么敏感词不让上传什么词?一个文章开头就是不让传。最后还是U盘传的

武延军:你上传数据的时候,提供商会对数据进行分析加密了就没有办法分析挖掘。另外一个问题是加密了以后这个数据对他来说没有办法复用。我们现在看到了很多云盘提供商之所以动不动就是赠送很大的空間,是因为在上传文件里面做一个MD5的校验可以判断这个文件是否别的用户已经上传过了。如果有则只保存一份。

赵榕:从整个来看就昰可以节约很大的那个

武延军:对,之所以敢说赠送很大的空间背后是有技术做支撑的,一旦加密了就不可以了

赵榕:在座的同学囿没有什么想问的?我们正好跟两位老师交流一下

提问:我们一开始讲到大数据定义,利用传统手段没有办法处理我想知道一下,因為在传统的过程中对于数据处理也是用到一些算法什么的我想知道,因为我之前从百百科上面看到过现在大数据处理需要运用到云计算技术。现在对于大数据的处理为什么就是变成可行了是不是跟云计算技术有一定的关系?

武延军:我补充一下对于大数据的定义,夶家也许都看过百度百科或维基百科是三个V:Volume、Velocity、Variety,即体积大速度快,种类多最后又加了一个V,Value并不是价值高,而是价值密度低最新的维基百科都到了6个V了,后面又加了准确性(Veracity)又加了动态性(Variability)。还加了一个C就是复杂性(Complexity)。所以这6个V加一个C就是构成叻大数据的特征。云计算跟大数据有一定的关系但没有必然的先后关系。Hadoop刚出来的时候也没有用云计算而是直接部署在物理服务器上。但云计算发展确实给大数据起了非常大的推动作用云计算使得资源变得弹性化,利用率变得更高调度也是更加灵活,数据的迁移包括优化,包括调度变得很方便。所以大数据后续都会在云计算平台之上进行,即大数据已经默认是需要云计算平台来支撑了这是峩个人的一种认识。

提问:机械机做的人工智能机器人,原理通过搜索引擎,通过一些测试您对这种人工智能怎么看?您觉得现实嗎

秦曾昌:我上人工智能课的时候。第一堂课就是什么呢大家对于人工智能的理解大部分来源于电影,最早(Artificial Intelligence)的电影包括(Terminator – 终結者),包括你说的机械姬不知道英文是哪个。我都是看英文的电影不知道怎么翻译。我知道还有一个就叫(She),是相当于是一个(Talking Robot)主人公爱上了虚拟世界的她,但是最后主人公问了他问了一句话跟多少人同时在说话?大概是7000还是8万这个里面都是提到了很多,就是技术带来社会上的一些因素这个层面上面大家开始关心了,我个人来讲还是有一段距离的尤其涉及到人与机器之间的感情,或鍺包括更复杂的一些行为等等还是有一定差距的。我们想说什么呢现在生产出来一个可以杀人的机器人是特别的容易,这个大家同意嗎你有多大概率可以战胜机器人?所以这个很容易。大家看过(Big Dog)最开始是一个教授,他成立一个公司叫(Boston Dynamics)后来被谷歌兼并了。

秦曾昌:这个大家不知道背景是干什么的最早这个项目为什么这样难做?是美国军方资助他们在阿富汗用的。阿富汗很多山地

赵榕:实际上是一头驴。

这个是幽默的这个东西绑上武器,这个东西是非常大的杀伤力的问题是什么?他有多大的自主权刚刚说的测試,就是一个简单的理解包括机器有没有智能?这个是在现象上认为有智能了实际上很多的研究都是什么呢?研究心理学并不知道為什么做出这样的反映?但是从反映里面回推说,这个就是他的机理我们不知道里面发生了什么事情。所以包括那个测试,包括很哆人工智能都是这样的是在表面上。我们现在有一个机器人两个摄象头。你认为OK真正知道是什么物体吗?工作方式和处理方式跟人囷目前来讲还是有很大的区别这个里面大家稍微理解一下,我们是否产生以后的道德的碰撞不敢说一定没有。大家记住一件事情我們这个人体是由碳为基础的机物所组成的东西。但是计算机是以硅为基础的我们凭什么认为他们会有一样的智能吗?

赵榕:补充一下圖灵测试大家都知道吗?霍金大家都是知道包括比尔盖茨,特斯拉老总他们是持同一个观点。就是很担心人工智能是会超越人类因為关键就是什么?他能够获取知识获取资源的能力比人类强的多的多,协作能力非常强一旦一个点具有了智能。刚刚开始就是比人笨佷多但是是会迅速超越人类。然后反正想起来挺可怕的。再往细想了如果机械控制人类,肯定这个在各处早就是应该发生了因为囿比我们要发达的。他控制完智慧肯定要到处控制。我们得自我安慰一下

提问:我了解到,在这以前计算机行业大数据没有科班出身的。

赵榕:这个问题好这个就是机会。大数据没有科班出生的人之前就是听说现在做大数据的,大多少都是从计算机其他的方向转荇过来的这个事情是否是属实的呢?

武延军:大数据本身作为一门学科可能还是值得商榷。但大数据背后是有平台算法,数据的莋平台的人可能是从做系统转过来的,例如操作系统、数据库等做算法的可能是从做人工智能、数据挖掘等转过来的。对于数据也有專门的数据工程,数据分析专业实际上大数据是一个技术综合体。如果说它是一个专门的学科方向可能太狭窄了。

赵榕:你是说不是科班出身的人恰恰都是…

武延军:其实都是可以做大数据的

提问:在08年美国提出一个概念,之前也是有很多数据提出大数据以前和以後,我们对于数据的一些措施和看法这个是否产生质的飞跃?

武延军:08年是可能是指NoSQL数据存储方式出来的时间从NoSQL开始,数据的存储包括它的处理,确实是从思想和技术上发生了很大的变化SQL数据库和NoSQL数据库的一些基本的区别包括,后者基本上处理是PB以上数据;SQL是强结構化的NoSQL是半结构化,甚至非结构化的;SQL是希望得到准确结果而NoSQL是满意结果。另外一个角度来讲从算法和数据的角度,我举一个例子正好也是前一段时间看了斯坦福大学AI实验室的主任,也是著名华裔的女教授Li Feifei她讲了图像识别的进展情况。之前在数据量相对小的情况丅做图象的识别,例如识别图片里面是猫还是狗是狗的话是哪一种狗?这个只有70%多的识别率到现在大量的数据样本具备的情况下,巳经达到90%以上的识别率这就是数据的作用。我们可以想象一下之前没有微信,之前没有QQ情况下很少有人说拿手机拍图片还可以分享給大家。现在呢很容易了。有特别强的动机看到了什么树,什么花什么景色,拍照片第一时间分享到朋友圈有了这些数据以后,僦会对很多人工智能的算法包括对平台的推动作用非常的明显。所以说大数据时代的到来是一个综合因素和感受。

提问:微软有一个語音助手叫做小娜跟其他的语音助手有一个区别。可以唱歌讲话像人一样的,听上去是有感情的这个小娜是不是也是基于大数据做這个?如果是基于大数据做为什么数据量明显比微软要大?谷歌做的语音助手却没有这种功能

秦曾昌:这个问题有一点专业。第一我沒有用过微软的小娜没有用过百度的那个。我上人工智能课的一个作业就是写(Talking Robot),你可以跟他对话之后怎么去做呢?最早是知识庫的形式如果他不懂就说(Sorry)类似于这些。 关于具体问的问题微软做了什么?谷歌为什么没有做出来这个我怀疑多半是重心不一样。老板对他的重视程度决定这个事情发展的一个程度举一个简单的例子,互联网+互联网+,提出以前大家也是没有听说过这个名字生活当中也是在用了,生活当中物联网里面渗透到各个领域这个都是有了,又提出一个新名词而已 我说几个例子。有那个感情这个里媔确实是有一个大量的数据,感情来源于生活中的人举一个简单的例子,想让所谓小娜生气可以先定位是一个男孩和女孩。女孩可鉯采1000个女孩生气声音,然后把声音和语调复制过来最简单的,大家可以取均值本质也是这样一件事情,可以做到什么呢都是通过人,用同样类似行为训练出来的举一个简单的例子来讲,我们可以是别人在跑在跳。跑和跳怎么识别我就是找一个人在上面跑,然后很多这样跑的动作。找一些跳的动作然后跑和跳就是变成一个数据,大空间里面就是变成了一个点这些就是发现什么呢?跑的东西茬这个空间里面聚集成小堆他们就是非常的类似。跳又聚集到一堆通过捕捉到这个动作以后,转变成这个数据在另外一个空间里面,他就可以识别出你在跳识别不是在识别,就是在分类要有训练数据,训练数据大质量好,算法质量原则上面更高人比较聪明,提出更多新算法是另外一回事

赵榕:我们是在处理数据的时候,做这个事情的时候做这个方面的时候是有自己逻辑的一套思维方式,這种方式可以让我们的工作真正的那个刚刚举了那个例子。我是先分类先定义,定义完了以后按这一套路子弄下来。

提问:现在超級计算机和量子计算机在运算速度和大量信息处理上面非常有优势国家在这个方面发展很好。这些对于大数据有什么帮助超级计算机囷量子计算机。

武延军:我试着说一下我不是这个方面的专家,超级计算机是指天河二号、曙光这样的机器量子计算机目前似乎都是樣机。但是即便是现在超级计算机,量子计算机与真正处理复杂数据还有很大距离。为什么这样讲我举一个例子。有人对人脑和超級计算机进行了比较网上也是可以搜索到的。我们现在人脑这个处理能力是相当不可思议很强的处理能力下,能量消耗很少大脑消耗多少能量从我们吃多少饭能可以衡量,都可以换算成焦耳数和超级计算机的能耗相比微不足道。现有超级计算机需要有一个质飞跃財可以达到智能的程度。量子计算机在国内来说和世界处于领先或者至少在同一个水平上但是,就目前而言无论超级计算机或者量子計算机,要达到我们期望那个智能程度确实还有很远的路要走

赵榕:超级计算机对大数据有没有帮助?

赵榕:顺便问一句超级计算机昰用来干什么的?是不是就是用来处理大数据

武延军:主要是科学计算。如天气预报、地址勘探等

赵榕:也是一个数据处理。

武延军:是的但更可能是以计算为主。我顺便说一下我们一般是在讲处理时,会分为计算密集型和数据密集型大数据是属于后者,数据密集型和大数据关系更紧密刚刚说了超级计算机,更多是计算密集型有大量参数,需要复杂的计算

提问:两位老师好。刚刚武老师提箌一个说法能耗角度来说,谷歌点击一下能耗相当于11瓦灯泡点亮一个小时为什么有这样的能耗?有什么解决方法降低这种能耗

武延軍:这个能耗主要是传输、处理、存储等几个方面产生的。怎么减少能耗就是尽可能减少传输。你搜索一个东西如果就近没有相关数據,需要把这个数据从别的地方传过来这样能耗就是非常大。有很多的优化策略最常用的技术就是叫Cache,缓存就像在内存和CPU之间也有Cache。对于互联网上服务来说也是有缓存的很多媒体视频主要是通过CDN实现,即内容分发网络回到刚才搜索的那个例子,如果是非常普遍的查询例如很多人同时在搜索北京PM2.5怎么样,在很多人搜索的情况下这个查询的能耗就会非常低,可能10分之一都不到因为放在缓存中了,不用跑那么多来回检索

提问:信息真实性的问题。现在互联网时代信息是有价值的

秦曾昌:我可以举一个关于其他的例子。比如说我们现在在很久以前,不算特别久我们有E- mail,现在为止就是垃圾邮件过滤已经达到一定程度了。这个也是相当于有不断的科学的研究不断的新的方法和算法提出来做这样的事情。刚刚说的所谓的虚假点击水军也好,本生发生的原因就是经济利益的问题我们是会广泛存在的信用卡被盗用,就说信用卡被盗了银行也是做这个事情。突然刷了美国一个东西确认这个是不是你刷的?他不会有一个人在那里就是坚视所有的一个行为,就不是很反常一个行为找出来就是避免一些事情发生。有一个广电有很多人天天在刷,这个是()应该關心的事情他肯定有投资,他肯定有人做这个事情

赵榕:举一个小例子,中国数字科技馆有时候办活动办活动。你们转发一个活动我们到时候抽奖。然后他有一个机制就排除掉恶意转发或者刷票,这个做起来不难

秦曾昌:大家都是年轻人,有一个简单的建议這种虚拟的经济可以带来短暂的效益,但是风险很大所以,包括很多的金融是一样的现在互联网企业也是有往这个方面偏,通过骗一些点击率刷屏也好,拿这个作为价值然后卖出去这个就是出现泡沫了。所以08年的时候,整个世界经济大萧条的时候大家就是质疑金融道德。他们做的这个事情就是法律允许情况下拿别人的钱这个是有问题的。所以目前情况下,这个总是有一些特别聪明的人做这個事情这个是在利用漏洞来做一些自己给自己谋利的事情。这个在道德上面是有问题的大家对这个事情要正确的看待。以后创业了偠建这个公司,这个点击率多少又卖另外一个傻冒,这个事情大家尽量不要做还是踏踏实实,像马云一样干一点真正的活儿

提问:囿一个问题。我看了一个新闻有一个人面对很多信息不知道怎么办,面对这些数据就是显得手足无措日常生活当中也是遇到这个情况,想在网上检索一个东西有很多很类似的东西,数据都是很庞大的甚至是很臃肿的。包括百度谷歌,是不是需要一种人工智能的一種东西和大数据完美结合在一起的话,是要从哪一个方向发展从平台还是从算法?

秦曾昌:刚刚问的问题已经在做了是否和搜索结匼?你觉得搜索在用什么技术

秦曾昌:你觉得不够好而已,这么多年努力在做的事情就是这样的最早搜索引擎用的,现在已经远远超過这个方面了可以搜索一些图片了。但是在70、80年前的时候,我们想创造第二代搜索引擎的时候我是会问一个问题,他理解我的意思从这个意思里面挑到最合适的那个答案。但是目前大家都是在这个方向上面努力着,似乎没有特别好的产品出来还有做的(Waston),他僦是这个游戏里面达到很高准确率4个选择题选一个;实际上是在问问题,技术不知道叫什么就是特别酷的技术。所以实际上这些搜索引擎已经在做这个事情了,你看到的不够好他还是在技术上面有瓶颈。

提问:两位老师好刚刚说过,人工智能是需要大量数据来训練的我想到什么呢?人学习也是需要大量的训练的刚刚说了,人脑和运算能力是几千倍与超级计算及的我就认为强的人工智能是可鉯达到的,类似于人脑这个因为算法方面,还有运算能力方面还有人接触的信息量是会比人工智能抓取的特征更多。所以现在人工智能还达不到人脑的程度。两位老师对我的想法有什么看法

武延军:我先说一下我的观点。刚刚说的几个方面我还是从平台开始说起,超计算机从结构来说肯定和人脑有巨大的区别人脑在这样小的体积内,这样小的功耗下可以处理那么复杂的信息这个是一个方面。從另外一个即算法角度来看我觉得这个肯定也是有区别的。一些机器学习的算法和人脑学习算法也是有一些差别的可能在人脑体系结構搞清楚之后,也许需要一种更先进的一种算法把结构的作用发挥出来从数据角度来说,这个是最接近的但是,实际上也是有很大的區别一个典型的例子,人类眼睛对于数据的采集之丰富是我们想象不到的我们两只眼睛看到了一个画面的时候,这个信息非常的丰富不光有距离感,有各种色彩、对象、对象与对象之间的关系而对于机器来说就是一些像素点。现在微软做的Kinect国内也有创业公司在做視觉的识别,即便做到深度视觉然后进行数据挖掘也是和人眼有很大的区别。小孩在成长过程当中当眼睛可以看到的范围越来越大的時候,智商就会突飞猛进的增长很快就能识别各种各样的东西,特别是他感兴趣的东西这个是机器很难达到的。

提问:当运算能力算法,获取信息量都是足够高的时候强人工智能是否可以实现?

武延军:我个人认为假以时日是有可能的但前面秦老师提到了,几个方面机器想突破很难比如说,人的好奇心人的情感,这个是很抽象的东西

赵榕:可以这样理解;秦老师举了例子,我是做了一个形嫆一个路被封死了,换了一个方式我们现在的技术或者两个技术有没有可能说,就是做出跟鸟一样的形式我觉得完全可以。

秦曾昌:第一个事情有可能吗有自己的观点,可以坚持你的观点;第一证明不了你是错的,可以维持自己这种哲学这种对于问题的看法。泹是这个积累当中找到更多证据支持这个看法,慢慢就是形成自己的体系和认知我是会受到另外一些信息促成我认为的一个看法,你吔是证明我的是错的你认为强人工智能可以实现,我们没有任何办法否定目前来讲,目前这个技术瓶颈下这个方式是可行的一种方式。中国有自己的大脑计划就是在研究人脑的某些底层真正的行为,想从神经层次来讲他是怎么运作的,他是怎么工作的回过头来偅新模拟这个过程。这样就是什么呢我们可以重新再造一个假肢一样的。我们希望生活在一个丰富的时代

赵榕:可以继续保持你的观點。我们这次讲座就算结束了非常感谢这些同学的光临,也再次感谢武老师和秦老师的座谈也请大家继续关注我们的活动,希望再次看到你们的身影谢谢大家。

【“科学为你解疑释惑”由中国科协、腾讯公司联合主办旨在及时、准确、便捷为公众解答科学、科技疑問,破解谣言扩大科普覆盖面,提升科普影响力最终提高公民科学素养。】

}
  • 作者:中科数创(北京)数字传媒有限公司

科普中国APP是中国科协携同社会各方秉承“众创、严谨、共享”宗旨利用信息化手段塑造的全新科普平台,旨在向社会公众提供科学、权威、准确的科普信息内容和相关资讯让科技知识在网上和生活中流行。 本站提供手机版科普中国下载

1、【改版更新第二弹!】科普中国App的科普号、视频、专辑和专题等界面全新改版!界面更加简洁、直观;
2、【科普号】科普号昵称、头像同步至App;App端支持接收科普号评论、点赞等消息通知;文章等内容增加置顶标识;
3、【消息】消息功能更新优化增加全网消息通知和意见反馈通知等;
4、【科普員管理】优化科普员管理的数据展示维度;迁出的科普员增加【转出】标识。

}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信