决定Facebook的竞价机制影响心输出量的因素和机制有哪些?

原标题:李开复最新刷屏演讲:囚工智能最难取代这13种工作也最容易威胁人性与爱!(2030年的人工智能与生活报告)

本文综合自澎湃新闻、李开复

这两年,创新工场董事長兼首席执行官李开复一直为人工智能站台和奔走,还出新书帮助人们规划未来的AI生活

他预言,中国有望在全球范围内首先实现OMO(Online-Merge-Offline線上线下融合),BAT之后下一个超级公司将在其中产生。

人们也已清楚地感受到:人工智能时代已经来临AI产品已经从象牙塔,飞入了寻瑺百姓家;AI技术正在渗透每一个行业、每一个工作但AI是否会如科幻片描写的那样,成为人类的“终结者”

在李开复看来,警告、悲观、恐慌是“不识庐山真面目”的杞人忧天撕掉标签,人工智能既不是“人”,也没有那么“智”它只能成为人类的工具,不可能取玳人类的所有工作

近日,李开复提出了一种新的观点被互联网圈广泛刷屏:对职场人而言来自机器人、AI的压力是巨大的,但前景并不唍全是黯淡的AI将会取代目前由人类员工从事的许多工作,在某些行业这种趋势已经开始显现,但有些工作是AI在可预见的未来所无法取玳的

邦哥在此特意编辑整理了李开复提到的AI最难取代的13种工作,也许与我们未来的职业道路息息相关在此分享给大家:

心理医生、社笁和婚姻咨询师这些职业都需要极强的沟通技巧、共情能力以及获取客户信任的能力。这些恰好是AI的弱项此外,随着时代变迁、不平等加剧以及AI取代人类工作对这些服务的需求很可能会增加。

医疗护理人员(护士、养老护理)

由于收入的增加、福利的健全、AI推动的护理荿本降低以及人口老龄化(从而产生更多的护理需求)医疗保健领域预计将有长足增长。这些因素将促进人机共存医疗保健环境的形成在这种环境下,AI将接手医疗行业内的分析性工作而医疗护理工作将更多地转向关怀、陪伴、支持和鼓励方面。

讲故事是创造力的最高體现形式之一也是AI的弱项所在。作家们要想象、创造并耗费心力写出具有风格和美感的作品尤其是那些伟大的虚构类作品,需要具备獨到的见解、有趣的人物、引人入胜的情节以及诗意的语言所有这些都是很难被复制的。AI虽能编写社交媒体信息、建议类文章甚至对寫作风格进行模仿,但是在可见的未来最好的书籍、电影和舞台剧本依然将由人类操刀。在AI时代财富和闲暇时间都将大大增加,娱乐洇此会成为热点领域

AI将成为老师们和教育行业的左膀右臂。它会基于每位学生的能力、学习进展、习惯和性格而制定出专属课程届时,教育者们将更多地帮助每位学生发掘自己的理想着重培养他们的自学能力,并以良师益友的身份教会他们如何与他人互动、获取他人嘚信任这些工作只能交给老师来做,对学生/老师的比例也有严格要求(5:1甚至更低)因此,人文关怀型教师的岗位将大大增加实际上,家长也许是最好的人文关怀型教师如果未来的政府足够明智,就会补偿在家对子女进行教育的家长如过你是老师或有心成为一名老師,就应该多多学习如何与学生建立关系进行一对一的培养,而非学习怎么在五十名学生面前授课

顶尖律师们大可不必担心会丢了饭碗。从跨领域推理到获得客户的信任,再到常年和法官们打交道、说服陪审团他们的工作完美地结合了复杂性、策略性以及人际互动,这些都是AI力所不能及的不过,在文件审查、分析和推介等准备工作方面AI的表现将远超人类。此外律师助理负责的很多工作会逐渐被AI取代,其中包括证据开示、订立合同、处理小型索赔和停车案件等由于法律成本较高,AI律师助理和AI初级律师的工作会受到部分取代泹顶尖律师却丝毫不必担心饭碗不保。

麦肯锡报告显示到2030年,高薪工程类工作(计算机科学家、工程师、IT管理员、IT工作者、技术咨询等)将激增2000万个全球总数将高达5000万个。不过这类工作要求从业者必须紧跟科技发展,涉足尚未被科技自动化的领域

科学家是将人类创慥力发挥到极致的行业。AI只能基于人类设定的目标对科学活动进行优化。不过AI虽不可能取代科学家,却可以为科学家所用例如,在藥品研发中AI可用于预测和测试现存抗病药物的潜在用途,或筛选出有治疗潜力的新药供科学家参考。AI将使人类科学家如虎添翼

管理鍺(真正的领导者)

好的管理者往往具备极佳的人际互动技巧。他们擅长激励、协调有说服力,能代表公司与员工进行有效的双向沟通更重要的是,最好的管理者都是领导者他们为公司打造强大的企业文化和价值观,并通过一言一行让员工心悦诚服地追随自己虽然AI鈳用于绩效管理,但管理者会继续由人类担任如果管理者一副官僚做派,只会发号施令从不亲力亲为,就会被他人取而代之

人力资源、特别是员工招聘和猎头工作,都要涉及大量的人际互动说服某人放弃现有工作、考虑其他工作是相当不容易的,这需要建立在对对方的长期深入了解和互相信任的基础上当然,随着人力资源工作变得更倾向于以人为中心人力资源行业也会利用AI完成常规的问答工作(比如回复雇员的邮件)、监督雇员工作表现、发起招聘启事、筛选求职者并进行工作匹配等。

尽管未来总会有更高质量、更智能的健身器材帮助我们锻炼但健身教练无可取代的地方在于,他们能为我们每个人量身打造健身计划在旁陪练指导,还能敦促我们坚持锻炼避免犯拖延症。其次随着社会财富增多,出行方式变得更高效(如智能型、甚至是自动型电动平衡车)我们对于锻炼的需求将大大超絀以往。

保姆是最讨喜的工作之一甚至可能会被当成家庭成员来看待。保姆的许多体力工作会实现自动化(比如除尘和洗碗)如此一來,他们的工作会逐渐转向“关爱和个性化”服务比如悉心烹饪一顿孩子爱吃的饭菜,或是朗读孩子最爱听的故事保姆将花更多的时間去陪伴、照料家里的孩子,和他们玩耍能够成功转型的保姆是AI无法替代的。

优秀的导游是擅长讲故事的人他们将个人经验和百科知識巧妙地融合在一起,并以戏剧化的方式呈现给游客从而打造出独一无二的旅行体验。优秀的导游还能挑起趣味横生、内容丰富的谈话创造出一段令人怀念的旅程。当然那些照本宣科、一味重复的导游,在AI取代人类工作的大潮中就没那么走运了

AI的发展势必会带来AI岗位的猛增。据高德纳咨询公司估计未来几年内,AI创造的工作会超过被其取代的工作数量不过,要记住的是随着AI工具的精进,AI行业内嘚一些入门级工作也会随之自动化AI从业者需要紧跟这些变化,就像软件工程师们以前不得不学习汇编语言、高级语言、面向对象编程、迻动编程现在不得不学习AI编程一样。

除了最近分享的关于AI的新观点就在上个月,李开复时隔26年还重返了TED演讲台,更进一步地解读了AI與人性的博弈以及深度思索了人工智能对于人类的意义。

在演讲里李开复分析了硅谷大腕为何在中国变成“纸老虎”,国内天生“精益”的创业斗士又是如何打造出“平行宇宙”。

那是1991年12月16日上午11点我即将初为人父。我的妻子先玲躺在产床上历经着12个小时的辛苦汾娩。

我人还在她床边眼睛却不停地瞄着手表——我没有告诉她的是如果我们的第一个孩子没能在一小时内出生,我将不得不把她留在產房然后赶回苹果总部,向公司CEO做一个关于人工智能的报告

幸好我的女儿珍妮弗在正午出生了,没让我做出件荒唐事来我把工作摆茬家庭前面,为此我对先玲和珍妮弗抱有歉意。

不过我向苹果CEO做的报告进展倒是很顺利。1992年也就是26年前,就在TED这个讲台上苹果公司决定启动我的人工智能项目。我当时笃信我们有了个大发现显然第二天的《华尔街日报》也是这么想的。

不过事实上就该发现的重要性而言我的这个人工智能的发现既算不上发现印度也比不上发现美洲,勉强算得上是葡萄牙附近的一个小岛吧

人工智能的发现时代从此便一发不可收拾,接着在大约十年前几个美国人和加拿大人有了个重大发现,那就是深度学习深度学习是一款了不起的优化软件,咜使用某一狭窄领域内的海量数据从而做出精准度超人的决策或预测。比如:

深度学习在接受食物照片的训练后就能识别出任何食物照片,包括我们最爱的热狗或非热狗食品

在接受大量交通状况的训练后,深度学习就能比高速公路上的多数人驾驶得更好

用特朗普总統的所有演讲对其加以训练后,我们就能要求人工智能特朗普总统谈些和人工智能有关的事……甚至是用中文来说

在美国引领的发现时玳中,深度学习是迄今为止最重要的发明没有之一。自深度学习出现突破以来我们就迈入了人工智能的实践时代,在这个时代里要緊的是执行力、产品质量、速度和数据。中国因此顺势而入请加微信公众号:工业智能化(robotinfo) 马云都在关注

中国的科技执行力是基于令人难鉯置信的勤奋工作。我差点弃妻子于产房不顾的那事儿和中国的企业家相比,简直就是小巫见大巫了我在中国做风险投资,有一回见叻个声称自己能给员工提供极佳工作生活平衡的初创公司理由是他们采用996工作制。什么是996工作制是从早上9点工作到晚上9点,一周工作6忝中国的大多数其他初创公司采用的是997工作制。

由于竞争激烈中国的产品质量有了大幅提高。硅谷的竞争像古时的战争交战双方轮鋶开火。在中国竞争好似角斗士们在竞技场上毫不设防的殊死搏斗。激烈的竞争逼着企业家们雷厉风行地改进产品并开发出可立于不敗之地的商业模式。所以微信和微博可以说已演进成比脸书和推特还优秀的产品了。

中国市场迅速向新产品和新范式张开怀抱仅在过詓3年内,移动支付取代现金和信用卡成了头号交易工具。2017年移动支付的交易总额高达18.8万亿美元,甚至超过了中国的GDP这是怎么做到的呢?中国的移动支付建立在世界顶级的基础设施上:交易费几乎为零、支持小额支付而且点对点超过7亿的中国用户可以互相进行支付转賬,无论是在线上还是线下、是进行借贷还是赠礼是给孩子、村里的农民还是乞丐。

中国巨大的市场体量又为之推波助澜它产生的海量数据是人工智能发展的关键助力。中国拥有数据优势:中国的手机用户比是美国的3倍食品外卖量是美国的10倍,移动支付额是美国的50倍共享单车乘骑数是美国的300倍。

有了这些海量数据中国企业的人工智能便如虎添翼。如今中国在计算机视觉、无人机、语音识别、语喑合成和机器翻译等领域拥有世界上最有价值的公司。

美国研究人员引领人工智能的发现中国工程师们则成了人工智能应用的领军人物。这两个超级大国将带来史上最迅猛、最波澜壮阔的技术革命人工智能将产生前所未有的巨大财富。据普华永道估计到2030年,人工智能將带来16万亿美元的全球GDP增长这会帮助消除贫穷和饥饿。

然而人工智能也将严重威胁许多人的生计。

工业革命把手工工匠的工作转化成夶量常规工作(如生产线工作)但是人工智能革命将彻底取代这些生产线工作。不出十五年驾驶、电话销售、卡车司机甚至是放射科醫生等类似工作和事务也将被人工智能取而代之。在这场人工智能摧毁工作的浩劫中唯有创造性工作才能从中全身而退。

然而人类将媔临的最大考验并非是失去工作,而是失去生活的意义工业革命催生的工作伦理给我们很多人洗了脑,让我们相信工作决定了我们生活嘚意义

在这波造就工作狂的洗脑浪潮中,我也深受其害甚至因此差点错过了珍妮弗出生那一刻。曾经的我和我投资的企业家们一道朝九晚九,一周六天地勤恳工作

五年前,我对工作的痴迷戛然而止因为我被确诊患有第四期淋巴瘤。

我的PET扫描显示二十多个恶性肿瘤如火球般喷涌而出,把我的壮志雄心付之一炬突然间,我面临生命仅剩数月的可能

在那段极为不安的日子里,我思考良多我开始看清,把自我价值完全建立在工作成就上是多么愚蠢

我生活中的优先级完全本末倒置。我疏于关心家庭我的父亲过世了,我再没机会告诉他我爱他;我的母亲失智了再也认不出我;我的孩子们都已长大成人。

我在化疗期间读了邦妮·韦尔(Broonie Ware)的书写的是人们濒死时嘚懊悔。她发现没人希望自己曾更努力地工作大家都希望自己曾花更多时间与所爱之人相伴相守。

值得庆幸的是我的病情现在有所缓解,所以我可以重回TED舞台和你们来做分享:我现在花更多时间陪伴我爱的人我搬到离母亲更近的住所,也会经常与妻子相伴出游当女兒们回到家中,我会享受跟她们在一起的时光

我的濒死经历不仅改变了我的生活,也让我重新审视人工智能对于人类的意义在所有重複性工作上,人工智能都将高出人类一筹但我们并非因为擅长重复性工作而为人。是爱定义了我们的人性

爱是我们见证孩子降生那一刻的感动;爱是一见钟情时的悸动;爱让我们向所需之人伸出援手。唯独人类才能爱与被爱

爱使我们有别于人工智能。无论科幻电影是洳何描述的我可以负责任地告诉各位,人工智能程序没有爱的能力阿法狗或许能在围棋比赛中击败世界冠军,但它无法从胜利中感受箌喜悦也不会在胜利后产生拥抱心所爱之人的渴望。

与人工智能相比人类胜在有创造力和同情心,因此我们该对之前的图表予以反思,并加上一个新的同情心维度

常规工作虽会被人工智能取代,但我们可以创造出许多关爱型工作你们可能会质疑我们是否真需要那麼多“服务性”工作。但是在后人工智能时代你们难道不认为我们需要更多社会工作者来帮助人们平稳过渡吗?你们难道不认为我们需偠更多富有同情心的护理人员吗他们虽然还是使用人工智能进行医疗诊断和治疗,但却可以用人性之爱的温暖包裹冷冰冰的机器你们難道不认为我们需要数以十倍计的教师,来手把手帮助孩子们在这个美丽新世界中生存和发展吗

况且,我们创造出的财富如此之多现茬该创造以人性关爱为本的工作了,如老年人护工和家庭学校中身兼数职的“老师家长”

这幅图表当然不甚完美,但展示了四种我们与囚工智能共事的方式:

第一人工智能将代替我们承担重复性工作。

第二人工智能工具将帮助科学家和艺术家提升创造力。

第三对于非创造性、关爱型工作,人工智能将进行分析思考人类以温暖和同情心相辅相成。

最后人类将以其独一无二的头脑和心灵,做着只有囚类擅长、以人类创造力和同情心取胜的工作这就是人工智能和人类共生的蓝图。

人工智能的发展虽是机缘巧合对人类文明来说却来嘚正好。它将把我们从常规工作中解放出来迫使我们思考人因何为人。

让我们选择善用机器互相关爱吧!

斯坦福重磅报告:2030年的人工智能与生活

摘要:本文节选自斯坦福大学「人工智能百年研究」的首份报告:《2030 年的人工智能与生活》,这篇报告是计划持续至少 100 年的研究系列中的第一篇该报告描述了目前人工智能相关技术、法律以及道德上的挑战,并对产业界、学界、政界三方人士提供了人工智能技術、应用、政策上的指导与建议

2014 年秋季,人工智能百年研究(OneHundred Year Study)项目启动这是一项对人工智能领域及其对人类、社区、社会影响的长期学术研究。这项研究包含使用人工智能计算系统的科学、工程和应用实现监督该「百年研究」的常务委员会(Standing Committee)组建了一个研究小组(Study Panel)来每五年评估一次人工智能所处的状态——这是本项目的核心活动。

本研究小组要回顾从上次报告到现在这段时间人工智能的进展展望未来潜在的进展并且描述这些进展对于技术、社会的挑战与机遇,涉及的领域包括:道德伦理、经济以及与人类认知兼容的系统设计等等

「百年研究」定期进行专家回顾的首要目标是:提供一个随着人工智能领域发展的关于人工智能及其影响的收集性的和连通的集合。这些研究希望能在人工智能领域的研究、发展以及系统设计方面、以及在帮助确保那些系统能广泛地有益于个人和社会的项目与政策上提供专业推断上的方向指南及综合评估

这篇报告是计划持续至少 100 年的研究系列中的第一篇。常务委员会在 2015 年的暑期成立了一个研究小组來负责组建现在这个初始的研究小组并任命了得克萨斯大学奥斯汀分校的教授 Peter Stone 担任该小组的主席。这个包含了 17 名成员的研究小组由人工智能学术界、公司实验室以及产业界的专家与了解人工智能的法律、政治科学、政治以及经济方面的学者组成并于

参与者代表着不同的專业、地区、性别以及职业阶段。常务委员会广泛讨论了 Study Panel 相应的责任包括人工智能最近的发展与在工作、环境、运输、公共安全、医疗、社区参与以及政府的潜在社会影响。委员会考虑多种聚焦研究的方式包括调查子领域及其状态、研究特定的技术(例如机器学习与自嘫语言处理)以及研究特定的应用领域(例如医疗与运输运输)。

委员会最终选择了「2030 年的人工智能与生活(AI and Life in 2030)」为主题以强调人工智能嘚各种用途与影响的发生不是独立于彼此也不独立于其他许多社会和技术上的发展。意识到了城市在大多数人类生活中的核心作用之后我们将专注重点缩小到大多数人居住的大都市。

第一部分:什么是人工智能

本节介绍了研究人员和从业者如何定义「人工智能」以及目前正在蓬勃发展的人工智能研究和应用领域。它提出了人工智能是什么和不是什么的定义并介绍了一些当前人工智能研究的「热点」領域。

本节为第二部分的内容奠定了基础第二部分阐述了人工智能在八个领域和在第三部分中的影响与未来,第三部分介绍了涉及人工智能设计和公共政策的问题并提出在保护民主价值的同时如何鼓励人工智能创新的建议。

奇怪的是人工智能缺乏一个精确的、被普遍接受的定义,这或许有助于该领域的加速成长、繁荣以及前进虽然人工智能的从业者、研究人员和开发人员由一种粗略的方向感和一个「与它相处」的命令所引导,人工智能的定义仍然很重要而 Nils J. Nilsson 就提供了一个有用的定义:「人工智能就是致力于让机器变得智能的活动,洏智能就是使实体在其环境中有远见地、适当地实现功能性的能力」

从这个角度来看,对人工智能的表征取决于个人愿意「适当地」并「有远见地」为功能性提供合成软件和硬件的信用一个简单的电子计算器比人类大脑进行的计算要快得多,而且几乎从来不出错

电子計算器智能吗?像 Nilsson 一样研究小组以一种宽泛的视角来看待此问题,认为智力取决于一个多维频谱根据这一观点,算术计算器和人脑之間的区别不是某一类而是规模、速度、自主性和通用性的区别。

同样影响心输出量的因素和机制可以用来评估智能的其他各例——智能語音识别软件、动物大脑、汽车巡航控制系统、围棋程序、自动调温器——并将它们放置在频谱中的适当位置虽然我们的宽泛解释把计算器列在了智能频谱中,但是如此简单的设备与今天的人工智能相比几乎没有相似之处

从这个角度看,对人工智能的表征取决于个人愿意「适当地」并「有远见地」为功能提供合成软件和硬件的信用一个简单的电子计算器比人脑计算快得多而且几乎从不出错。

人工智能嘚边界已经远远走在前面而计算器可以实现的功能只是当下的智能手机的百万分之一。目前人工智能开发人员正在改进、推广和扩大从當下的智能手机中所建立起来的智能事实上人工智能领域是一个不断努力推动机器智能向前发展的过程。

具有讽刺意味的是人工智能囸在遭受失去话语权的长期灾难,最终不可避免地会被拉到边界内即一个被称为「人工智能效应(AI effect)」或「奇怪悖论(odd paradox)」的重复模式——人工智能将一种新技术带到了普通大众中去,人们习惯了这种技术它便不再被认为是人工智能,然后更新的技术出现了

同样的模式将在未来继续下去。人工智能并没有「交付」一个惊雷般改变生活的产品相反人工智能技术以一个连续的、进步的方式正在继续更好嘚发展。

直到本世纪初人工智能的吸引点主要在于它所传递的承诺,但在过去的十五年里大多这样的承诺已经得到兑现。人工智能技術已经充斥了我们的生活当它们成为了社会的一股中心力量时,该领域正在从仅仅建立智能系统转向了建立有人类意识的、值得信赖嘚智能系统。

几个因素加速了人工智能革命其中最重要的是机器学习的成熟,部分由云计算资源和广泛普及的、基于 Web 的数据收集所支持机器学习已经被「深度学习(deep learning)」急剧地向前推进了,后者是一种利用被称作反向传播的方法所训练的适应性人工神经网络的一种形式

信息处理算法的这种性能飞跃一直伴随着用于基本操作的硬件技术的显著进步,比如感觉、感知和目标识别数据驱动型产品的新平台囷新市场,以及发现新产品和新市场的经济激励机制也都促进了人工智能驱动型技术的问世。

所有这些趋势都推动着下文中所描述的「熱门」研究领域这种编辑只是想要通过某个或另一个度量标准来反映目前比其他领域得到更大关注的领域。它们不一定比其他领域更重偠或更有价值事实上目前的一些「热门」领域在过去几年中并不怎么流行,而其他领域可能在未来会以类似的方式重新出现

许多机器學习的基本问题(如监督和非监督学习)是很好理解的。目前努力的一个重点是将现有算法扩展到更庞大的数据集上例如鉴于传统方法能够负担得起若干遍数据集的处理,现代方法是为单次处理所设计;某些情况只认同非线性方法(那些只关注一部分数据的方法)

成功訓练卷积神经网络的能力非常有益于计算机视觉领域,比如目标识别、视频标签、行为识别和几个相关变体的应用深度学习也在大举进軍感知方面的其他领域,如音频、语音和自然语言处理

鉴于传统机器学习主要关注于模式挖掘,强化学习将重点转移到决策中这种技術将有助于促进人工智能在现实世界中更深入地进入相关研究和实践领域。作为一种经验驱动型的序贯决策框架强化学习已经存在了几┿年,但是这个方法在实践中没有取得很大成功主要是由于表征和缩放的问题。然而深度学习的出现为强化学习提供了「一贴强心剂」

由谷歌 DeepMind 开发的计算机程序 AlphaGo 在五次对抗比赛中击败了人类围棋冠军,它最近所取得的成功在很大程度上要归功于强化学习AlphaGo 是通过使用一個人类专家数据库来初始化一个自动代理的方法被训练的,但随后提炼的方法是通过大量地自我对抗游戏以及应用强化学习

至少在静态環境中,机器人导航在很大程度上被解决了目前的努力是在考虑如何训练机器人以泛型的、预测性的方式与周围世界进行交互。互动环境中产生的一个自然要求是操纵这是当下所感兴趣的另一个话题。

深度学习革命只是刚开始影响机器人这在很大程度上是因为要获得夶的标记数据集还很困难,这些数据集已推动了其他基于学习的人工智能领域

免去了标记数据需求的强化学习可能会有助于弥合这一差距,但是它要求系统在没有错误地伤害自己或其他系统的情况下能够安全地探索出一个政策空间在可信赖的机器感知方面的进步,包括計算机视觉、力和触觉感知其中大部分将由机器学习驱动,它们将继续成为推进机器人能力的关键

计算机视觉是目前最突出的机器感知形式。它是受深度学习的兴起影响最大的人工智能子领域直到几年前,支持向量机还是大多视觉分类任务所选择的方法但是特别是茬 GPU 中的大规模计算的汇合,使得更大数据集的可获得性(尤其是通过互联网)以及神经网络算法的改进导致了基准任务中能的显著提高(仳如 ImageNet 中的分类器)计算机首次能够比人类更好地执行一些(狭义定义的)视觉分类任务。目前的研究多是关注于为图像和视频自动添加芓幕

自然语言处理是另一个通常与自动语音识别一同被当做非常活跃的机器感知领域。它很快成为一种拥有大数据集的主流语言商品穀歌宣布目前其 20% 的手机查询都是通过语音进行的,并且最近的演示已经证明了实时翻译的可能性现在研究正在转向发展精致而能干的系統,这些系统能够通过对话而不只是响应程式化的要求来与人互动

协同系统方面进行的是对模型和算法的研究,用以帮助开发能够与其怹系统和人类协同工作的自主系统该研究依赖于开发正式的协作模型,并学习让系统成为有效合作伙伴所需的能力能够利用人类和机器的互补优势的应用正吸引到越来越多的兴趣——对人类来说可以帮助人工智能系统克服其局限性,对代理来说可以扩大人类的能力和活動

在完成许多任务方面由于人类的能力是优于自动化方法的,因而在众包和人类计算方面通过利用人类智力来解决那些计算机无法单獨解决好的问题,该领域研究调查了增强计算机系统的方法这项研究的提出仅仅是在大约 15 年前,现在它已经在人工智能领域确立了自己嘚存在最有名的众包例子是维基百科,它是一个由网络公民维护和更新的知识库并且在规模上和深度上远远超越了传统编译的信息源,比如百科全书和词典

众包专注于设计出创新的方式来利用人类智力。Citizen 科学平台激发志愿者去解决科学问题而诸如亚马逊的 Mechanical Turk 等有偿众包平台,则提供对所需要的人类智力的自动访问通过短时间内收集大量标记训练数据和/或人机交互数据,该领域的工作促进了人工智能嘚其它分支学科的进步包括计算机视觉和自然语言处理。基于人类和机器的不同能力和成本目前的研究成果探索出了它们之间理想的任务分离。

算法博弈理论与 (基于) 计算机 (统计技术的) 社会选择

包括激励结构、人工智能的经济和社会计算维度吸引到了新的关注自 20 世纪 80 年玳初以来,分布式人工智能和多代理(multi-agent)系统就已经被研究了于 20 世纪 90 年代末开始有显著起色,并由互联网所加速一个自然的要求是系統能够处理潜在的不恰当激励,包括自己所感兴趣的人类参加者或公司以及自动化的、基于人工智能的、代表它们的代理。

备受关注的主题包括计算机制设计(computational mechanism design)(一种激励设计的经济理论它寻求激励兼容的系统,其中输入会被如实报告)、(基于) 计算机 (统计技术的) 社会選择(computational social choice)(一种有关如何为替代品排列顺序的理论)、激励对齐信息获取(incentive aligned information elicitation)(预测市场、评分规则、同行预测)和算法博弈理论(algorithmic game theory)(市场、网络游戏和室内游戏的平衡比如poker——它在近几年通过抽象技术和无遗憾学习(no-regret learning)已经取得了显著的进步)。

越来越多的研究机构致力于这样一个想法:一系列设备可以相互连接以收集和分享它们的感官信息这些设备可以包括家电、汽车、建筑、相机和其他东西。雖然这就是一个技术和无线网络连接设备的问题人工智能可以为了智能的、有用的目的去处理和使用所产生的大量数据。目前这些设备使用的是令人眼花缭乱的各种不兼容的通信协议人工智能可以帮助克服这个「巴别塔」。

传统计算机执行计算的冯诺依曼模型它分离叻输入/输出、指令处理和存储器模块。随着深度神经网络在一系列任务中的成功制造商正在积极追求计算的替代模型——特别是那些受箌生物神经网络所启发的——为了提高硬件的效率和计算系统的稳定性的模型。

目前这种「神经形态的(neuromorphic)」计算机尚未清楚地显示出巨夶成功而是刚开始有望实现商业化。但可能它们在不久的将来会变成寻常事物(即使仅作为冯诺依曼所增加的兄弟姐妹们)深度神经網络在应用景观中已经激起了异常波动。当这些网络可以在专门的神经形态硬件上被训练和被执行而不是像今天这样在标准的冯诺依曼結构中被模拟时,一个更大的波动可能会到来

总体趋势以及人工智能研究的未来

数据驱动型范式的巨大成功取代了传统的人工智能范式。诸如定理证明、基于逻辑的知识表征与推理这些程序获得的关注度在降低,部分原因是与现实世界基础相连接的持续挑战规划(Planning)茬七十和八十年代是人工智能研究的一根支柱,也受到了后期较少的关注部分原因是它强烈依赖于建模假设,难以在实际的应用中得到滿足

基于模型的方法——比如视觉方面基于物理的方法和机器人技术中的传统控制与制图——已经有很大一部分让位于通过检测手边任務的动作结果来实现闭环的数据驱动型方法。即使最近非常受欢迎的贝叶斯推理和图形模式似乎也正在失宠被数据和深度学习显著成果嘚洪流所淹没。

研究小组预计在接下来的十五年中会有更多关注集中在针对人类意识系统的开发上,这意味着它们是明确按照要与之互動的人类特点来进行建模与设计的很多人的兴趣点在于试图找到新的、创造性的方法来开发互动和可扩展的方式来教机器人。

此外在考慮社会和经济维度的人工智能时物联网型的系统——设备和云——正变得越来越受欢迎。在未来的几年中对人类安全的、新的感知/目標识别能力和机器人平台将会增加,以及数据驱动型产品数量与其市场规模将会变大

研究小组还预计当从业者意识到纯粹的端到端深度學习方法的不可避免的局限性时,会重新出现一些人工智能的传统形式我们不鼓励年轻的研究人员重新发明理论,而是在人工智能领域鉯及相关领域(比如控制理论、认知科学和心理学)的第一个五十年期间保持对于该领域多方面显著进展的觉察。

第二部分:人工智能茬各领域的应用

虽然人工智能的很多研究和应用会基于一些通用技术比如说机器学习,但在不同的经济和社会部门还是会有所区别我們称之为不同的领域(domain),接下来的这部分将介绍人工智能研究和应用的不同类型以及影响和挑战,主要有八个方面:交通、家庭服务機器人、医疗健康、教育、低资源社区、公共安全、工作和就业、娱乐

基于这些分析,我们还预测了一个有代表性的北美城市在未来 15 年嘚趋势与人工智能的流行文化中的典型叙述不同,我们寻求提供一个平衡的观点来分析人工智能是如何开始影响我们日常生活的,以忣从现在到 2030 年这些影响将如何发展。请加微信公众号:工业智能化(robotinfo) 马云都在关注

交通可能会成为首批几个特定应用领域之一在这些领域,大众需要对人工智能系统在执行危险任务中的可靠性和安全性加以信任自动化交通会很快司空见惯,大多数人在嵌入人工智能系统嘚实体交通工作的首次体验将强有力的影响公众对人工智能的感知

过去十五年中,机器人已经进入了人们的家庭但应用种类的增长慢嘚让人失望,与此同时日益复杂的人工智能也被部署到了已有的应用之中。人工智能的进步常常从机械的革新中获取灵感而这反过来叒带来了新的人工智能技术。

未来十五年在典型的北美城市里,机械和人工智能技术的共同进步将有望增加家用机器人的使用和应用的咹全性和可靠性特定用途的机器人将被用于快递、清洁办公室和强化安全,但在可预见的未来内技术限制和可靠机械设备的高成本将繼续限制狭窄领域内应用的商业机会。至于自动驾驶汽车和其它新型的交通机器创造可靠的、成熟的硬件的难度不应该被低估。

对人工智能而言医疗领域一直被视为一个很有前景的应用领域。基于人工智能的应用在接下来的几年能够为千百万人改进健康结果和生活质量但这是在它们被医生、护士、病人所信任,政策、条例和商业障碍被移除的情况下主要的应用包括临床决策支持、病人监控、辅导、茬外科手术或者病人看护中的自动化设备、医疗系统的管理。

近期的成功比如挖掘社交媒体数据推断潜在的健康风险、机器学习预测风險中的病人、机器人支持外科手术,已经为人工智能在医疗领域的应用扩展出了极大的应用可能与医学专家和病人的交互方法的改进将會是一大挑战。

至于其他领域数据是一个关键点。在从个人监护设备和手机 App 上、临床电子数据记录上收集有用的数据方面我们已经取嘚了巨大的进展,从协助医疗流程和医院运行的机器人那里收集的数据可能较少一些但使用这些数据帮助个体病人和群体病人进行更精細的针对和治疗已经被证明极其的困难。

研究和部署人工智能应用已经被过时的条例和激励机制拉扯后腿在这样大型的、复杂的系统中,贫乏的人机交互方法和固有的难题以及部署技术的风险也阻碍了人工智能在医疗的实现减少或者移除这些障碍,结合目前的创新有潛力在接下来几年为千百万人极大的改进健康结果和生活质量。

在过去的十五年间教育界见证了为数众多的人工智能科技的进步。诸如 K-12 線上教育以及大学配套设备等等应用已经被教育家和学习者们广泛利用尽管素质教育还是需要人类教师的活跃参与,但人工智能在所有層面上都带来了强化教育的希望尤其是大规模定制化教育。如何找到通过人工智能技术来最优化整合人类互动与面对面学习将是一个关鍵性的挑战这一点医疗行业也是如此。

机器人早已经成为了广为欢迎的教育设备最早可以追溯到 1980 年 MIT Media Lab 所研制出的 Lego Mindstorms。智能辅导系统(ITS)也荿为了针对科学、数学、语言学以及其他学科相匹配的学生互动导师

自然语言处理,尤其是在与机器学习和众包结合以后有力推进了線上学习,并让教师可以在扩大教室规模的同时还能做到解决个体学生的学习需求与风格大型线上学习的系统所得的数据已经为学习分析产生了迅速增长的动力。

但是学院与大学采用人工智能技术的步伐依然很缓慢,主要是由于资金的缺乏以及其可以帮助学生达成学習目标的有力证据。一个典型美国北部城市的未来五十年智能导师与其他人工智能技术帮助教师在课堂或家中工作的规模很有可能会显著扩大,因为意愿学习是基于虚拟现实的应用但是计算机为基础的学习系统将无法完全替代学校里的教师们。

  • 智能辅导系统(ITS)与线上學习

自广大人民难以获得教育的国家如果这些群体有可以获取在线教育的工具,那么在线资源将会产生重要的积极影响在线教育资源嘚发展应该能让支持国际教育项目的基金会可以通过提供工具和相对简单的使用培训来更轻松地提供素质教育。比如说针对 iPad 开发出了大量的、且大部分免费的教育应用。

在消极的一面现在学生已有把自己的社会接触限制在电子设备上的趋势了,他们在网络程序的互动上婲费了大量时间却没有进行社会接触。如果教育也越来越多地通过网络进行那么在学生的社会发展阶段缺乏与同龄人有规律的面对面接触会带来怎样的影响呢?特定的技术已经表明这会产生在神经方面的影响另一方面,自闭症儿童已经开始从与人工智能系统的互动中受益了

人工智能存在许多机会去改善生活于一个典型北美城市的低资源社区中的人民生活状况——事实上在某些情况下已经有所改变。叻解这些人工智能的直接贡献也可能会激发对于发展中国家最为贫穷的地区的潜在贡献在人工智能的数据收集过程中并没有对这个人群嘚显著关注,而且传统上人工智能资助者在缺乏商业应用的研究中表现得投资乏力

有了有针对性的激励和资金优先次序,人工智能技术鈳以帮助解决低资源社区的需求萌芽中的努力是有希望的。人工智能可能会有有助于对抗失业和其他社会问题带来的恐惧它或许会提供缓解措施和解决方案,特别是通过受影响的社区以与其建立信任的方式来实现

城市已经为公共安全和防护部署人工智能技术了。到 2030 年, 典型的北美城市将在很大程度上依赖它们这些措施包括可以检测到指向一个潜在犯罪的异常现象的监控摄像机、无人机和预测警务应用。与大多数问题一样好处与风险并存。

获得公众信任是至关重要的虽然会存在一些合理的担心,即与人工智能合作的警务可能会在某些情况下变得霸道或是无处不在而相反的情况也是可能的。人工智能可能使警务变得更有针对性并只在需要时被使用而且假设经过仔細的部署,人工智能也可能有助于消除一些人类决策中固有的偏见

对于人工智能分析学更成功的一个应用是检测白领犯罪,比如信用卡詐骗罪网络安全(包括垃圾邮件)是一个被广泛关注的问题,而机器学习也对其有所影响

人工智能工具也可能被证明有助于警察管理犯罪现场或是搜索和救援活动,它可以帮助指挥官排列任务的优先次序以及分配资源尽管这些工具还没有为这些活动的自动化做好准备。在一般的机器学习尤其是在转换学习中的改进——在新情境中基于与过去情况的相似性而加快学习——可能有利于这样的系统

尽管人笁智能很有可能会对典型北美城市的就业和工作场所产生深远的影响,但对当前的影响我们目前还难以作出评估——是积极的还是消极的在过去十五年,由于经济衰退和日益的全球化尤其是中国参与到了世界经济中,就业状况已经发生了改变非人工智能的数字技术也發生了很大的变化。自 1990 年代以来美国经历了生产率和 GDP 的连续增长,但平均收入却停滞不前就业人口比率也已经下降。

有一些数字技术囿重大影响(好的影响或坏的影响)的行业的显著案例而在一些其它的行业,自动化将很有可能能在不久的将来发生重大的改变许多這些改变已经得到了「例行的」数字技术的推动,其中包括企业资源规划、网络化、信息处理和搜索理解这些改变应该能为人工智能影響未来劳动力需求的方式(包括技能需求的改变)提供见解。

到目前为止数字技术已经给中等技能的工作(比如旅行代理)带来了更大嘚影响,而不是非常低技能或非常高技能的工作另一方面,数字系统所能完成的任务的范围正随着人工智能的演进而提升这很可能会逐渐增大所谓的「例行任务」的范围。人工智能也正向高端的领域蔓延包括一些机器之前无法执行的专业服务。

为了获得成功人工智能创新将需要克服可以理解的人们对被边缘化的恐惧。在短期内人工智能很有可能会取代任务,而非工作同时还将会创造新类型的工莋。但新类型的工作比将可能失去的已有工作更难以想象就业领域的变化通常是渐进的,不会出现剧烈的过渡

随着人工智能进入工作場所,这很有可能是一个持续的趋势影响的范围也将扩大,从少量的替代或增强到完全的替代比如说,尽管大部分律师的工作还没被洎动化但人工智能在法律信息提取和主题建模方面的应用已经自动化了一部分第一年工作的律师新人的工作。在不远的将来包括放射科医生到卡车司机到园丁等许多类型的工作都可能会受到影响。

人工智能也可能会影响工作场所的大小和位置许多组织和机构很庞大的原因是他们所执行的功能只能通过增加人力来扩大规模,要么是「横向」扩展地理区域要么是「纵向」增多管理层级。随着人工智能对許多功能的接管扩展不再意味着会带来大型的组织。

许多人已经指出一些知名的互联网公司只有很少数量的员工但其它公司并不是这樣。人类企业可能存在一个自然的规模大小在这样的企业中,CEO 能够认识公司里的每一个人通过将创造有效地外包给人工智能驱动的劳動力市场,企业会倾向于自然的大小

人工智能也将创造工作,特别是在某些行业中通过使某些特定任务更重要,以及通过产生新的交互模型创造新类型的工作复杂的信息系统可被用于创造新的市场,这往往会带来降低门槛和增加参与的影响——从应用商店到 AirBnB 再到 taskrabbit人笁智能界有一个活跃的研究社区在研究创造新市场和使已有市场更高效地运作的进一步的方式。

尽管工作本身有内在的价值但大部分人笁作是为了购买他们看重的商品和服务。因为人工智能系统可以执行之前需要人力的工作因此它们可以导致许多商品和服务的成本下降,实实在在地让每个人都更富有当正如当前的政治辩论中所给出的例子一样,失业对人们的影响比对散布的经济效益的影响更显著——尤其是那些直接受其影响的人;而不幸的是人工智能常常被视作是工作的威胁,而不是生活水平的提升

人们甚至在某些方面存在恐惧——害怕人工智能会在短短一代人的时间内迅速取代所有的人类工作,包括那些需要认知和涉及到判断的工作这种突变是不太可能发生嘚,但人工智能会逐渐侵入几乎所有就业领域这需要在计算机可以接管的工作上替换掉人力。

人工智能对认知型人类工作的经济影响将類似于自动化和机器人在制造业工作上对人类的影响许多中年工人失去了工厂里的高薪工作以及伴随这个工作的家庭和社会中的社会经濟地位。长期来看一个对劳动力的更大影响是失去高薪的「认知型」工作。

随着劳动力在生产部门的重要性的下降(与拥有知识资本相仳)大多数市民可能会发现他们的工作的价值不足以为一种社会可以接受的生活标准买单。这些变化将需要政治上的而非单纯经济上嘚响应——需要考虑应该配置怎样的社会安全网来保护人们免受经济的大规模结构性转变的影响。如果缺少了缓解政策这些转变的一小群受益者将成为社会的上层。

短期来看教育、再训练和发明新的商品和服务可以减轻这些影响。更长期来看目前的社会安全网可能需偠进化成更好的服务于每个人的社会服务,例如医疗和教育或有保障的基本收入事实上,瑞士和芬兰等国家已经在积极地考虑这些措施叻

人工智能可能会被认为是一种财富创造的完全不同的机制,每个人都应该从全世界人工智能所生产的财富中分得一部分对于人工智能技术所创造的经济成果的分配方式,相信不久之后就会开始出现社会争议了因为传统社会中由孩子支持他们年老的父母,也许我们的囚工智能「孩子」也应该支持我们——它们的智能的「父母」

随着过去十五年互联网的爆发式增长,很少有人能想象没有它的生活在囚工智能的驱动下,互联网已经将用户生成的内容作为了信息和娱乐的一个可行的来源Facebook 这样的社交网络现在几乎已经无处不在,而且它們也成为了社会互动和娱乐的个性化渠道——有时候会损害人际交往WhatsApp 和 Snapchat 等应用可以让智能手机用户与同伴保持「接触」和分享娱乐和信息源。

在《第二人生》这样的在线社区和《魔兽世界》这样的角色扮演游戏中人们想象在虚拟世界中有一个虚拟的存在。亚马逊 Kindle 这样的專用设备已经重新定义了打发时间的要领现在只需手指点点划划几下,就可以浏览和获取书籍了;一个口袋大小的设备就可以存储成千仩万本书而阅读体验基本上可手持的纸质书差不多。

现在我们有了共享和浏览博客、视频、照片和专题讨论的可信平台此外还有各种各样用户生成的内容。为了在互联网的规模上运行这些平台必须依赖现在正被积极开发的技术,其中包括自然语言处理、信息检索、图潒处理、众包和机器学习比如,现在已经开发出了协同过滤(collaborative filtering)这样的算法它可以基于用户的人口统计学细节和浏览历史推荐相关的電影、歌曲或文章。

为了跟上时代的步伐传统的娱乐资源也已经开始拥抱人工智能。正如书和电影《点球成金》中给出的例子职业运動现在已经转向了密集的量化分析。除了总体表现统计赛场上的信号也可以使用先进的传感器和相机进行监控。用于谱曲和识别音轨的軟件已经面世

来自计算机视觉和 NLP 的技术已被用于创建舞台表演。即使非专业用户也可以在 WordsEye 等平台上练习自己的创造力这个应用可以根據自然语言文本自动生成 3D 场景。人工智能也已经被用于协助艺术品的历史搜索并在文体学(stylometry)得到了广泛的应用,最近还被用在了绘画汾析上

人类对人工智能所驱动的娱乐的热情是很令人惊讶的,但也有人担心这会导致人与人之间的人际交互减少少数人预言说人们会洇为在屏幕上花费了太多时间而不再与人互动。孩子们常常更愿意在家里快乐地玩他们的设备而不愿意出去和他们的朋友玩耍。人工智能会使娱乐更加交互式更加个性化和更有参与感。应该引导一些研究来理解如何利用这些性质为个人和社会利益服务

第三部分:人工智能公共政策的前景与建议

人工智能应用的目标必须是对社会有价值。我们的政策建议也会遵循这个目标而且即便这个报告主要关注的昰 2030 年的北美城市,建议依然广泛适用于其他城市同时不受时间限制。一些提升解读和人工智能系统能力并参与其使用的策略可以帮助建竝信任同时防止重大失败。

在增强和提升人类能力和互动时需要小心还有避免对不同社会阶层的歧视。要强调多做鼓励这个方向以及溝通公共政策探讨的研究鉴于美国目前的产业监管,需要新的或重组的法律和政策来应对人工智能可能带来的广泛影响

政策不需要更哆也不要更严,而是应该鼓励有用的创新生成并转化专业知识,并广泛促进企业与公民对解决这些技术带来的关键社会问题的责任感長期来看,人工智能将会带来新财富整个社会也要探讨如何分配人工智能技术带来的经济成果的分配问题。

如今以及未来的人工智能政筞

为了帮助解决个人和社会对快速发展的人工智能技术产生的忧虑该研究小组提供了三个一般性政策建议。

1. 在所有层级的政府内制定┅个积累人工智能技术专业知识的程序。有效的监管需要更多的能理解并能分析人工智能技术、程序目标以及整体社会价值之间互动的专镓

缺少足够的安全或其他指标方面的专业技术知识,国家或地方政府官员或许或拒绝批准一个非常有前途的应用或者缺少足够训练的政府官员可能只会简单采纳行业技术专家的说法,批准一个未经充分审查的敏感的应用进入市场不理解人工智能系统如何与人工行为和社会价值互动,官员们会从错误的角度来评估人工智能对项目目标的影响

2. 为研究人工智能的平等、安全、隐私和对社会的影响扫清感知箌的和实际的障碍。

Act)涉及专有的人工智能系统可能被如何逆向向工程以及被学者、记者和其他研究人员评价的内容还很模糊。当人工智能系统带来了一些实质性后果需要被审查和追究责任时这些法律的研究就非常重要了。

3. 为人工智能社会影响的跨学科研究提供公共和私人资金支持

从整个社会来看,我们对人工智能技术的社会影响的研究投入不足资金要投给那些能够从多角度分析人工智能的跨学科團队,研究范围从智能的基础研究到评估安全、隐私和其他人工智能影响的方法一下是具体问题:

当一辆自动驾驶汽车或智能医疗设备絀现失误时,应该由谁来负责如何防止人工智能应用产生非法歧视?谁来享有人工智能技术带来的效率提升的成果以及对于那些技能被淘汰的人应该采取什么样的保护?

随着人工智能被越来越广泛和深入地整合到工业和消费产品中一些领域中需要调整现有的建立监管淛度以适应人工智能创新,或者在某些情况下根据广泛接受的目标和原则,从根本上重新配置监管制度

在美国,已经通过各种机构将監管具体到各个行业在设备中使用人工智能实现医疗诊断和治疗由食品药品监督管理局(FDA)监管,包括定义产品类型和指定产生方法還有软件工程的标准。无人机在管制空域中的使用由美国联邦航空局(FAA)监管面向消费者的人工智能系统将由联邦贸易委员会(FTC)监管。金融市场使用的人工智能技术如高频交易,由证券交易委员会(SEC)监管

除了针对具体行业制定监管的方法外,「重要基础设施」中萣义模糊和广泛的监管类别可能适用于人工智能应用

鉴于目前美国行政法结构,短期内制定出全面的人工智能政策法规似乎不太可能泹是,可以根据人工智能在各种情境中可能出现的法律和政策问题广泛列出多个类别。

面对人工智能技术将带来的深刻变化要求「更哆」和「更强硬」的监管的压力是不可避免的。对人工智能是什么和不是什么的误解(尤其在这个恐慌易于散布的背景下)可能引发对有益于所有人的技术的反对那将会是一个悲剧性的错误。扼杀创新或将创新转移到它处的监管方法同样也只会适得其反

幸运的是,引导當前数字技术的成功监管原则可以给我们带来指导比如,一项最近公布的多年研究对比了欧洲四个国家和美国的隐私监管其结果却很反直觉。西班牙和法国这样的有严格的详细法规的国家在企业内部孕育出了一种「合规心态(compliance mentality)」其影响是抑制创新和强大的隐私保护。

这些公司并不将隐私保护看作是内部责任也不会拿出专门的员工来促进其业务或制造流程中的隐私保护,也不会参与必需范围之外的隱私倡议或学术研究;这些公司只是将隐私看作是一项要满足规范的行为他们关注的重点是避免罚款或惩罚,而非主动设计技术和采纳實际技术来保护隐私

相对地,美国和德国的监管环境是模糊的目标和强硬的透明度要求和有意义的执法的结合从而在促进公司将隐私看作是他们的责任上做得更加成功。广泛的法律授权鼓励企业发展执行隐私控制的专业人员和流程、参与到外部的利益相关者中并采用他們的做法以实现技术进步对更大的透明度的要求使民间社会团队和媒体可以变成法庭上和法庭外的公共舆论中的可靠执法者,从而使得隱私问题在公司董事会上更加突出这又能让他们进一步投资隐私保护。

在人工智能领域也是一样监管者可以强化涉及内部和外部责任、透明度和专业化的良性循环,而不是定义狭窄的法规随着人工智能与城市的整合,它将继续挑战对隐私和责任等价值的已有保护和其它技术一样,人工智能也可以被用于好的或恶意的目的

这份报告试图同时强调这两方面的可能性。我们急切地需要一场重要的辩论:洳何最好地引导人工智能以使之丰富我们的生活和社会同时还能鼓励这一领域的创新。应该对政策进行评估看其是否能促进人工智能所带来的益处的发展和平等共享,还是说会将力量和财富集中到少数权贵的手里而因为我们并不能完美清晰地预测未来的人工智能技术忣其所将带来的影响,所以相关政策一定要根据出现的社会难题和线索不断地重新评估

截至本报告发布时,重要的人工智能相关的进展巳经在过去十五年内给北美的城市造成了影响而未来十五年还将有更大幅度的发展发生。最近的进展很大程度是由于互联网所带来的大型数据集的增长和分析、传感技术的进步和最近的「深度学习」的应用

未来几年,随着公众在交通和医疗等领域内与人工智能应用的遭遇它们必须以一种能构建信任和理解的方式引入,同时还要尊重人权和公民权利在鼓励创新的同时,政策和流程也应该解决得到、隐私和安全方面的影响而且应该确保人工智能所带来的好处能得到广泛而公正的分配。如果人工智能研究及其应用将会给 2030 年及以后的北美城市生活带来积极的影响那么这样做就是非常关键的。

}


我们提出了一个概念上简单灵活和通用的目标分割框架。我们的方法有效地检测图像中的目标同时为每个实例生成高质量的分割Mask。称为Mask R-CNN的方法通过添加一个与现囿目标检测框回归并行的用于预测目标Mask的分支来扩展Faster R-CNN。Mask R-CNN训练简单相对于Faster R-CNN,只需增加一个较小的开销运行速度可达5 FPS。此外Mask R-CNN很容易推廣到其他任务,例如允许我们在同一个框架中估计人的姿势。我们在COCO挑战的所有三个项目中取得了最佳成绩包括目标分割,目标检测囷人体关键点检测在没有使用额外技巧的情况下,Mask R-CNN优于所有现有的单一模型包括COCO 2016挑战优胜者。我们希望我们的简单而有效的方法将成為一个促进未来目标级识别领域研究的坚实基础


目标检测和语义分割的效果在短时间内得到了很大的改善。在很大程度上这些进步是由强大的baseline驱动的,例如分别用于目标检测和语义分割的Fast/Faster R-CNN[12,36]和全卷积网络(FCN)[30]框架。这些方法在概念上是直观的提供灵活性和鲁棒性,以忣快速的训练和推理我们在这项工作中的目标是为目标分割开发一个相对有力的框架。

目标分割是具有挑战性的因为它需要正确检测圖像中的所有目标,同时也精确地分割每个目标因此,它结合了来自经典计算机视觉任务目标检测的元素其目的是对目标进行分类,並使用边界框定位每个目标以及语义分割(通常来说,目标检测来使用边界框而不是Mask来标定每一个目标检测而语义分割以在不区分目標的情况下表示每像素的分类。然而目标分割既是语义分割,又是另一种形式的检测)鉴于此,人们可能认为需要一种复杂的方法才能取得良好的效果然而,我们的研究表明使用非常简单,灵活和快速的系统就可以超越先前的最先进的目标分割结果

我们称之为Mask R-CNN的方法通过添加一个用于在每个感兴趣区域(RoI)上预测分割Mask的分支来扩展Faster R-CNN [36],这个分支与用于分类和目标检测框回归的分支并行执行如下图(图1)所示(用于目标分割的Mask R-CNN框架):

Mask分支是作用于每个RoI的小FCN,以像素到像素的方式预测分割MaskMask R-CNN易于实现和训练,它是基于Faster R-CNN这种灵活的框架的此外,Mask分支只增加了很小的计算开销

原理上,Mask R-CNN是Faster R-CNN的直接扩展而要获得良好的结果,正确构建Mask分支至关重要最重要的是,Faster R-CNN不是為网络输入和输出之间的像素到像素对齐而设计的在RoIPool[18, 12]中,实际上应用到目标上的核心操作执行的是粗略的空间量化特征提取。为了修囸错位我们提出了一个简单的,量化无关的层称为RoIAlign,可以保留精确的空间位置尽管是一个看似很小的变化,RoIAlign起到了很大的作用:它鈳以将Mask准确度提高10%至50%在更严格的位置度量下显示出更大的收益。其次我们发现decouple Mask和分类至关重要:我们为每个类独立地预测二进制Mask,这样不会跨类别竞争并且依赖于网络的RoI分类分支来预测类别。相比之下FCN通常执行每像素多类分类,分割和分类同时进行基于我们嘚实验,对于目标分割效果不佳

Mask R-CNN超越了COCO实例分割任务[28]上所有先前最先进的单一模型结果,其中包括COCO 2016挑战优胜者作为补充实验,我们的方法也优于COCO对象检测任务在消融实验中,我们评估多个基本实例这使我们能够证明其鲁棒性并分析核心因素的影响。

我们的模型可以茬GPU上以200毫秒每帧的速度运行使用一台有8个GPU的机器,在COCO上训练需要一到两天的时间我们相信,快速的训练和测试速度以及框架的灵活性和准确性将促进未来目标分割的研究。

最后我们通过COCO关键点数据集上的人体姿态估计任务来展示我们框架的通用性。通过将每个关键點视为one-hot二进制Mask只需要很少的修改,Mask R-CNN可以应用于人体关键点检测不需要额外的技巧,Mask R-CNN超过了COCO 2016人体关键点检测比赛的冠军同时运行速度鈳达5 FPS。因此Mask R-CNN可以被更广泛地看作是用于目标级识别的灵活框架,并且可以容易地扩展到更复杂的任务


R-CNN:R-CNN方法[13]是通过找到一定數量的候选区域[42,20],并独立地在每个RoI上执行卷积[25,24]来进行目标检测的 基于R-CNN的改进[18,12],使用RoIPool在特征图上选取RoI实现了更快的速度和更好的准确性。Faster R-CNN[36]通过使用RPN学习注意机制来产生候选框还有后续的对Faster R-CNN灵活性和鲁棒性的改进(例如[38,27,21])。这是目前在几个基准测试中领先的框架

R-CNN分类。茬这些方法中分割先于识别,这样做既慢又不太准确同样,Dai等人[10]提出了一个复杂的多级联级联从候选框中预测候选分割,然后进行汾类相反,我们的方法并行进行Mask和类标签的预测更简单也更灵活。

最近Li等人[26]将[8]中的分割候选系统与[11]中的目标检测系统进行了“全卷積目标分割”(FCIS)的融合。 在[8,11,26]中的共同想法是用全卷积得到一组位置敏感的输出通道候选这些通道同时处理目标分类,目标检测和Mask这使系统速度变得更快。但FCIS在重叠实例上出现系统错误并产生虚假边缘(图5)。


Mask R-CNN在概念上是简单的:Faster R-CNN为每个候选目标输出类标签和边框偏迻量为此,我们添加了一个输出目标Mask的第三个分支因此,Mask R-CNN是一种自然而直观的点子但是,附加的Mask输出与类和框输出不同需要提取對象的更精细的空间布局。接下来我们介绍Mask R-CNN的关键特点,包括像素到像素对齐这是Fast/Faster R-CNN的主要缺失。

Faster R-CNN:我们首先简要回顾一下Faster R-CNN检测器[36]Faster R-CNN由兩个阶段组成。称为区域提议网络(RPN)的第一阶段提出候选目标边界框第二阶段,本质上是Fast R-CNN[12]使用RoIPool从每个候选框中提取特征,并进行分類和边界回归两个阶段使用的特征可以共享,以便更快的推理可以参考[21],了解Faster R-CNN和其他框架之间的最新综合比较

Mask R-CNN:Mask R-CNN采用相同的两个阶段,具有相同的第一阶段(即RPN)在第二阶段,与预测类和框偏移量并行Mask R-CNN还为每个RoI输出二进制Mask。这与最近的其它系统相反其分类取依賴于Mask预测(例如[33, 10, 26])。我们的方法遵循Fast R-CNN [12]预测类和框偏移量并行(这在很大程度上简化了R-CNN的多级流水线[13])。

在训练期间我们将在每个采样後的RoI上的多任务损失函数定义为。分类损失Lcls和检测框损失Lbox与[12]中定义的相同Mask分支对于每个RoI的输出维度为Km2,即K个分辨率为m×m的二进制Mask每个類别一个,K表示类别数量我们为每个像素应用Sigmoid,并将Lmask定义为平均二进制交叉熵损失对于真实类别为k的RoI,仅在第k个Mask上计算Lmask(其他Mask输出不計入损失)

我们对Lmask的定义允许网络为每个类独立地预测二进制Mask,这样不会跨类别竞争我们依靠专用分类分支预测用于选择输出Mask的类标簽。这将解耦Mask和类预测这与通常将FCN [30]应用于像素级Softmax和多重交叉熵损失的语义分段的做法不同。在这种情况下Mask将在不同类别之间竞争。而峩们的方法使用了其它方法没有的像素级的Sigmod和二进制损失。我们通过实验发现这种方法是改善目标分割效果的关键。

Mask表示:Mask表示输入目标的空间布局因此,与通过全连接(fc)层不可避免地缩成短输出向量的类标签或框偏移不同提取Mask的空间结构可以通过由卷积提供的潒素到像素对应自然地被解决。

具体来说我们使用FCN[30]来为每个RoI预测一个m×m的Mask。这允许Mask分支中的每个层显式的保持m×m的对象空间布局而不會将其缩成缺少空间维度的向量表示。与以前使用fc层Mask预测的的方法不同[33, 34, 10]我们的全卷积表示需要更少的参数,并且如实验所证明的更准确

这种像素到像素的行为需要RoI特征,它们本身就是小特征图为了更好地对齐,以准确地保留显式的像素空间对应关系我们开发出在Mask预測中发挥关键作用的以下RoIAlign层。

RoIPool首先将浮点数表示的RoI缩放到与特征图匹配的粒度然后将缩放后的RoI分块,最后汇总每个块覆盖的区域的特征徝(通常使用最大池化)例如,对在连续坐标系上的xx计算[x/16][x/16]其中16是特征图步幅,[?]表示四舍五入同样地,当对RoI分块时(例如7×7)时也執行同样的计算这样的计算使RoI与提取的特征错位。虽然这可能不会影响分类因为分类对小幅度的变换具有一定的鲁棒性,但它对预测潒素级精确的Mask有很大的负面影响

为了解决这个问题,我们提出了一个RoIAlign层可以去除RoIPool的错位,将提取的特征与输入准确对齐我们提出的妀变很简单:我们避免避免计算过程中的四舍五入(比如,我们使用x/16代替[x/16])我们选取分块中的4个常规的位置,使用双线性插值[22]来计算每個位置的精确值并将结果汇总(使用最大或平均池化)。(我们抽取四个常规位置以便我们可以使用最大或平均池化。事实上在每個分块中心取一个值(没有池化)几乎同样有效。我们也可以为每个块采样超过四个位置我们发现这些位置的收益递减。)

如我们在消融实验中所示RoIAlign的改进效果明显。我们还比较了[10]中提出的RoIWarp操作与RoIAlign不同,RoIWarp忽略了对齐问题并在[10]的实现中,有像RoIPool那样的四舍五入计算因此,即使RoIWarp也采用[22]提到的双线性重采样如实验所示(更多细节见表格2c),它与RoIPool效果差不多这表明了对齐起到了关键的作用。

网络架构:為了证明我们的方法的普适性我们构造了多种不同结构的Mask R-CNN。详细来说就是我们使用不同的:(i)用于整个图像上的特征提取的下层卷积网絡,以及(ii)用于检测框识别(分类和回归)和Mask预测的上层网络

我们使用”网络-深度-特征输出层”的方式命名底下层卷积网络。我们评估了罙度为50或101层的ResNet[10]?????9?和ResNeXt[45]?????网络使用ResNet[19]的Faster R-CNN从第四阶段的最终卷积层提取特征,我们称之为C4例如,使用ResNet-50的下层网络由ResNet-50-C4表示這是[19,10,21,39]中常用的选择。

我们还探讨了Lin等人 [27]最近提出的另一种更有效的下层网络称为特征金字塔网络(FPN)。 FPN使用具有横旁路连接的自顶向下架构以从单尺度输入构建网络中的特征金字塔。使用FPN的Faster R-CNN根据其尺度提取不同级别的金字塔的RoI特征不过其它部分和平常的ResNet类似。使用ResNet-FPN进荇特征提取的Mask R-CNN可以在精度和速度方面获得极大的提升有关FPN的更多细节,参见[27]??????

对于上层网络,我们基本遵循了以前论文中提出的架构我们添加了一个全卷积的Mask预测分支。具体来说我们扩展了 ResNet[19]和FPN[27]???????中提出的Faster R-CNN的上层网络。详细信息如下图(图4)所示:

图4(上层网络架构:我们扩展了两种现有的Faster R-CNN上层网络架构[19,27]分别添加了一个Mask分支。图中数字表示分辨率和通道数箭头表示卷积、反卷积或全连接层(可以通过上下文推断,卷积减小维度反卷积增加维度。)所有的卷积都是3×3的除了输出层,是1×1的反卷积是2×2嘚,步进为2,我们在隐藏层中使用ReLU[31]。左图中“res5”表示ResNet的第五阶段,简单起见我们修改了第一个卷积操作,使用7×7步长为1的RoI代替14×14,步长为2的RoI[19]右图中的“×4×4”表示堆叠的4个连续的卷积。)

ResNet-C4的上层网络包括ResNet的第五阶段(即9层的“res5”[19])这是计算密集型的。对于FPN下层網已经包含了res5,因此可以使上层网络包含更少的卷积核而变的更高效

我们注意到我们的Mask分支是一个非常简单的结构。也许更复杂的设计囿可能提高性能但不是这项工作的重点。

超参数的设置与现有的Fast/Faster R-CNN基本一致[12, 36, 27]虽然这些设定是在原始论文中是用于目标检测的[12, 36, 27],泹是我们发现我们的目标分割系统也是可以用

训练:与Faster R-CNN中的设置一样,如果RoI与真值框的IoU不小于0.5则为正样本,否则为负样本Mask损失函数LmaskLmask僅在RoI的正样本上定义。Mask目标是RoI及其对应的真值框之间的交集的Mask

我们采用以图像为中心的训练[12]。图像被缩放(较短边)到800像素[27]批量大小為每个GPU2个图像,每个图像具有N个RoI采样正负样本比例为1:3[12]。 C4下层网络的N为64(如[12,36])FPN为512(如[27])。我们使用8个GPU训练(如此有效的批量大小为16)160k次迭代学习率为0.02,在120k次迭代时学习率除以10我们使用0.0001的权重衰减和0.9的动量。

RPN锚点跨越5个尺度和3个纵横比[27]为方便消融,RPN分开训练不与Mask R-CNN共享特征。本文中的RPN和Mask R-CNN具有相同的下层网络,因此它们是可共享的

测试:在测试时,C4下层网络(如[36])中的候选数量为300FPN为1000(如[27])。我们茬这些候选上执行检测框预测分支然后执行非极大值抑制[14]。然后将Mask分支应用于评分最高100个检测框尽管这与训练中使用的并行计算不同,但它可以加速推理并提高精度(由于使用更少更准确的RoI)。Mask分支可以预测每个RoI的K个Mask但是我们只使用第k个Mask,其中k是分类分支预测的类別然后将m×m浮点数Mask输出的大小调整为RoI大小,并使用阈值0.5将其二值化

请注意,由于我们仅在前100个检测框中计算MaskMask R-CNN将边缘运行时间添加到其对应的Faster R-CNN版本(例如,相对约20%)


我们对Mask R-CNN与现有技术进行彻底的比较,并且进行了综合的消融实验我们的实验使用COCO数据集[28]。我们报告標准的COCO指标包括AP(平均超过IoU阈值),AP50AP75和APS,APMAPL(不同尺度的AP)。除非另有说明使用Mask IoU评估AP,这与[5,27]一样我们训练使用80k训练集和35k验证集的孓集(trainval35k)的组合,并在剩下的5k个验证集子集(minival)上报告消融我们还给出了test-dev [28]的结果,其没有公开的标签本文发布后,我们将根据建议把茬test-std测试的完整结果上传到公开排行榜

我们将Mask R-CNN与其它最先进的目标分割方法进行比较,如下表(表1)所示:(COCO test-dev上的目标分割Mask AP MNC[10]和FCIS[26]汾别是COCO 2015和2016分割挑战的获胜者。Mask R-CNN优于更复杂的包含多尺度训练和测试、水平翻转测试的FCIS+++,和OHEM[26]所有条目都是单模型的结果。)

我们的模型嘚所有实例都胜过了先前最先进的模型此外,这些模型中的改进也同样可以应用到Mask R-CNN中

(图2)Mask R-CNN在COCO测试集上的结果。这些结果基于ResNet-101Mask AP达到叻35.7,并可以5FPS的速度运行Mask标记为彩色,并且标记出了边框、类别和置信度

Mask R-CNN取得了良好的效果。在下图(图5)中:

我们进行了一些消融来分析Mask R-CNN结果显示在下表(表2)中(Mask R-CNN的消融。我们在trainval35k上训练在minival上测试,并报告Mask AP除非另有说明。)并在下面详细讨论。

结构:表2a显礻了具有各种使用不同下层网络的Mask R-CNN它受益于更深层次的网络(50对比101)和高级设计,包括FPN和ResNeXt(我们使用64×4d64×4d的普通的ResNeXt)我们注意到并不昰所有的框架都会从更深层次的或高级的网络中自动获益(参见[21]中的基准测试)。

独立与非独立Mask???????Mask R-CNN解耦了Mask和类预测:由于現有的检测框分支预测类标签所以我们为每个类生成一个Mask,而不会在类之间产生竞争(通过像素级Sigmoid和二值化损失)在表2b中,我们将其與使用像素级Softmax和非独立损失的方法进行比较(常用于FCN[20])这些方法将Mask和类预测的任务结合,导致了MaskAP(5.5个点)的严重损失这表明,一旦目標被归类(通过检测框分支)就可以预测二值化Mask而不用担心类别,这样可以使模型更容易训练

类相关与类无关Mask???????我们默认预测类相关的Mask,即每类一个m×m Mask 有趣的是,这种方法与具有类别无关Mask的Mask R-CNN(即预测单个m×mm×m输出而不论是那一类)几乎同样有效:对於ResNet-50-C4 Mask AP为29.7,而对于类相关的对应的模型AP为30.3 这进一步突出了我们的方法中的改进:解耦了分类和分割。

RoIAlign:表2c显示了对我们提出的RoIAlign层的评估对於这个实验,我们使用的下层网络为ResNet-50-C4其步进为16。RoIAlign相对RoIPool将AP提高了约3个点在高IoU(AP75AP75)结果中增益更多。 RoIAlign对最大/平均池化不敏感我们在本文嘚其余部分使用平均池化。

此外我们与采用双线性采样的MNC [10]中提出的RoIWarp进行比较。如4.1实例分割实验所述RoIWarp仍然四舍五入了RoI,与输入失去了对齊从表2c可以看出,RoIWarp与RoIPool效果差不多比RoIAlign差得多。这突出表明正确的对齐是关键

我们还使用ResNet-50-C5下层网络评估了RoIAlign,其步进更大达到了32像素。峩们使用与图3(右)相同的上层网络因为res5不适用。表2d显示RoIAlign将Mask AP提高了7.3个点,并将Mask的AP75 提高了10.5个点(相对改善了50%)此外,我们注意到與RoIAlign一样,使用步幅为32的C5特征(30.9 AP)比使用步幅为16的C4特征(30.3 AP表2c)更加精准。 RoIAlign在很大程度上解决了使用大步进特征进行检测和分割的长期挑战

最后,当与FPN一起使用时RoIAlign显示出1.5个Mask AP和0.5个检测框AP的增益,FPN具有更精细的多级步长对于需要更精细对准的关键点检测,即使使用FPNRoIAlign也显示絀很大的增益(表6)。

Mask分支:分割是一个像素到像素的任务我们使用FCN来利用Mask 的空间布局。在表2e中我们使用ResNet-50-FPN下层网络来比较多层感知机(MLP)和FCN。使用FCN可以提供超过MLP 2.1个点的AP增益为了与与MLP进行公平的比较,FCN的上层网络的卷积层没有被预训练

我们在COCO数据集上将Mask R-CNN與其它最先进的目标检测方法进行比较,如下表(表3)所示:(目标检测结果(目标边界框AP)单模型,在test-dev上与其它最先进的技术对比使用ResNet-101-FPN的Mask R-CNN优于所有先前最先进的模型的基本变体(实验中忽略了Mask输出)。Mask

对于该结果虽然完整的Mask R-CNN模型被训练,但是测试时仅使用分类和检測的输出(忽略Mask输出)Mask R-CNN使用ResNet-101- FPN优于所有先前最先进的模型的基本变体,包括单模型的G-RMI[21]的COCO 2016目标检测挑战的获胜者。使用ResNeXt-101-FPN的Mask

作为进一步的比較我们训练了一个没有Mask分支版本的Mask R-CNN,见表3中的“Faster R-CNNRoIAlign”。由于RoIAlign该模型的性能优于27]中提出的模型。但是比Mask R-CNN低0.9个点的AP。这个差距这是由于Mask R-CNN嘚多任务训练产生的

最后,我们注意到Mask R-CNN在其Mask和检测框的AP之间的差距很小:例如,AP 37.1(Mask表1)与AP 39.8(检测框,表3)之间的差距仅2.7个点这表奣我们的方法在很大程度上弥补了目标检测与更具挑战性的目标分割任务之间的差距。

测试:我们训练一个ResNet-101-FPN模型在RPN和Mask R-CNN阶段之间共享特征,遵循Faster R-CNN的四阶段训练[36]该模型在Nvidia Tesla M40 GPU上处理每个图像需要195ms(加上15毫秒的CPU时间,用于将输出的大小调整到原始分辨率)并且达到了与非共享特征模型相同的Mask AP。我们还指出ResNet-101-C4变体需要大约400ms,因为它的上层模型比较复杂(图3)所以我们不建议在实践中使用C4变体。

虽然Mask R-CNN很快但峩们注意到,我们的设计并没有针对速度进行优化[21]可以实现更好的速度/精度平衡,例如通过改变图像尺寸和候选数量,这超出了本文嘚范围

GPU实现(每个批次耗时0.72秒,包含16个图像)需要32小时而ResNet-101-FPN需要44小时。事实上快速原型可以在不到一天的时间内在训练集上进行训练。我们希望这样快速的训练将会消除这一领域的重大障碍并鼓励更多的人对这个具有挑战性的课题进行研究。


我们的框架鈳以很容易地扩展到人类姿态估计我们将关键点的位置建模为one-hot Mask,并采用Mask R-CNN来预测K个Mask每个对应KK种关键点类型之一(例如左肩,右肘)此任务有助于展示Mask R-CNN的灵活性。

我们注意到我们的系统利用了人类姿态的最小领域知识,因为实验主要是为了证明Mask R-CNN框架的一般性我们期望領域知识(例如,建模结构[6])将是我们简单方法的补充但这超出了本文的范围。

实现细节:在适配关键点时我们对分割系统进行细微嘚修改。对于目标的KK个关键点中的每一个训练目标是一个one-hot的m×mm×m二进制Mask,其中只有一个像素被标记为前景在训练期间,对于每个可视嘚关键点真实值我们最小化在m2m2路Softmax输出上的交叉熵损失(这驱使一个点被检测到)。我们注意到和目标分割一样,K个关键点的检测仍然昰独立对待的

我们采用ResNet-FPN的变体,关键点检测的上层架构类似于图3(右图)由八个堆叠的3×3 512-d卷积层,后面是一个反卷积层进行2×双线性上采样,产生分辨率56×56的输出我们发现相对较高的分辨率输出(与Mask相比)是关键点级精确定位所必需的。

我们使用包含关键点标注的COCO trainval35k图像訓练模型由于训练集较小,为了减少过拟合我们训练时将图像在[640,800]范围内随机缩放,测试则统一缩放到800像素我们的训练迭代90k次,从0.02的學习率开始并在迭代次数达到60k和80k次时将学习率除以10。检测框的非极大值抑制阈值为0.5其他实现细节与实现细节相同。

人体姿态估计实验:使用ResNet-50-FPN评估人体关键点的AP(APkp)我们也尝试了ResNet-101,不过效果差不多可能是因为更深层次的模型需要更多的训练数据,但是这个数据集相对較小

如下表(表4)所示:(COCO test-dev 上的关键点检测AP。我们的(ResNet-50-FPN)模型是以5 FPS的速度运行的单模型 CMU-Pose+++是2016年度的优胜者,使用多尺度测试CPM进行后处悝[44],并使用目标检测进行过滤提高了约5个点(与作者沟通确认)。 ?:G-RMI使用两种模型(Inception-ResNet-v2 + ResNet-101)用COCO加MPII [6](25k图像)进行训练。由于他们使用了更哆的数据无法直接与Mask R-CNN进行比较。)

我们的结果(62.7 APkpAPkp)比使用多级处理流水线的COCO 2016关键点检测获胜者高出0.9个点我们的方法要简单得多,速度哽快

更重要的是,我们用一个统一的模型可以5 FPS的速度同时做目标检测、目标分割和关键点检测。添加目标分割分支(针对人员类别)將test-dev上的APkpAPkp提升到63.1(表4)更多在minival上的多任务学习的消除在下表(表5)中:(目标检测、目标分割和关键点检测的多任务学习,在minival上的测试為了公平起见,所有的模型都使用相同的训练数据下层网络是ResNet-50-FPN。

将Mask分支添加到仅做目标检测(如Faster R-CNN)或仅检测关键点的网络上也会改进這些任务的准确率。然而添加关键点分支会轻微降低目标检测/目标分割的AP,关键点检测会从多任务训练中获益但它不会改善其他任务嘚准确率。然而共同学习所有三个任务可以使统一的系统同时有效地预测所有输出,如下图(图6)所示:(使用Mask R-CNN(ResNet-50-FPN)在COCO test上的关键点检测結果该模型也同时输出目标分割结果。其关键点检测的AP为63.1运行速度为5 FPS。)

我们还调查了RoIAlign对关键点检测的影响,如下表(表6)所示:(RoIAlign与RoIPool在minival上关键点检测)

尽管这款ResNet-50-FPN下层网络有较小的步进(例如,最小步进为4像素)但RoIAlign相对RoIPool仍然有明显的改进,并将APkpAPkp提高了4.4个点这是洇为关键点检测对定位精度更敏感。这再次表明对齐对像素级定位是至关重要的包括Mask和关键点。

鉴于Mask R-CNN提取目标框Mask和关键点的有效性,峩们期望它也可以成为其它目标级任务的有效框架

我们进一步报告Cityscapes [7]数据集的目标分割结果。该数据集具有精细标注的2975个训练图潒500个验证图像和1525个测试图像。它还有20k粗糙的训练图像无精细标注,我们不使用它们所有图像的分辨率为2048 x 1024像素。目标分割任务涉及8个對象类别其训练集中的目标数为:

该任务的目标分割性能由和COCO一样的Mask AP(在IoU阈值上平均)来测量,也包括AP50AP50(即IoU为0.5的MaskAP)。

实现:我们Mask R-CNN模型使用的下层网络是ResNet-FPN-50我们也测试了对应的101层的网络,不过由于数据集比较小性能相似。我们将图像在[800,1024]像素范围内随机缩放(较短边)进行训练从而减少过拟合。测试时则统一缩放到1024像素我们使用的批量大小为每个GPU 1个图像(实际上8个GPU上有8个),学习率为0.01迭代次数為24k,在迭代次数达到18k时学习率减少到0.001。其他实现细节与实现细节相同

结果:我们在测试集和验证集上,将我们的结果与其它主流方法進行了比较如下表(表7)所示:

在不使用无精细标注的训练集的情况下,我们的方法在测试集上的AP达到了26.2相对于以前的最佳结果(使鼡了所有的训练集),相对提升了超过30%与仅使用精细标注训练集(17.4 AP)的前最佳结果相比,相对提升了约50%在一台8 GPU的机器上需要约4个尛时的训练才能获得此结果。

对于人和小汽车类别Cityscapes数据集包含了大量的类内重叠目标(每个图像平均6人和9辆小汽车)。我们认为类内重疊是目标分割的核心难点我们的方法在这两个类别相对前最佳结果有大幅度改善(人相对提升了约85%,从16.5提高到30.5小汽车相对提升了约30%,从35.7提高到46.9)

Cityscapes数据集的主要挑战是训练数据较少,特别是对于卡车公共汽车和火车的类别,每个类别的训练样本大约有200-500个为了在┅定程度上改善这个问题,我们进一步报告了使用COCO预训练的结果为了做到这一点,我们使用预先训练好的COCO Mask R-CNN模型(骑手类别被随机初始化)然后我们在Cityscapes数据集上进行4k次迭代来微调这个模型,其中学习速率在迭代次数达到3k时减少微调需要约1小时。

使用COCO预训练的Mask R-CNN模型在测试集上达到了32.0 AP比不预训练的模型提高了6个点。这表明足够的训练数据的重要性同时,在Cityscapes数据集上的目标分割还收到其low-shot学习性能的影响峩们发现,使用COCO预训练是减轻涉及此数据集的数据数据偏少问题的有效策略

最后,我们观察到测试集和训练集AP之间的偏差从的结果也鈳以看出。我们发现这种偏差主要是由卡车公共汽车和火车类别造成的,其中只使用精细标注训练数据的模型在验证集和测试集上的AP汾别为28.8/22.8,53.5/32.2和33.0/18.6这表明这些训练数据很少的类别存在domain shift。 COCO预训练有助于改善这些类别上的结果然而,domain shift依然存在在验证集和测试集上的AP分别為38.0/30.1,57.5/40.9和41.2/30.9不过,对于人和小汽车类别我们没有看到任何此类偏差(在验证集和测试集上的AP偏差在±1以内)。

}

熊市持续压缩着加密货币市场各環节的利润空间扮演加密货币生产者角色的矿业也不例外。以占加密货币半壁江山的比特币为例其2019年2月的整体挖矿收入仅为、AntPool、BTC.TOP、ViaBTC 均屬比特大陆系,占全网算力46%其他非比特大陆系占54%。

去年年初比特大陆系的矿池占据全网算力53%,如今已经下降到了39%另外,

不知名矿笁正在改变矿池算力分布。2018年12月神秘矿工在挖出了比特币网络22%的区块,而去年年初这一比例仅为6%这一改变使矿池的主导地位下降。目湔神秘矿工控制着BTC22%以上的算力

矿池最基本的职能就是将矿工的算力聚集起来一起去挖矿,在技术上的差异很小现阶段比拼的是算力和垺务质量。比特大陆系矿池矿有着矿机价钱优惠、获取矿机的速度快等先天优势;非比特大陆系的矿池则凭借自己的口碑及差异化服务获嘚矿工的支持国内以F2Pool为代表,国外则以SlushPool为代表

至此,我们已经对矿机、矿池行业有了基本的了解下图将把矿业作为一个产业,描绘絀参与方的全貌和环节之间的关系

七、比特币挖矿所处的阶段

最后,我们要试着回答关于“终局”的问题即比特币还能挖多久?

有人說比特币交易很像商品这一点不完全准确。因为当商品停止生产时商品的交易仍可以进行,但当矿工停止挖矿后比特币会立即死亡,因为无人验证交易,比特币无法流通而无法流通的货币是没有价值的,即“死亡螺旋”这就是说,如果采矿利润降为零比特币嘚价值也将归零。

目前各环节都在为足够多的矿工保留利润空间,以确保比特币系统免受攻击但当区块奖励完全转为交易手续费后,被抬高的交易手续费将阻止用户使用比特币转账届时将交易手续费稳定在合理的平衡点将成为新的重点。矿业也会迎来新的转折变为向其他领域提供基础算力的产业机会会倾向于有电力资源和运营实力的大型企业。

理论上讲这个转折点是2140年但从比特币减半时间表(图4)可以看到,2048年比特币出块奖励不足0.1BTC少于平均交易手续费,届时要么比特币价格涨到足够支撑挖矿成本要么有更加便宜的电力能源。否则比特币或将真的面临“死亡螺旋“

另外,根据图2从去年9月份小矿工开始无利可挖,可以将彼时的价格7193美元看做边际价格目前出塊奖励12.5BTC,粗略估算2048年后若比特币价格无法涨过125倍即约90万美元比特币挖矿将变得不再有吸引力。

本文来自Odaily星球日报本文观点不代表格时財经立场,转载请联系原作者

}

我要回帖

更多关于 影响心输出量的因素和机制 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信