叮咚赚按上咋打不开那？

点击联系发帖人 时间：2022-05-04 10:08

最快赚钱的软件

用 10 周时间，让你从 TensorFlow 基础入门，到搭建 CNN、自编码、RNN、GAN 等模型，并最终掌握开发的实战技能。4 月线上开课，www.mooc.ai 现已开放预约。

雷锋网按：讯飞董事长刘庆峰在今年两会上说：“我们做了一个叮咚音箱，在京东这个平台上，销量排名不光是第一，还超过了第二名到第十名的总和，但它的影响力跟亚马逊相比，差距还挺大，我们在这个产品还没有树立讯飞在行业中这么大的名气。”换句话说，Amazon Echo 碾压的不是某个厂商，而是整个行业。

今年年初，亚马逊宣布 Alexa 语音助手平台已经拥有超过 10000 项 “技能”，相比去年同期，增长了近百倍。用户已经开始议论哪个 “技能” 更好用，甚至还有列出了最受欢迎的 “技能” 排行榜。

此情景，像极了当年拉开移动互联网序幕的 APP Store。

根据 CIRP 报告，截止到 2017 年 1 月，Amazon Echo 用户已达到 820 万。同时，几乎所有国外 IT 巨头都相继进入了这个市场。人们纷纷猜测，在 Amazon Echo 暂未入华的这段空窗期，谁最有可能复制同样的成功。

带着这个问题，雷锋网采访了科大讯飞灵犀事业部总监马啸。他多次强调，讯飞是一家以技术见长的公司，在语音交互并未全面爆发道阻且长的背景下，他们不会追求大而全，而会向垂直场景渗透。

以下是马啸采访实录，雷锋网做了不改变原意的删减：

雷锋网：每个语音助手都说自己的识别率是最高的，难道行业没有明确的测量标准吗？

马啸：有一些行业标准，但也要分不同的环境来讨论。比如在实验室环境下、在安静环境下、在有噪音环境下测量出来的识别率是不同的。讯飞在实验室环境下 99% 以上都能做到，锤子发布会上的识别率是 97%，车机系统上能够达到 90% 以上，识别率跟场景、噪声、口音等都有关系。

其实不管识别率如何，语音助手的好坏还是要回归到用户体验本身，大家心里都有一个判断标准：

如果只是闲聊一下，那么它的商业价值并不是很高的。

雷锋网：为什么不同的讯飞产品在识别率上有很大差别？

马啸：这要分三个方面讲。

第一个是面向场景的优化，这个有专门的语音模型。面向领域的比如演讲、聊天，面向场景的比如车载、会议以及手机近场说话的语音模型都是不尽相同的，演讲、聊天以及对着手机说话的语音模型都是不尽相同的，发布会上的那套系统就有面向会议的场景优化。

第二个硬件降噪。手机的降噪能力是比较弱的。而讯飞听见那套系统下面有好几个麦，各个角度，我们有声学实验室专门研究这个。

手机上在远场的识别率不如记录会议时那么高，原因就在硬件这，手机上并没有面向远场识别

的麦克风阵列，手机厂商考虑到成本一时半会是不会加的，这在产业方面的改变是要有一个过程的，随着我们把一些麦克风降噪的技术和产品标准输出出去，行业里逐步认可这个标准，才能更加的支持我们。但是这个改变又是非常困难的。不过我感觉这是个趋势，以后会慢慢好起来。

第三个是软降噪，也就是算法本身可以回声消除。虽然我们可以将软件放到不同的硬件里，但是也受制于硬件的处理能力。比如说一个非常低廉的麦克，后面没有一个 MCU，这个时候在跟它对话的时候，它只能把音不作处理的传过来，如果没有处理芯片的话，有可能效果就不好，这是很正常的。

雷锋网：讯飞里提供语音服务的各个产品团队在人员配置上有交集吗？

马啸：讯飞听见、灵犀语音助手、录音宝这些产品都有各自的硬件团队，但底层算法方面的技术都是讯飞研究院提供的，出产品的时候，业务部门都跟后端的研究院有紧密协作的关系。

雷锋网：能否评估一下 Alexa 的中文识别水平？

马啸：现在大部分语音识别都基于深度神经网络，它需要大量的数据来训练，还有面向不同语言的针对性算法优化和语义后处理技术，中文的多音字较多和容易产生歧义的语句也很多，还有方言等等。所以，中文跟英文识别还是有所区别，针对中文，还需要做很多优化。

所以这里有两点，一个是谁更了解中文，在算法调教上就有一定的优势；一个是谁占有更多的语料谁就能识别的更精准。讯飞在这两方面都是有很大优势的。

但是现在深度神经网络已经可以保证识别率在 80%~90% 了，这现在是及格线，以前如果没有深度神经网络，没有海量语料积累的话，连 60% 都做不上去。所以现在你要问 Alexa 做普通话的识别怎么样，因为他们中文产品还没有上市，所以不太好评价，但总体来看他们也做好也是有难度的。

雷锋网：语音助手打不开相关 APP，这个是技术问题还是商业问题？

马啸：就是没打透，这是商业问题。为什么在垂直领域的接入会出现这样的问题，我认为这是 all in one 和 one in all 之争。

比如地图吧，高德和百度都使用我的语音能力，这是 one in all，就是我的语音 in all 所有的 app，我们把语音能力给他们，去壮大他们的客户端，这符合那些垂直领域公司的估值模型和商业诉求。

第二个是 all in one，就是所有的服务在语音助手上面呈现，all in one 相当于对他们来讲是渠道，给他导流就好了，有些公司愿意被导流，有些公司不愿意被导流。

雷锋网：在做智能音箱的过程中，讯飞的主要考量是什么？

马啸：音箱要看它的主要功能是什么，如果就是放音乐的话，不考虑政策方面的因素，Amazon 只需要把版权这件事情做好就行了。但如果要想提供一个智能入口服务的话，实际上路还很长。因为相比海外，中国的互联网又是一套生态系统。比如说如果出门要叫一辆车的话，在海外它对接的是 Uber，在国内它就要和滴滴来谈，相当于重新开始。

其实这个困难对于讯飞来说也是同样的，所以我们一直也在反思，智能助手到底该怎么做？我们思考得到了一些心得，那就是做大而全的事情目前来看是没有意义的。

现在中国的互联网市场，点评、出行，每个都是大公司，他们凭什么分享自己的数据？除非是给他导流，但这又会影响到用户体验。所以我个人觉得我们应该走到垂直领域去做事情。

雷锋网：用户认为语音助手是全能的，但如果它却只能叫车，不能点餐，会不会让他们很失望？

马啸：这是我们一直在考虑的问题。这是个博弈，与其让用户失望，还不如一开始就让用户觉得你就是在某一个垂直领域做的很出色，然后再逐渐扩展领域，也可以把功能开放给开发者，让群体来贡献智能。

雷锋网：你们认为语音助手落地的最佳方式是什么？

马啸：我觉得一定要分不同的场景。“互联网女王”Mary Meeker 在 2016 年的报告里面有一大篇幅都讲语音，她说美国人是在什么场景下使用语音的，最主要的前三个场景是车、家庭和 on the go。我的理解 on the go 就是在走路，或者是跑步。

语音的信息传递是单向的，并且效率低。但是语音的命令是快的，打开引擎，说把电话号码发给谁，这个东西对手机立马就操控出去了。

这就造成了语音仅在弱视觉交互的情况下是刚需。什么是弱视觉交互？比如做饭，开车，跑步，这种场景下语音才是真正的刚需。

再回到问题，未来到底落地方式是电视还是音箱，我觉得都不重要，未来在家里面应该有一个东西去承载语音，甚至它不存在都可以，把家里全部布上麦克风是不是就可以了？

当然如果现阶段只能落地一个场景，那么音箱是个好的选择。它可以放在一个比较自由的位置上。

雷锋网：你们认为未来成熟的语音助手是个什么样的状态，目前的规划是什么？

马啸：我们的判断就一句话：每个人都有一个能理解他的随身智能助手，不是人，是个机器人，或者别的形态，无所谓。这个目标该怎么达成？我认为几个条件。

第一，要充分理解用户，这是自然语言理解等人工智能技术要解决的问题。

第二，用户所说的所有服务我能跟得上，这是资源对接的问题。

第三，用户所有的信息我都能够知道，这是用户画像的问题。

第四，云 + 端，形态无所谓，音箱也好、电视也好，这是服务形态的问题

这个战略终局现阶段是看不到的，也许未来技术达到一个阈值以后才可以。那回到现在该怎么办？我认为要回到确定的场景，就是车载、家庭、戴着耳机 on the go，这样的话，技术难度就大大缩小。我觉得这个阶段是我们通过投入更多的人力、物力可以做到落地的。

}

由于某些原因，看看集也舍弃了APP端。今天本想登录看看集做下任务的，打开APP发现提示“请求无响应！可能是无网络连接”。去问了客服才知道app停止运营了，现在只保留一个专注投投任务的网页端，看看集老用户的数量都还在，只是以后只有投票任务可做了。

看看集打不开的收藏一下这个入口，以后我也会经常更新的。

喜欢做投票任务的可以留意这个平台，他们家已经运行很久了，还算是比较稳定的。

投投单价0.04-0.2，1元起提现秒到账。

每天做100个任务可拿到10元左右。

}

天天发财游戏网