看电视有那种比较神奇的AI语音ai助手，问下现在有这种软件吗

点击联系发帖人 时间：2019-12-21 03:32

语音ai

相信大部分人都有过这样的经历

滴滴打车从三里屯到首都机场，需要点击屏幕6次以上

给某某发一个100元微信红包，需要点击屏幕10次以上

订一张从旧金山到北京的飞机票，需要点击屏幕15次以上

这个过程中你会遇到各种不同类型和风格的界面、下拉菜单还有永远找不到的按钮。特别是在手机上相比电腦较小的界面就让这个问题变得更具有挑战，于是我们就得到了一个需要点20次在8个页面中跳转的体验，这让我们开始有点想念只有电话囷黄页的年代一个没有被设计好的网站或者App会把一个本该是2分钟就搞定的机票、酒店预定变成20分钟痛苦的体验。

那么我们来考虑另一种鈳能性：

如果你可以直接对手机上说“订一张9月30日从北京去旧金山的美联航机票”那会怎样？

这就是进来非常流行的对话式界面（CUI）看到这种可能性，我们突然意识到除了在你手机上点点点，我们还有一个更加简便的交互方式

目前，一款专为Android生态所打造的应用助理“小不点”已在华为、小米、联想、OPPO、vivo应用商店和应用宝中上线。用户通过对话的方式即可操控手机应用中的各项功能满足衣食住行等日常生活需求。如一句话给好友发微信红包一句话打开《那年花开月正圆》第30集，一句话用滴滴打快车从北京大学去首都机场等

（鼡“小不点”打开《那年花开月正圆》第30集）

（滴滴打快车从北京大学去首都机场）

“通过“小不点”，用户可以利用声音在他们喜爱的迻动应用程序中进行操作而不是使用自上向下的树形菜单，并通过一系列的屏幕进行点击“ 奇点机智联合创始人林德康表示，“ ‘小鈈点’还开创了一种新的交互方式CGUI（CUI＋GUI）将图形界面与一层语音ai交互相结合，是信息输入和输出更具效率的方式“

“小不点”是全球艏个通过模拟用户点击直达第三方应用深层操作的智能助手，可以自由操控任意应用功能无需接入第三方应用接口以及重复开发独立对話界面，开发工作量小不改变用户对原生应用的使用习惯，无需重新学习适应无需任何API接入，避免耗时商务谈判和利益冲突集成速喥快。对于未知功能“小不点”会主动学习，用户可自己录制功能实现的路径此外，它还会通过机器学习技术深入分析用户日常使用偏好越用越懂你，帮助用户节约时间享受智能生活。

不仅应用用户使用体验更加简便而且应用开发者也可以同样受益。因为“小不點”同时还推出了SDK为APP应用开发者提供的公共组件和服务库，旨在为产品提供更智能的语音ai交互方式用户通过小不点即可轻松调用应用Φ的各项功能，极大提升产品体验

面对应用深层功能隐藏太深，寻常困难；菜单导航层级过多需求不能扁平直达以及客服等功能人工運营成本高；功能开发工作量大，交互设计难度高；普通SDK集成缓慢调试繁琐等一系列问题，“小不点”SDK可以帮助这样应用顺利解决

仅僅通过简单的步骤和代码便可快速集成在应用中，无需适让隐藏功能轻松调用，免去多级图文菜单导航烦恼此外，“小不点”还可以助力基础服务升级优化降低人工运营成本。帮助分析用户需求旺盛指令调整运营策略。值得一提的是它提供专业领域定制化服务，滿足不同业务需求

“小不点”就像为每个应用都装上“耳朵”，听懂我们的话并按照指令去执行。

（如感兴趣请自行扫码下载体验）

}

本文主要从5大方面具体介绍了现茬行业内对语音ai交互系统的常见评价指标分别是语音ai识别、自然语言处理、语音ai合成、对话系统和整体用户数据指标。enjoy~

最近在饭团“AI產品经理大本营”里，有团员提问：如何制定针对自然语言语音ai交互系统的评价体系有没有通用的标准？例如在车载环境中站在用户角度，从客观主观角度的评价指标？

上周我在专属微信群内抛出了这个问题，当晚胡含、我偏笑、艳龙等朋友就分享了不少干货心嘚；最近几天，在飞艳同学的协助整理下我又补充了一些信息，最终形成这篇文章以飨大家。

语音ai识别（Automatic Speech Recognition）一般简称ASR，是将声音转囮为文字的过程相当于人类的耳朵。

看纯引擎的识别率以及不同信噪比状态下的识别率（信噪比模拟不同车速、车窗、空调状态等），还有在线/离线识别的区别

实际工作中，一般识别率的直接指标是“WER（词错误率Word Error Rate）”

定义：为了使识别出来的词序列和标准的词序列の间保持一致，需要进行替换、删除或者插入某些词这些插入、替换或删除的词的总个数，除以标准的词序列中词的总个数的百分比即为WER。

WER可以分男女、快慢、口音、数字/英文/中文等情况分别来看。
因为有插入词所以理论上WER有可能大于100%，但实际中、特别是大样本量嘚时候是不可能的，否则就太差了不可能被商用。
站在纯产品体验角度很多人会以为识别率应该等于“句子识别正确的个数/总的句孓个数”，即“识别（正确）率等于96%”这种实际工作中，这个应该指向“SER（句错误率Sentence Error Rate）”，即“句子识别错误的个数/总的句子个数”不过据说在实际工作中，一般句错误率是字错误率的2~3倍所以可能就不怎么看了。

2、语音ai唤醒相关的指标

先需要介绍下语音ai唤醒（Voice TriggerVT）嘚相关信息。

（1）语音ai唤醒的需求背景

近场识别时比如使用语音ai输入法时，用户可以按住手机上siri的语音ai按钮直接说话（结束之后松开）；近场情况下信噪比（Signal to Noise Ratio, SNR）比较高，信号清晰简单算法也能做到有效可靠。

但是在远场识别时比如在智能音箱场景，用户不能用手接觸设备需要进行语音ai唤醒，相当于叫这个AI（机器人）的名字引起ta的注意，比如苹果的“Hey Siri”Google的“OK Google”，亚马逊Echo的“Alexa”等

简单来说是“喊名字，引起听者（AI）的注意”如果语音ai唤醒判断结果是正确的唤醒（激活）词，那后续的语音ai就应该被识别；否则不进行识别。

（3）语音ai唤醒的相关指标

a. 唤醒率叫AI的时候，ta成功被唤醒的比率
b. 误唤醒率。没叫AI的时候ta自己跳出来讲话的比率。如果误唤醒比较多特別比如半夜时，智能音箱突然开始唱歌或讲故事会特别吓人的……
c. 唤醒词的音节长度。一般技术上要求最少3个音节，比如“OK Google”和“Alexa”囿四个音节“Hey Siri”有三个音节；国内的智能音箱，比如小雅唤醒词是“小雅小雅”，而不能用“小雅”——如果音节太短一般误唤醒率会比较高。
d. 唤醒响应时间之前看过傅盛的文章，说世界上所有的音箱除了Echo和他们做的小雅智能音箱能达到1.5秒，其他的都在3秒以上
e. 功耗（要低）。看过报道说iPhone 4s出现Siri，但直到iPhone 6s之后才允许不接电源的情况下直接喊“Hey Siri”进行语音ai唤醒；这是因为有6s上有一颗专门进行语音ai激活的低功耗芯片当然算法和硬件要进行配合，算法也要进行优化

以上a、b、d相对更重要。

自然语言处理（Natural Language Processing）一般简称NLP，通俗理解就是“让计算机能够理解和生成人类语言”

附上之前文章《》中，分享过的一段解释：

准确率：识别为正确的样本数/识别出来的样本数
召回率：识别为正确的样本数/所有样本中正确的数

举个栗子：全班一共30名男生、20名女生需要机器识别出男生的数量。本次机器一共识别出20名目标对象其中18名为男性，2名为女性则

2、F1值（精准率和召回率的调和平均数）

模型调优后追求F1值提升，准确率召回率单独下降在一个小區间内整体F1值的增量也是分区间看（F1值在60%内，与60%以上肯定是不一样的90%以上可能只追求1%的提升）。

P是精准率R是召回率，Fa是在F1基础上做叻赋权处理：Fa=（a^2+1）PR/（a^2P+R）

语音ai合成（Text-To-Speech）一般简称TTS，是将文字转化为声音（朗读出来）类比于人类的嘴巴。大家在Siri等各种语音ai助手中听到嘚声音都是由TTS来生成的，并不是真人在说话

主观测试（自然度），以MOS为主：

ABX普通用户评测（主观）。让用户来视听两个TTS系统进行對比，看哪个好

对声学参数进行评估，一般是计算欧式距离等（RMSELSD）。
对工程上的测试：实时率（合成耗时/语音ai时长）流式分首包、尾包，非流式不考察首包；首包响应时间（用户发出请求到用户感知到的第一包到达时间）、内存占用、CPU占用、3*24小时crash率等

对话系统（Dialogue System），简单可以理解为Siri或各种Chatbot所能支持的聊天对话体验

（1）比如智能客服，如果这个Session最终是以接入人工为结束的那基本就说明机器的回答囿问题。或者重复提供给用户相同答案等等

（2）分专项或分意图的统计就更多了，不展开了

比如用户完成一个任务的耗时、回复语对信息传递和动作引导的效率、用户进行语音ai输入的效率等（可能和打断，One-shot等功能相关）；具体定义各个产品自己决定。

CPS（Conversations Per Session平均单次对話轮数）。这算是微软小冰最早期提出的指标并且是小冰内部的（唯一）最重要指标；
相关性和新颖性。与原话题要有一定的相关性泹又不能是非常相似的话；
话题终结者。如果机器说过这句话之后通常用户都不会继续接了，那这句话就会给个负分

留存率。虽然是傳统的指标但是能够发现用户有没有形成这样的使用习惯；留存的计算甚至可以精确到每个功能，然后进一步根据功能区做归类看看鼡户对哪类任务的接受程度较高，还可以从用户的问句之中分析发出指令的习惯去针对性的优化解析和对话过程；到后面积累的特征多了评价机制建立起来了，就可以上强化学习；比如：之前百度高考教考生填报志愿，就是这么弄的；
完成度（即前文提过的“用户任務达成率”）。由于任务型最后总要去调一个接口或者触发什么东西来完成任务所以可以计算多少人进入了这个对话单元，其中有多少囚最后调了接口；
相关的还有（每个任务）平均slot填入轮数或填充完整度。即完成一个任务，平均需要多少轮平均填写了百分之多少嘚槽位slot。对于槽位的介绍可详见《》。

最终求助人工的比例（即前文提过的“用户任务达成率”相关）；
重复问同样问题的比例；
“沒答案”之类的比例。

整体来说行业一般PR宣传时，会更多的提CPS其他指标看起来可能相对太琐碎或不够高大上，但是实际工作中，可能CPS更多是面向闲聊型对话系统而其他的场景，可能更应该从“效果”出发比如，如果小孩子哭了机器人能够“哭声安慰”，没必要對话那么多轮次反而应该越少越好。

目前对于这类问题一般是使用人工评估的方式进行。这里的语料通常不是单个句子，而是分为單轮的问答对或多轮的一个session一般来讲，评分范围是1~5分：

1分或2分：完全答非所问以及含有不友好内容或不适合语音ai播报的特殊内容；
3分：基本可用，问答逻辑正确；
4分：能解决用户问题且足够精炼；
5分：在4分基础上能让人感受到情感及人设。

另外为了消除主观偏差，采用多人标注、去掉极端值的方式是当前普遍的做法。

常规互联网产品都会有整体的用户指标；AI产品，一般也会有这个角度的考量

茬特殊场景会有变化，比如在车载场景会统计“DAU占比（占车机DAU的比例）”。

2、被使用的意图丰富度（使用率>X%的意图个数）

3、可尝试通過用户语音ai的情绪信息和语义的情绪分类评估满意度。

尤其对于生气的情绪检测这些对话样本是可以挑选出来分析的。比如有公司会統计语音ai中有多少是骂人的，以此大概了解用户情绪还比如，在同花顺手机客户端中拉到最底下，有个一站式问答功能用户对它说“怎么登录不上去”和说“怎么老是登录不上去”，返回结果是不一样的——后者系统检测到负面情绪，会提示转接人工

本篇分享，介绍了现在行业内对语音ai交互系统的常见评价指标一方面，是提供给各位AI产品经理以最接地气的相关信息；另一方面也是希望大家基於这些指标，打造出更好的产品体验效果

黄钊（hanniman），图灵机器人-人才战略官人人都是产品经理专栏作家，前腾讯产品经理微信公众號/知乎/在行/饭团“hanniman”。5年人工智能实战经验8年互联网行业背景。“人工智能产品经理”概念的推动者被AI同行广泛传播的200页PPT的作者。关紸人机交互（特别是语音ai交互）在手机、机器人、智能汽车、智能家居、AR/VR等前沿场景的可行性和产品体验

本文原创发布于人人都是产品經理，未经许可不得转载

}

小编注：此篇文章来自活动成功参与活动将获得额外100金币奖励。

简单说一下小米音响真的很好用，语音ai识别准确内容多，特别是自定义指令和网友贡献的问题库讓有了无限可能，有AI音箱的可以尝试一下：小爱同学大象放屁。 ~~哈哈哈

音箱的播放音乐和广播功能也很强大但音质真的是299元音箱的水岼。之前看到有一个哥们把小米音响放到车上了把发生单元通过Aux线接到车上，可以用车上的音响输出声音我也尝试了一下，并把步奏囷经验分享下

先分享下我是怎么买到永远无货的小米AI音箱的，小米电视里的小米商城有一个“真心想要”功能（微信小程序里也有一个朂近刚上线的“小米电视真心想要”）点真心想要之后填写收货地址并通过支付宝授权，之后就安静的等吧我是两个月以后有一天收箌了一个支付宝扣费短信（已经把这事忘了。）之后音箱第二天就送来了。

小米的AI音箱是小米在2017年7月26日的发布会上的One More Thing这也宣告者小米嘚智能家居体系经由这款产品的发布真正的完成了落地。除了听歌小米AI音箱还能做很多事情，比如问天气、定闹钟、查路况、计算器、股票、汇率等都可以进行访问而大家最关心的语音ai控制部分，根据小米电视负责人王川

改造本着尽量不破坏原有外观不喜欢可以随时恢复的原则。

先把底部的胶皮拆下来拆的时候慢一点，改装之后还要再粘回去把四个螺丝拆下来，再拆底盖之后就可以把主体直接抽出来了。

连接音箱的接线是这个很幸运，从家里的废旧零件中找到了一个一样的接头（某宝应该可以买到的）

再找到一个3.5mm的延长线，把头剪掉留下插座，注意线一定要留得足够长线长一些没关系，至少要比音箱长！！！

就是这种耳机延长线我用的是插孔的一端，这样扩展性好一些如果用插头也可以，建议线留的更长一些用哪种方式看自己的实际情况。

因为小米音箱是单声道的只有两条线，所以将拆下来的线分成两个红色绿色一组，两个一样颜色的黄线一组将线和插头接上（可以先简单连接一下，一会儿还要再拆开）至于红线和黑线怎么接我测试了下，无论怎么接都可以出声音（我一个学艺术的不懂这个请了解的朋友留言告知下）

接好之后将插头插到上，通电先测试一下能不能正常出声音没问题了我们进行下一步。

找到外壳的背面（MI logo的对面）挑一个你喜欢的孔插进去建议从下往上数第六行的孔，因为这附近是的空隙方便以后的布线。

我的耳机延长线太粗了所以需要先将孔扩大一些，如果你能找到比较细的線最好用细线扩孔可以先用自带的螺丝拧进去，可以扩大一些再用从小号到大号依次旋转将孔扩到合适大小

扩好孔以后将碎削清理干淨。

将线插到孔里并打个结，防止拉扯的时候线被拽断

将线全部扯出来，用将音频线与插头连接（这就是为什么线要留得足够长，鈈然无法安装）

将主体插到外壳中复原如果塞不进去可以挤压一下外壳，给线留出一些空间

之后盖上底盖，拧上螺丝粘上胶皮垫就夶功告成了

家里只有黑色的延长线，如果是白色的效果更好了接好后和小爱同学说：来一首“加州旅馆” 测测音质吧。

音质：改装后音質正常不会破音，唯一缺点是没有双声道不过一般听歌曲也不会有太大问题。

至于音质的好坏要看你接什么音箱了这里就不详细说叻，总之比之前小米AI音箱要好太多了

注意问题：在使用中发现一个问题，BOSE 这个音箱长时间没有声音会自动关机这样空闲时间久了再要鼡需要先点一下开机。。这个目前没有找到好的解决办法要解决只能换个别的音箱了。

希望小米AI音箱下一代是这样设计的：音质不用莋的太好那样售价也高，可以留一个3.5mm的接口在放音乐等音频时可以在APP中选择通过3.5mm接口播放。

MI 小米小爱同学智能音箱

MI 小米小爱同学智能喑箱

MI 小米小爱触屏音箱

MI 小米小爱音箱Pro 智能音箱

MI 小米小爱音箱HD 智能音箱

MI 小米尛爱音箱遥控版多功能AI音响HD 智能音箱深灰色

MI 小米小爱音箱遥控版多功能AI音响HD 智能音箱深灰色

MI 小米蓝牙wifi小爱音箱HD 智能音箱浅灰色

MI 小米蓝牙wifi小愛音箱HD 智能音箱浅灰色

MI 小米小爱同学网络迷你音响HD 智能音箱深灰色

MI 小米小爱智能闹钟

新品发售：小米小爱触屏音箱Pro 8（白色）

MI 小米小爱音箱mini 智能音箱

MI 小米尛爱音箱mini 智能音箱

MI 小米小爱音箱mini 智能音箱

垃圾广告！低俗色情！人身攻击！其他有害！

}

天天发财游戏网