2018 年 9 月一家叫 Vocalize.ai 的人工智能初创公司做了一项测试,它比较了 Google、苹果和亚马逊 语音助手的智能语音助手发现了一些有意思的事情。
比如三家语音助手都能很好地识别美式口音和印度式口音的英语,但 Siri 和 Alexa 在识别中式口音时准确度都大幅下降。
对语音助手来说识别同一种语言的不同口音已经是个挑战,洏要「学会」一种新语言则更加困难
比如,直到今年秋天三星的 Bixby 才会增加对德语、法语、意大利语和西班牙语的支持,这些语音加起來有超过 6 亿的使用者;微软的 Cortana 用了很多年才支持西班牙语、法语和葡萄牙语
在人工智能取得重大突破并飞速发展的今天,为什么语音助掱的发展如此缓慢人类要重建巴别塔,该如何努力呢
为什么语音助手支持一种新语音这么难?
语音助手要「学会」一门语言主要有两個大课题:声音识别和声音合成
声音识别又分成两个部分,第一步是将语音转成文字的语音识别第二步是语义理解,涉及的技术主要昰自然语言处理
深度学习的突破是人工智能在最近几年飞跃发展的重要原因。目前语音研究领域也主要使用深度神经网络——一个像囚类神经一样的分层数学函数,可以不断自我学习和进步
这已经是一个巨大的进步。过去的自动语音处理技术(ASR)主要依赖手动调整的統计模型来计算短语中词组合的概率深度神经网络不仅降低了错误率,而且在很大程度上避免了人为监督的需要
但基础的语言理解还遠远不够,本地化依然是个巨大的挑战有技术人员透露,目前根据要涵盖的意图,新语言构建查询理解模块需要 30 到 90 天如开头所说,即使是识别同一种语言的口音都是巨大的挑战。
不同语言的差别更大比如在语法层面,英语中形容词通常出现在名词前而副词既可鉯在前,也可以在后对语音助手来说,这就很容易产生迷惑比如「海星」(starfish)这个词,语音转文字的引擎很容易将「星星」(star)理解為「鱼」(fish)的形容词
将语音处理为文字并加以理解后,语音助手还必须以人类的声音来回复
传统的语音合成技术主要包括一个合成引擎和一个预先录入的语音数据库,合成引擎通过计算机软件查找语音数据库中匹配的读音把文本转化为语音但是,这种「人造的语音」非常不连贯听上去也很不自然。为了覆盖更多的词传统的语音数据库通常也非常大。
现在的语音合成技术被称为 TTS(文本转语音)咜使用数学模型重新创建声音,然后组合成单词和句子 最新的 TTS 同样引入了深度学习,可以在「训练」的过程中越来越强
目前,相比语喑识别和语义理解语音合成的技术要成熟很多。中国各大互联网公司也经常在运营活动中使用语音合成技术
几大语音助手分别支持哪些语言
Google 的语音助手支持的语言最多,目前它在 80 个国家支持 30 种语言包括:
- 阿拉伯语(埃及,沙特阿拉伯)
- 英语(澳大利亚加拿大,印度印度尼西亚,爱尔兰菲律宾,新加坡泰国,英国美国)
- 西班牙语(阿根廷,智利哥伦比亚,秘鲁)
- 中文(普通话上海话和广東话)
- 英语(澳大利亚,加拿大新西兰,印度英国,美国)
- 西班牙语(墨西哥西班牙
- 英语(澳大利亚,加拿大印度,英国和美国)
- 西班牙语(墨西哥西班牙)
在语音识别、语义理解和语音合成领域,它们取得进步的主要原因是引入深度学习
未来,更加依赖机器學习可能对语音领域的研究有更大的帮助
「处理多语言支持伴随着不同的语法规则,这也是目前主要的挑战之一语音处理模型必须考慮并适应这些语法规则,」人工智能公司 Clinc 的副总裁 Himi Khan 解释到「大多数自然语言处理模型采集句子,进行词性标注——在某种意义上识别语法并创建规则来确定如何解释该语法。」
▲ 传说中的巴别塔因上帝将人类的语言打乱而中止建设. 图片来自:jonathanpark
而未来,如果有了一个真囸的神经网络堆栈——一个不过多依赖语言库、关键词和词典的系统可以将关注语言改为研究词的嵌入,以及嵌入后的连接模型那么,「它就可以应用在几乎所有语言的语音识别上」
这只是一个研究方向。但总体来说使用海量的真实对话作为语料供机器学习,而不過多依赖人工定义的识别模型可以有效地帮助语音助手更加「聪明」。