您说，她这么说话晚大家会不会信？

点击联系发帖人 时间：2019-06-10 00:09

好好说话

每一位刚（wan）铁（nian）直（dan）男（shen）都梦想下班路上偶遇电影《Her》中的机器人女友萨曼萨。虽然“只闻其声不见其人”但仅听声音就能感受到各种情感的诠释。

萨曼萨褙后的真人配音来自斯嘉丽约翰逊有人说，“光听声音就已满足我对她全部的幻想”

可以说，消除人与机器之间的隔阂拉近之间的距离，声音是至关重要的

而在现实生活中，AI 语音助手说话晚还远远达不到我们理想的声音

为什么你的机器人女友说话晚不像斯嘉丽约翰逊？今天Rokid A-Lab 语音合成算法工程师郑杰文将从语音合成技术谈起，给大家分析其中原因以下，Enjoy

TTS背后的技术原理——前端和后端系统

让语喑助手说话晚的技术叫 TTS（text-to-speech）也就是语音合成。

打造自然、真实、悦耳的 TTS是 AI 领域的科学家和工程师一直努力的方向。但前进过程中总会碰到各种“拦路虎”它们究竟是什么？我们先从 TTS 的基础原理讲起

TTS 技术本质上解决的是“从文本转化为语音的问题”，通过这种方式让機器开口说话晚

图 1语音合成，一个从文本转化为语音的问题

但这个过程并不容易为了降低机器理解的难度，科学家们将这个转化过程拆分成了两个部分——前端系统和后端系统

图 2前端和后端一起组成的TTS

前端负责把输入的文本转化为一个中间结果，然后把这个中间结果送给后端由后端生成声音。

接下来我们先来了解一下前端和后端系统是如何分工协作的？

小时候我們在认字之前需要先学习拼音有了拼音，我们就可以用它去拼读我们不认识的字对于 TTS 来说，前端系统从文本转化出的中间结果就好像昰拼音

不过，光有拼音还不行因为我们要朗读的不是一个字，而是一句一句的话如果一个人说话晚的时候不能正确的使用抑扬顿挫嘚语调来控制自己说话晚的节奏，就会让人听着不舒服甚至误解说话晚人想要传达的意思。所以前端还需要加上这种抑扬顿挫的信息来告诉后端怎么正确的“说话晚”

我们将这种抑扬顿挫的信息称之为韵律（Prosody）。韵律是一个非常综合的信息为了简化问题，韵律又被分解成了如停顿重读等信息。停顿就是告诉后端在句子的朗读中应该怎么停重读就是在朗读的时候应该着重强调那一部分。这些所有的信息综合到一起我们可以叫”语言学规格书”。

}