语音识别是当前人工智能的仳较热门的方向技术也比较成熟,各大公司也相继推出了各自的语音助手机器人如百度的小度机器人、阿里的天猫精灵等。语音识别算法当前主要是由RNN、LSTM、DNN-HMM等机器学习和深度学习技术做支撑但训练这些模型的第一步就是将音频文件数据化,提取当中的语音特征
录制音频文件的软件大多数都是以mp3格式输出的,但mp3格式文件对语音的压缩比例较重因此首先利用ffmpeg将转化为wav原始文件有利于语音特征的提取。其转化代码如下:
这是MP3文件转化成WAV文件的函数利用wave库对语音文件进行采样。代码如下:
这是读取wav文件的函数音频数据是单通道的。返回json
首先利用百度AI开发平台的语音合API生成的MP3文件进行上述过程的结果
这是MP3文件转化成WAV文件的函数
这是读取wav文件的函数,音频數据是单通道的返回json
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。