百度语音酷派开发者平台注册册有什么影响

语音识别开放化开发平台有哪些_百度知道
语音识别开放化开发平台有哪些
提问者采纳
1版。4)RWTH ASR该工具箱包含最新的自动语音识别技术的算法实现。Nuance语音技术除了语音识别技术外。3)JuliusJulius是一个高性能,微软已发布了多个SAPI版本(最新的是SAPI 5。苹果的iPhone 4S的Siri语音识别中就应用了Nuance的语音识别服务,公司研发的语音产品可以支持超过50种语言、SHoUT 。5)其他其他的影响力较大商用语音交互平台有谷歌的语音搜索(Google Voice Search),CUED)的机器智能实验室(前语音视觉及机器人组) 于1989年开发的、非监督训练组件。2)HTKHTK是Hidden Markov Model Toolkit(隐马尔科夫模型工具包)的简称。目前的业务集中 在服务器和嵌入式语音识别、语音识别。世界语音技术市场、 Sphinxbase — support library required by Pocketsphinx&#61607.&#61607,LVCSR)的开源项目; Sphinxtrain — acoustic model training tools这些软件包的可执行文件和源代码在sourceforge上都可以免费下载得到、双通道的大词汇量连续语音识别(large vocabulary continues speech recognition。3)NuanceNuance通讯是一家跨国计算机软件技术公司,并在中文语音合成,还包扩语音合成。1999年,总部设在美国马萨诸塞州伯灵顿,要么直接被包含在windows 操作系统中发布,主要提供语音和图像方面的解决方案和应用,在Windows下应用 广泛。RWTH ASR工具箱包括声学模型的构建,在当前的PC机上能够实现实时的语音识别,它被用来构建CUED的大词汇量的语音识别系统,IBM就开始了语音识别的研究。HTK的最新版本是09年发布的3,具体总结如下,它由 RWTH Aachen 大学的Human Language Technology and Pattern Recognition Group 开发,使用了固定的HMM模型(含3个大小为256的codebook),如今viaVoice早已淡出人们的视线,HTK主要用于语音识别研究、说话人自适应训练组件.4版),取而代之的是Nuance,CMU)开发的一款开源的语音识别系统。2003年,语音合成产品市场份额达到70%以上,它被号称为第一个高性能的连续语音识别 系统(在Resource Management数据库上准确率达到了90%+), modifiable recognizer written in Java&#61607。SAPI支持多种语言的识别和朗读,这些版本要么作为于Speech SDK开发包发布。2; Sphinx4 — adjustable、日文等。它使用3-gram及上下文相关的HMM语音识别开发平台有很多.4。最早的Sphinx-I 由@李开复 (Kai-Fu Lee)于1987年左右开发。 最新的Sphinx语音识别系统包含如下软件包,电话转向系统,其他的开源语音识别项目还有Kaldi ,有超过80%的语音识别是采用Nuance识别引擎技术。4)科大讯飞科大讯飞作为中国最大的智能语音技术提供商,计算机被设计用来检测特定的语言 模式并得出声音和它对应的文字之间的统计相关性,IBM发布了VoiceType的一个免费版, 适合于广大的研究人员和开发人员:几个常见的语音交互平台的简介和比较)1:(更详细的介绍参见本人的博文、个性化 训练和单词词根处理组件等; Pocketsphinx — recognizer library written in C、iATROS-speech 、 Zanzibar OpenIVR 等,百度和搜狗的语音输入法等等。2),自动电话目录服务等、中文,早在20世纪50年代末期:&#61607,还包括说话人自适应组件,最初是由剑桥大学工程学院(Cambridge University Engineering Department ,在全球拥有超过20亿用户, 它包括一系列的语音识别器和声学模型训练工具,IBM授权ScanSoft公司拥有基于ViaVoice的桌面产品的全球独家经销权.IBM viaVoiceIBM是较早开始语音识别方面的研究的机构之一,关于HTK的实现原理和各个工具的使用方法可以参看HTK的文档HTKBook、解析器等重要部分,包括英文.开源的语音交互平台1)CMU-SphinxCMU-Sphinx也简称为Sphinx(狮身人面像), 其名下有超过1000个专利技术,单词量达到60k个; CMUclmtk — language model tools&#61607,在智能语音技术领域有着长期的研究积累、口语评测等多项 技术上拥有国际领先的成果,随后ScanSoft与Nuance合并,是卡内基 - 梅隆大学( Carnegie Mellon University。占有中文语音技术市场60%以上市场份额.商业化的语音交互平台1)微软Speech API微软的Speech API(简称为SAPI)是微软推出的包含语音识别(SR)和语音合成(SS)引擎的应用编程接口(API)。5)其他上面提到的开源工具箱主要都是用于语音识别的、声纹识别等技术。目前
来自团队:
其他类似问题
为您推荐:
您可能关注的推广
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁百度语音识别开放平台SDK使用方法 - 推酷
百度语音识别开放平台SDK使用方法
百度Android语音识别SDK分在线与离线两种,这篇文章介绍在线SDK的使用方法。
在线SDK是以JAR包和动态链接库形式发布和使用,可以从百度开放云平台网站中下载SDK及使用说明文档。
完成语音SDK的集成分以下几步,本文将一步步介绍SDK集成方法。
1、注册开放开放平台 &&
点击管理控制台,选择移动应用管理
选择创建应用,填写应用名称
可以看到右上角有ID、API KEY、Secret KEY,点击可以复制其内容,保存这些字符串,在使用语音SDK时会用到。
2、申请开启语音识别服务 ,选择媒体云---语音识别,点击申请开启服务,填写理由。
等待对接成功
3、使用语音识别SDK前的准备
之前准备了SDK开发包以及ID、API KEY、Secret KEY。
首先将开发包中的lib中的库添加到工程中
&&uses-permission&android:name=&android.permission.RECORD_AUDIO&&/&&&
&uses-permission&android:name=&android.permission.ACCESS_NETWORK_STATE&&/&&&
&uses-permission&android:name=&android.permission.WRITE_EXTERNAL_STORAGE&&/&&&
&uses-permission&android:name=&android.permission.INTERNET&&/&&&
&uses-permission&android:name=&android.permission.READ_PHONE_STATE&&/&&&
&uses-permission&android:name=&android.permission.WAKE_LOCK&&/&&&
&uses-permission&android:name=&android.permission.ACCESS_FINE_LOCATION&&/&&&
&uses-permission&android:name=&android.permission.ACCESS_COARSE_LOCATION&&/&&&
&uses-permission&android:name=&android.permission.ACCESS_WIFI_STATE&&/&&/span&&&
&4、语音识别
SDK有两种实现语音识别的方式,一种是直接使用SDK中的语音识别控件,一种是使用SDK中的语音识别服务。
语音识别控件方式
语音识别控件BaiduASRDigitalDialog,提供了整套语音交互、提示音、音量反馈、动效反馈。开发者初始化一个BaiduASRDigitalDialog对象,并设置相关参数及结果回调,调用Show()方法就可以弹出对话框开始识别,识别结束后会在回调中得到识别结果。
if&(mDialog&==&null&||&mCurrentTheme&!=&Config.DIALOG_THEME)&{&&
&&&&&&&&&&&&&&&&&&&&mCurrentTheme&=&Config.DIALOG_THEME;&&
&&&&&&&&&&&&&&&&&&&&if&(mDialog&!=&null)&{&&
&&&&&&&&&&&&&&&&&&&&&&&&mDialog.dismiss();&&
&&&&&&&&&&&&&&&&&&&&}&&
&&&&&&&&&&&&&&&&&&&&Bundle&params&=&new&Bundle();&&
&&&&&&&&&&&&&&&&&&&&params.putString(BaiduASRDigitalDialog.PARAM_API_KEY,&Constants.API_KEY);&&
&&&&&&&&&&&&&&&&&&&&params.putString(BaiduASRDigitalDialog.PARAM_SECRET_KEY,&Constants.SECRET_KEY);&&
&&&&&&&&&&&&&&&&&&&&params.putInt(BaiduASRDigitalDialog.PARAM_DIALOG_THEME,&Config.DIALOG_THEME);&&
&&&&&&&&&&&&&&&&&&&&mDialog&=&new&BaiduASRDigitalDialog(this,&params);&&
&&&&&&&&&&&&&&&&&&&&mDialog.setDialogRecognitionListener(mRecognitionListener);&&
&&&&&&&&&&&&&&&&}&&
&&&&&&&&&&&&&&&&mDialog.getParams().putInt(BaiduASRDigitalDialog.PARAM_PROP,&Config.CURRENT_PROP);&&
&&&&&&&&&&&&&&&&mDialog.getParams().putString(BaiduASRDigitalDialog.PARAM_LANGUAGE,&&
&&&&&&&&&&&&&&&&&&&&&&&&Config.getCurrentLanguage());&&
&&&&&&&&&&&&&&&&mDialog.show();&&
识别对话框支持的参数定义在BaiduASRDigitalDialog中以PARAM_前缀的常量。列表如下:
PARAM_API_KEY
开放平台认证 API_key
PARAM_SECRET_KEY
开放平台认证Secret_key
PARAM_LANGUAGE
LANGUAGE_CHINESE
语种,取值定义在VoiceRecognitionConfig类中前缀为LANGUAGE_的常量
PARAM_PARTIAL_RESULTS
PARAM_NLU_ENABLE
是否语义解析。Prop为输入时暂不支持语义,请显示指定为其它领域。
PARAM_NLU_PARAMS
预留语义解析参数
PARAM_PROP
PROP_INPUT
领域参数,定义在VoiceRecognitionConfig类中前缀为PROP_的常量
PARAM_PORMPT_TEXT
“请说话”
对话框提示语
PARAM_PROMPT_SOUND_ENABLE
提示音,需要集成SDK包Raw文件夹的资源
PARAM_DIALOG_THEME
THEME_BLUE_LIGHTBG
样式。定义在前缀为THEME_的常量中
PARAM_TIPS
引导语列表
PARAM_SHOW_TIPS_ON_START
对话框弹出时首先显示引导语列表
PARAM_SHOW_TIP
识别启动3秒未检测到语音,随机出现一条引导语
PARAM_SHOW_HELP_ON_SILENT
静音超时后将“取消”按钮替换为“帮助”
设置回调方法,处理返回的结果
mRecognitionListener&=&new&DialogRecognitionListener()&{&&
&&&&&&&&&&&@Override&&
&&&&&&&&&&&public&void&onResults(Bundle&results)&{&&
&&&&&&&&&&&&&&&ArrayList&String&&rs&=&results&!=&null&?&results&&
&&&&&&&&&&&&&&&&&&&&&&&.getStringArrayList(RESULTS_RECOGNITION)&:&&&
&&&&&&&&&&&&&&&if&(rs&!=&null&&&&rs.size()&&&0)&{&&
&&&&&&&&&&&&&&&&&&&mResult.setText(rs.get(0));&&
&&&&&&&&&&&&&&&}&&
&&&&&&&&&&&}&&
&&&&&&&};&&
首先需要配置语音识别引擎ASREngine的参数VoiceRecognitionConfig
VoiceRecognitionConfig&config&=&new&VoiceRecognitionConfig();&&
&&&&&&&&&&&&&&&&config.setProp(Config.CURRENT_PROP);&&
&&&&&&&&&&&&&&&&config.setLanguage(Config.getCurrentLanguage());&&
&&&&&&&&&&&&&&&&config.enableVoicePower(Config.SHOW_VOL);&//&音量反馈。&&
&&&&&&&&&&&&&&&&if&(Config.PLAY_START_SOUND)&{&&
&&&&&&&&&&&&&&&&&&&&config.enableBeginSoundEffect(R.raw.bdspeech_recognition_start);&//&设置识别开始提示音&&
&&&&&&&&&&&&&&&&}&&
&&&&&&&&&&&&&&&&if&(Config.PLAY_END_SOUND)&{&&
&&&&&&&&&&&&&&&&&&&&config.enableEndSoundEffect(R.raw.bdspeech_speech_end);&//&设置识别结束提示音&&
&&&&&&&&&&&&&&&&}&&
&&&&&&&&&&&&&&&&config.setSampleRate(VoiceRecognitionConfig.SAMPLE_RATE_8K);&//&设置采样率,需要与外部音频一致&&
然后启动识别
int&code&=&mASREngine.startVoiceRecognition(mListener,&config);&&
其中mListener是识别过程的回调,需要对其中的方法进行实现
&&&&*&重写用于处理语音识别回调的监听器&
&&&class&MyVoiceRecogListener&implements&VoiceClientStatusChangeListener&{&&
&&&&&&&@Override&&
&&&&&&&public&void&onClientStatusChange(int&status,&Object&obj)&{&&
&&&&&&&&&&&switch&(status)&{&&
&&&&&&&&&&&//&语音识别实际开始,这是真正开始识别的时间点,需在界面提示用户说话。&&
&&&&&&&&&&&&&&&case&VoiceRecognitionClient.CLIENT_STATUS_START_RECORDING:&&
&&&&&&&&&&&&&&&&&&&isRecognition&=&&&
&&&&&&&&&&&&&&&&&&&mHandler.removeCallbacks(mUpdateVolume);&&
&&&&&&&&&&&&&&&&&&&mHandler.postDelayed(mUpdateVolume,&POWER_UPDATE_INTERVAL);&&
&&&&&&&&&&&&&&&&&&&mControlPanel.statusChange(ControlPanelFragment.STATUS_RECORDING_START);&&
&&&&&&&&&&&&&&&&&&&&&
&&&&&&&&&&&&&&&case&VoiceRecognitionClient.CLIENT_STATUS_SPEECH_START:&//&检测到语音起点&&
&&&&&&&&&&&&&&&&&&&mControlPanel.statusChange(ControlPanelFragment.STATUS_SPEECH_START);&&
&&&&&&&&&&&&&&&&&&&&&
&&&&&&&&&&&&&&&//&已经检测到语音终点,等待网络返回&&
&&&&&&&&&&&&&&&case&VoiceRecognitionClient.CLIENT_STATUS_SPEECH_END:&&
&&&&&&&&&&&&&&&&&&&mControlPanel.statusChange(ControlPanelFragment.STATUS_SPEECH_END);&&
&&&&&&&&&&&&&&&&&&&&&
&&&&&&&&&&&&&&&//&语音识别完成,显示obj中的结果&&
&&&&&&&&&&&&&&&case&VoiceRecognitionClient.CLIENT_STATUS_FINISH:&&
&&&&&&&&&&&&&&&&&&&mControlPanel.statusChange(ControlPanelFragment.STATUS_FINISH);&&
&&&&&&&&&&&&&&&&&&&isRecognition&=&&&
&&&&&&&&&&&&&&&&&&&updateRecognitionResult(obj);&&
&&&&&&&&&&&&&&&&&&&&&
&&&&&&&&&&&&&&&//&处理连续上屏&&
&&&&&&&&&&&&&&&case&VoiceRecognitionClient.CLIENT_STATUS_UPDATE_RESULTS:&&
&&&&&&&&&&&&&&&&&&&updateRecognitionResult(obj);&&
&&&&&&&&&&&&&&&&&&&&&
&&&&&&&&&&&&&&&//&用户取消&&
&&&&&&&&&&&&&&&case&VoiceRecognitionClient.CLIENT_STATUS_USER_CANCELED:&&
&&&&&&&&&&&&&&&&&&&mControlPanel.statusChange(ControlPanelFragment.STATUS_FINISH);&&
&&&&&&&&&&&&&&&&&&&isRecognition&=&&&
&&&&&&&&&&&&&&&&&&&&&
&&&&&&&&&&&&&&&default:&&
&&&&&&&&&&&&&&&&&&&&&
&&&&&&&&&&&}&&
&&&&&&&}&&
&&&&&&&@Override&&
&&&&&&&public&void&onError(int&errorType,&int&errorCode)&{&&
&&&&&&&&&&&isRecognition&=&&&
&&&&&&&&&&&mResult.setText(getString(R.string.error_occur,&Integer.toHexString(errorCode)));&&
&&&&&&&&&&&mControlPanel.statusChange(ControlPanelFragment.STATUS_FINISH);&&
&&&&&&&}&&
&&&&&&&@Override&&
&&&&&&&public&void&onNetworkStatusChange(int&status,&Object&obj)&{&&
&&&&&&&&&&&//&这里不做任何操作不影响简单识别&&
&&&&&&&}&&
获得识别BDVRClient对象
mASREngine&=&VoiceRecognitionClient.getInstance(this);&&
&&&&&&&&mASREngine.setTokenApis(Constants.API_KEY,&Constants.SECRET_KEY);&&
请求参数设置
每次识别需要通过通过VoiceRecognitionConfig设置参数,其中一些方法在API中有说明
enableBeginSoundEffect
intsoundResourceId 启动提示音资源Id
设置开始提示音,soundResourceId为放置在Raw文件夹的资源Id。
enableEndSoundEffect
intsoundResourceId 说话结束提示音资源Id
检测到用户说话结束播报的提示音,非识别结束
setSampleRate
int&rate 采样率
设置音频采样率,
通常建议开发者 不指定 采样频率,由BDVRClient自动根据当前网络环境选择采样频率。WiFi环境下将使用16kHz采样,移动网络下将使用8kHz采样,来节省流量。参考常量定义
SAMPLE_RATE_8K 8K采样率
SAMPLE_RATE_16K 16K采样率
开发者可以通过指定垂直分类来获取更精准的语音识别结果。
注:垂直分类目前支持地图,音乐,视频,APP,网址,开发者需要注意设定采样频率时只能在这五种垂直分类中选择。若指定其他分类,可能会影响识别结果的精度。参考PROP_前缀的常量定义。
setUseDefaultAudioSource
booleanuseDefaultSource
设置是否使用缺省的录音。 如果不使用,用户需要调用VoiceRecognitionClient对象的feedAudioBuffer方法为识别器提供语音数据
启用语义解析,只在搜索模式起作用
getSampleRate
获取当前识别采样率
setLanguage
String Language
设置语种。目前支持的语种有中文普通话(LANGUAGE_CHINESE)、中文粤语(LANGUAGE_CANTONSE)、英文(LANGUAGE_ENGLISH)。
开始语音识别,BDVRClient在开始识别后,会启动录音、预处理、上传到服务器并获取识别结果。
int&code&=&mASREngine.startVoiceRecognition(mListener,&config);&&
&&&&&&&&&&&&&&&if&(code&!=&VoiceRecognitionClient.START_WORK_RESULT_WORKING)&{&&
&&&&&&&&&&&&&&&&&&&mResult.setText(getString(R.string.error_start,&code));&&
&&&&&&&&&&&&&&&}&&&
取消语音识别
mASREngine.stopVoiceRecognition();&&
结束语音识别
mRecognitionClient.speakFinish();&&
已发表评论数()
请填写推刊名
描述不能大于100个字符!
权限设置: 公开
仅自己可见
正文不准确
标题不准确
排版有问题
主题不准确
没有分页内容
图片无法显示
视频无法显示
与原文不一致开放云产品论坛
总帖数:1122
总帖数:202
其他产品论坛
全国首批获得可信云服务认证
对象存储服务:N002002 云数据库服务:N003002}

我要回帖

更多关于 微信开发者平台注册 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信