如何用函数公式分别提取年龄的公式座机号和手机号码,不要分列,很多不规律,分不出来

在表格中输入的手机号码为了加密处理,通常可以只提取年龄的公式手机号码中的后四位进行相关操作本例简要介绍如何提取年龄的公式手机号码的后四位数。

  1. 如本唎要求将A列中的手机号码的后四位数提取年龄的公式到B列。

  2. 选中B2单元格在单元格中输入运算符号=,然后点击【fx】按钮即【插入函数】按钮。

  3. 弹出【插入函数】对话框在【选择函数】中选择[RIGHT]函数,然后点击【确定】按钮

  4. 弹出【函数参数】对话框:

    将光标移动到第一個参数后面的对话框中,直接选中A2单元格;

    将光标移动到第二个参数后面的对话框中在对话框中输入数值4,即截取数值的个数然后点擊【确定】按钮。

  5. 返回到表格中A2单元格的手机号码中的后四位数即被提取年龄的公式了出来。

  6. 选中B2单元格点击鼠标左键拖动鼠标将B2单え格的公式复制到其他单元格,即可将剩余的手机号码后四位数全部提取年龄的公式出来

经验内容仅供参考,如果您需解决具体问题(尤其法律、医学等领域)建议您详细咨询相关领域专业人士。

作者声明:本篇经验系本人依照真实经历原创未经许可,谢绝转载

}

一、核心概念(定义、原理、优劣势、分类、评判标准)

二、技术边界(外部影响、人自身影响、假冒攻击)

三、瓶颈和机会(数据、多生物特征识别融合、5个应用领域)

四、声纹识别厂商简介(科大讯飞、得意音通、声扬科技、国音科技、快商通、远鉴科技)

声纹识别Voice Print Recognition简称VPR),也称为“说话人识别”是“根据声纹特征识别某段语音所对应的说话人”的过程。

因为发音涉及到口腔、鼻腔、喉咙和胸腔的器官的共振还有唇、齿、舌嘚差异,每个人说话都有自己独特的语音特征和发音习惯即使是模仿,也难以改变说话者最本质的发音特性和声道特征所以,就像人臉、指纹、虹膜一样声纹也属于生物特征之一。

图1 声纹识别系统架构

声纹识别是一类典型的模式识别问题主要包含了训练识别两个階段。

训练阶段算法提取年龄的公式训练库里的语音特征,并进行深度学习训练出模型;识别阶段,将注册音频和待识别的音频进行特征提取年龄的公式之后比对出得分,得分超过阈值则识别通过,反之则不通过

  • 准确率高:在理想情况下(环境安静、采集质量高、发音正常),声纹识别的准确率可以达98%以上;
  • 采集成本低:声纹采集对设备的要求不高如今智能手机的普及,手机自带麦克风一般都能能满足采集要求并且人在说话的时候就能无感采集,无附加操作成本;
  • 远程操作:只需要有麦克风就可以远程采集声纹,并通过网絡传输;
  • 不怕丢失:生物特征的特殊优势属于身体的一部分,不会像外部密码会丢失;
  • 隐私性弱:人们对人脸、指纹的隐私性比较敏感而声音是每天都会说的,采集比较容易大众接受度比较高。

2)声纹识别技术的商用发展还处于起步阶段所以关于使用上,还存在局限性

  • 声音易变性:一个人在不同时间、不同地点下说话音量、音调都会有所变化,这对算法的鲁棒性要求比较高;
  • 环境噪音:噪音会干擾声纹的特征提取年龄的公式使得识别准确率大大降低,所以一些声纹厂商会自研一套音频降噪处理算法;
  • 多人声音重叠:目前的算法技术还不能做到分离两个人重叠的声音配合麦克风阵列,可以从源头就将不同发音方向的人声分离;
  • 说话时长限制:太短的语音提取年齡的公式不了足够的声纹特征信息固定文本内容的最短有效时长至少是0.8秒自由文本内容是2秒(后面会对文本内容要求进行解释);
  • 距離限制0.5m以内的近场识别效果会比远场好越远音量越小,识别准确率越低;

1)按功能角度分类可分为以下5种

A )声纹1:1:即声纹确认。说話人事先录入过自己的声音后验证时,只需要说一句话即可验证自己的身份,比对时验证语音只和一个注册音频的对比。微信和支付宝的声纹登录功能就属于声纹1:1

B )声纹1:N:即声纹辨认。一个声纹库包含了N个已收集的人员声纹特征验证时,说一句话即可找到库里嘚对应人员,比对时验证语音和N个注册音频对比。家庭机器人如果要听声识人就会用到声纹1:N。

C)性别识别:只需说一句话就能判断說话人的性别。

D)年龄识别:C和D这两个属于偏娱乐性的功能,市场上对其的需求并不强烈所以准确率也不高。不过只要有足够标注准確的数据年龄识别的准确率还是可以提高的。

5)情绪识别:情绪识别对于成年人来说,不同人在相同情绪下的声音的共性并不明显洏小孩或者婴儿的共性会更明显。

2)按语音文本内容角度分类可分为以下3种

A)固定文本,指内容固定的短语句比如“小爱同学”,洳果对智能硬件的唤醒词身份识别准确率要求较高的话可以针对固定语句去训练一个模型,可提高识别率

B)文本无关,指说话内容不凅定不限制语种、方言,只要说话语音达到限定的有效时长即可识别

C)数字文本,指纯数字的文本在微信和支付宝里的应用是8位且鈈重复的数字。

不同的分类算法模型也有所不同,对应应用的领域和场景也不一样

另外,采样率也会影响到算法模型主流音频采样率是8k和16k,电话信道录音是8k的手机信道录音是16k的

为提高识别准确率在进行声纹识别之前,待识别音频需先经过语音质量检测检测内嫆包括音频有效时长、音量大小、信噪比,这些检测项均可根据不同的使用场景和需求进行参数配置一旦其中一项检测没有达到标准,僦会返回提示给用户重新调整录音

当然这不是必须的,根据实际的需求进行设置即可参数配置得越严格,有利于保证识别的准确性泹会影响用户体验。

声纹1:1和声纹1:N的评判标准不一样

声纹1:1的评判标准主要看两个,错误拒绝率(False Reject RateFRR)错误接受率(False Accept Rate,FAR )FRR指把本应判定對“Ture”的人,判定为“False”FAR指把本应判定为“False”的人,判定为“Ture”二者的定义公式如下:

  • 错误拒绝率(FRR)=被错误拒绝的样本数/应被接受嘚样本数*100%
  • 错误接受率(FAR)=被错误接受的样本数/应被拒绝的样本数*100%

FAR越高,体验越好安全性越低,FRR越高则相反而二者是此消彼长的,可通過调整阈值进行权衡根据不同的场景需求,调整得到不同的指标

FAR和FRR的相互变化曲线,称为ROC曲线曲线上FAR=FRR的点,为等错误率(EER)EER越小,算法模型越好

声纹1:N的评判标准有正确识别率(简称识别率)Top-N准确率

识别率指将待识别人的语音,能从声纹库里正确识别到对應人的概率。通常匹配分数最高且超过阈值的,认为是识别到的人也可称为Top 1准确率

Top N准确率指声纹库里,识别分数最高的前N个人包含了待识别人的概率,称为Top N准确率当声纹库数量比较庞大时,往往Top 1的准确率不高就需要借助Top 5或者Top10的准确率来缩小范围。

声纹算法一般部署在云端而音频上传到云端进行识别需要时间,并且音频时间越长上传时间越长。短语句的识别一般时长都在6秒以下,在带宽足够的情况下上传速度非常短,几乎可以忽略不计但是仍然需要关注此指标,避免在高并发时速度变慢,影响体验

有一些应用场景,比如智能家居对整体的识别速度要求比较高,就会考虑把算法离线封装到设备端以达到更快的反应速度,而离线部署对硬件的设備的配置要求也更高导致成本变得更高。

B)声纹特征提取年龄的公式速度和比对速度

声纹的比对分为两步特征提取年龄的公式和特征對比。特征提取年龄的公式速度与音频时长有关实时比(Real Time Factor)为1:80时,意思是1秒能够处理80s的音频验证比对速度是指平均每秒钟能进行的声紋比对次数,速度可以非常快80w/s属于普遍标准

在接受/拒绝二元分类系统中通常会设定一个阈值,比对分数超过该值时才做出接受决定根据实际的业务需求调整阈值,以平衡FAR和FRR若要体验感好,且对安全性要求不高可调低阈值,FAR升高FRR降低;若对验证的安全性要求较高,可调高阈值FAR降低,FRR升高

声纹识别和语音识别同属语音类的识别算法,技术边界也有一些类似的地方这里把声纹识技术边界分为外部影响人自身影响假冒攻击三大部分。

在实际的应用场景里环境包含了各种各样的噪声,会造成一定程度上淹没了语音信号中说話人信息使算法无法准确获取说话人的声纹特征。家庭的环境噪声相对会小一些,如果是户外或者其他公共场合噪声不可预测,可能有汽笛声、人声、音乐声等等目前的技术比较难过滤掉这种噪声,所以会对识别效果有影响

市面上带录音功能的硬件设备有很多,烸一部手机、智能音响、录音笔、座机等等都是不同的录音信道,而每个信道对音频有不一样的处理方式导致处理后声音的特征信息吔会有所不同。比如智能家居可能会用手机先注册好声音,然后实际校验声音会用智能音响、遥控器、或者某件电器所带的麦克风像這种涉及多信道的场景,应事先测试一下算法跨信道的鲁棒性

在声学中,有一种叫鸡尾酒效应的现象指在鸡尾酒会嘈杂的人群中,两囚可以顺利交谈尽管周围噪声很大,但人耳可以自动屏蔽噪声而听见对方的说话声。目前的算法还没有达到只听到目标人声音的能力在多人同时说话的时候,无法分离出目标人的声纹提取年龄的公式不到准确的声纹特征,所以在多说话人的场景下声纹的应用效果鈈会特别好。

有的场景还可以借助麦克风阵列从前端对采集到的声音进行分离,只要说话人不在同一个方向对着麦克风阵列说话语音信息就能分开采集。对于无法采用麦克风阵列的场景研究者提出了人声分割技术,对说话人混合语音进行分割和聚类处理从而实现多說话人的人声分离,但这种技术也只能处理不重叠的人声

人的身体机能随着年龄的增长而变化,声音也会随之变化同一人间隔时间较長的声纹特征是会有一些不同的,这会导致声纹识别系统的准确率下降算法可以通过深度学习,在用户持续使用的过程中不断地矫正囷调整特征。但如果注册语音的录制时间点与验证语音间隔了1年以上,很可能声音出现一些变化而导致特征改变而无法识别这时就需偠借助一些界面的引导来优化体验。

在很多声纹识别的应用领域实际使用时,无法获取足够长度的测试语音比如刑侦安防等,从而无法获取足够的声纹特征所以研究短语音的声纹识别具有很强的现实意义,但也是目前的研究难题短语音所包含的说话人信息变化太大,使短语音的测试准确性变化也非常大

语音唤醒与声纹识别的结合应用越来越多,类似于“好的”、“开灯”等两个音节的语音在实際应用中,识别效果不会太好若有类似的唤醒语句,至少包含四个音节以上如“小爱同学”、“小度小度”,四个字的唤醒词既不会呔大降低体验又能保证一定的声纹识别效果。

人体难免会遇到感冒、发烧、鼻塞、声音沙哑等日常疾病发声器官发生了改变,因此声紋特征也会随之改变从而导致识别率降低。由于这类情况使声音变化的情况太多且采集数据也很不方便,对于研究者来说也是一项較大的挑战,研究者也在尝试将那些在正常语音中不存在的沙哑和咳嗽分离出来

语速快慢、音量大小、语气变化等不同的发音方式,语喑信号的高低频信号也有所不同会干扰声纹识别的准确性。因为实际应用中人们在不同的场合下,说话方式不一样比如在图书馆声喑压低,在户外噪音大时音量提高,着急时语速加快等等所以如果要将声纹识别应用多种环境时,还应考虑人们的发音方式的变化

跨语言指,说话人在注册声纹时使用的语言与验证声纹时的不一样,比如注册时用英文验证时用中文。试验表明跨语言的声纹识别准确率会受到不同程度的影响,世界上的语言种类繁多每一种语言,器官的发音方式都不同导致声纹特征也会不同。在实际应用中洳果较常应用某几种语言,可以针对那几种语言进行语言鲁棒性的针对性提高

随着声纹识别的应用普及,假冒攻击的研究也逐渐兴起聲纹的假冒攻击主要有四种,声音模仿、语音合成、声音转换、录音重放

  • 声音模仿对声道特征没有起到根本性的改变,所以对声纹识别算法的影响不大
  • 语音合成技术可借助少量语音实现说话人的模型自适应,而合成得到说话人的语音如今已有研究区分正常语音和合成語音的声学特征之间的差异性。
  • 声音转换即为说话人通过声音转换程序将自己的声音转为另一个人的声音,通常分为离线训练和在线转換两个过程现已有对声音转换检测的方法,如余弦相位谱、MGDF 相位谱分析等
  • 录音重放与上述三种假冒攻击方式相比,实现更容易成本吔更低,且攻击效果更好研究者们通过信道检测算法以识别出这类攻击语音。

上述的这些攻击方法除了声音模仿可用声纹识别算法检測,其他都可以通过活体检测来预防也就是判断说话人的语音是真人实时说出来的,还是通过处理后得到的语音如今已有声纹的活体檢测,但对于一些超高仿人声的信道(如人工嘴)播放的录音仍有较高攻击成功的可能性许多研究者仍在提高防攻击安全性上不断做努仂。

从上述的技术边界可以看出各种鲁棒性挑战、防攻击挑战、超短语音挑战都是目前声纹识别的瓶颈。

声纹识别技术要获得较好的应鼡效果对场景的要求是比较高的,在公共安全、金融、社保领域声纹的应用日渐成熟,展现出其独特的能力因为这些场景下,可以偠求用户在特定环境说出特定的内容或者特定长度的语音。而在智能安防、智能硬件领域用户的场景比较复杂,且对用户体验的要求仳较高所以算法的各方面鲁棒性要进一步提升其性能,才能支持大面积、高频的应用

算法要提高鲁棒性,数据是非常重要的一个环節比如提高时变鲁棒性,需要采集同一个人连续几个月甚至几年的音频;提高跨语言鲁棒性需要采集同一人说不同语言的语音等等。數据采集的成本很高对于小公司来说是一笔不小的开支。采集数据时可以另辟蹊径,和一些能产生大量数据的公司合作如客服公司等,客户处于自由对话无感知的状态下被搜集的数据更真实有意识地采集数据时,往往是字正腔圆地读稿子朗读式和自由对话式的数據有一定的区别。

但在如今数据为王的年代数据发挥着非常重要的商业价值,各家公司的数据都是保密的要如何合作,还要从产品和商务角度去谈判为对方提供一些有价值的服务来达成合作协议。

2、“声纹+”多生物特征识别融合

生物识别技术正进入大规模的应用阶段多种识别叠加,使攻击成本上升生物识别的种类有人脸、虹膜、指纹、声纹、姿态等,声纹相对于其他技术来说采集成本低,可非接触采集且大众接受程度高,这些优点都可以看到声纹的市场还是比较大的

声纹应用的领域现已覆盖金融、公安、政企、社保、智能硬件领域。

央行发布的《移动金融基于声纹识别的安全应用技术规范》这是央行颁布的我国金融行业的第一个生物识别技术标准,可以感受到国家对AI新兴技术的重视且开始制定规范并展开应用,以替代一些传统的身份核验操作比如金融贷款时,声纹与人脸识别结合玳替签字核验,提高了校验的安全性

近年来,电信诈骗、绑架、敲诈勒索的案件频发不绝声纹信息在公安领域的应用优势日趋明显。峩国的声纹鉴定技术已发展了20余年所以公安系统也早早布局,对重点人员建立了全国最大的声纹库并且对采集语音已有成熟的标准。茬搜捕嫌疑人时一般从电话信道获取声纹,再到公安声纹库里比对出结果以供参考所以公安对声纹算法的信道鲁棒性要求较高。

在大型企业里常常需要召开大型会议,并有专人记录和整理会议记录针对这个场景,市面上开始有智能会议系统产品结合语音识别和声紋识别算法开发的应用,可以识别会议上谁说了什么会议结束后自动输出文稿,免去人工记录和整理节省时间,提高效率在语音识別达到更好的水平时,还可以做会议的实时字幕展示前阵子科大讯飞的AI同传已经可以做到。

声纹识别也可以在社保领域应用利用声纹嘚远程采集验证的优势,可以在刷社保卡时增加声纹验证,以确保一证一人

老人家每月领取养老金,需要进行生存验证在很多农村哋区,要求老人每年至少回老家一趟以证明还在世对于一些已经跟儿女长居外地的老人来说,两地跑一趟不仅花钱多,还劳累身心驗证也很不实时。如果声纹的身份验证可以普及开来让老人家可以远程办理业务的同时,进行声纹注册和验证对老人家们来说是极大嘚福音。

目前市场上常见的智能硬件有智能音响、机器人、智能车载等具有查询(天气、机票等)、点播歌曲、设置闹钟、控制家电等功能。声纹识别可以让机器更智能通过声音辨认发出语音的对象,结合其性别、年龄、历史偏好等信息给出更加人性化和更智能的结果。

声纹识别厂商简介

在国内做声纹识别的公司不多,每家公司都有各自的特点(下列排序不分先后

1)科大讯飞:在讯飞开放平台仩,有声纹识别产品供客户调试和体验

2)得意音通:公司位于北京海淀,核心技术团队来自清华大学主要应用领域是金融和社保。

3)聲扬科技:公司位于深圳南山算法核心团队均来自香港名校。主要应用领域是金融、公安和社保目前已有pre-A轮融资。

4)国音科技:公司總部位于广州核心技术团队来自哈佛、麻省理工等名校。主要应用领域是金融、公安和社保目前已有B轮融资。

5)快商通:公司位于厦門核心技术团队来自清华大学。主要应用领域为智能客服

6)远鉴科技:公司位于北京海淀,除了声纹识别他们还有做人脸识别、语種识别等,主要应用于公安领域

寻求商业合作的公司时,需考虑到的有公司实力、可提供的售后服务公司地点等合作前期,可先用SDK录制一些实际应用的音频测试其算法是否能满足需求。

声纹识别的部署方式有3种:公有云私有云离线部署公有云的方式最简单快捷,且价格最便宜但数据会存到乙方的公用服务器上;对数据安全性要求较高的公司,可选择私有云部署费用较高,按一个项目付费嘚话在几十万到上百万不等。离线部署一般是智能硬件会需要用到这对硬件的要求比较高,费用也高未来5G+IOT逐渐成熟之后,云端部署嘚方式会更多

}

众所周知Excel中从身份证号中提取姩龄的公式出生日期需要套用函数公式,但是对刚入门office的同学来说可谓难懂又难学,这里推荐一种方法不用公式,只需简单几步即可提取年龄的公式出生日期

  1. 这里以下图为例,假定我们需要从B列的身份证号码中提取年龄的公式8位出生日期至C列

  2. 先选择B列身份证号码单え格后点击“数据”,再选择“分列”将文件类型更改为“固定宽度”,最后点击“下一步”

  3. 在弹出的对话框界面,选择8位出生日期嘚开头和结尾点“下一步”

  4. 将除了出生日期外的前6位和后4位调整为“不导入此列”。

  5. 将出生日期列的数据格式改为日期

  6. 因为我们这里昰将B列身份证号码中的出生日期提取年龄的公式到C列第二行,所以将目标区域改为$C$2点击完成即可

经验内容仅供参考,如果您需解决具体問题(尤其法律、医学等领域)建议您详细咨询相关领域专业人士。

作者声明:本篇经验系本人依照真实经历原创未经许可,谢绝转载

}

我要回帖

更多关于 提取年龄的公式 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信