多模态数据内容分析与识别技术什么行业

多模态手部生物特征识别技术分析_论文_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
多模态手部生物特征识别技术分析
中国最大最早的专业内容网站|
总评分0.0|
该文档仅有一页,您已阅读完毕,如需下载请购买
定制HR最喜欢的简历
你可能喜欢
您可以上传图片描述问题
联系电话:
请填写真实有效的信息,以便工作人员联系您,我们为您严格保密。拒绝访问 | www.chinairr.org | 百度云加速
请打开cookies.
此网站 (www.chinairr.org) 的管理员禁止了您的访问。原因是您的访问包含了非浏览器特征(3a1ae2e2a7c03a7c-ua98).
重新安装浏览器,或使用别的浏览器见识下步态分析 当下最酷的生物识别技术
  对于步态分析,存在这样一个假设,即每个人拥有一幅独特的面孔,同时每个人也拥有与他人不同的步态。当然,上述假设得到了医学研究的认可,也就是说&每个人的步态都是唯一的&。从解剖学的角度来看,步态唯一性的物理基础是每个人生理结构的差异性,不同的腿骨长度、肌肉强度、重心高度以及运动神经灵敏度,共同决定了步态的唯一性。  与虹膜、指纹、声音等其他生物识别技术相同的是,步态分析也存在稳定性问题,也就是说,一个人的步态会因为伤病、体重增或减甚至是着装舒适度等因素影响而改变。因此,其稳定性上也存在一定的挑战。  举个很简单的例子,例如今天脚上穿的鞋子不合脚或者不够舒适,那么穿着者的走路姿态就会跟着发生变化;又或是走路或运动时,不小心将脚踝扭伤,那么此时对于一瘸一拐的你而言,步态分析系统就会认为你是另一个人或导致验证失败。实际上,每种生物识别方式,都有可能因为一些意外而无法验证,因此,建立一套综合全面性的验证体系很有必要,也就是所谓的备选方案。  众所周知,每种生物识别技术都会因为一些&意外&而导致不能完整准确的采集特征信息。步态分析在采集数据上,也存有类似问题。例如长裤平底鞋与长裙高跟鞋的区别,又或是一些信教国家,长袍是其传统服装,腿部被完全遮挡住,一致无法实现步态分析等等。  看到此处,有人或许会说那要它有卵用?实际上,步态分析的优势在于远距离识别,最远可至数百米。此外,步态分析还可以轻松的区分出人的不同模式,例如行走、奔跑、负重等等。未来,将多种生物识别技术组合起来,根据实际的应用场景、用户条件、安全等级自动切换,形成多模态识别技术,将比任何单一生物特征更具竞争力。
键盘也能翻页,试试“← →”键
网络设备论坛帖子排行
最新资讯离线随时看
聊天吐槽赢奖品多模态媒体数据分析关键技术研究--《天津大学》2014年博士论文
多模态媒体数据分析关键技术研究
【摘要】:随着信息技术的飞速发展,媒体数据的形式已经从单一文本数据逐渐转变为表达形式更生动,内容更丰富的图片,视频,音频等多模态数据,而各种数字化信息采集设备及互联网的普及,使得多模态数据正呈现出海量增长的趋势,如何有效的存储,传输,使用及管理这些多模态媒体数据,是摆在我们面前的一个巨大的挑战和亟待解决的问题。近20年来,人们投入了大量的时间和资金对多媒体数据进行分析和理解,力求提高对数字化信息的利用率。例如,谷歌早期的文本检索系统,用户可以通过关键词寻找自己需要的文本信息。网络问答平台知乎(/),关注于对用户所提问题的分析与理解,使用尽量短的时间提供给用户尽量精确的答案。百度则开发出支持数字图片搜索的检索引擎。但这些解决方案的提出往往仅是针对单一模态的媒体数据进行处理,在多模态数据海量增加的今天,传统的数据处理,分析,检索的结果已经无法满足人们对媒体信息综合性的需求,从而催生了新一代面向多模态媒体数据分析技术。本文正是基于此方向,在多模态媒体数据分析体系中选择了三个针对性地问题展开探索性的研究。第一、图片语义提取是挖掘图片与文本两模态媒体数据之间映射关系的关键技术。随着移动互联的普及,图片在产生的同时往往伴随着相关地理信息,文本描述信息等伴生模态数据的产生。如何充分利用多模态数据之间的相互关系,来解决图片语义的生成是非常重要的研究方向。针对图片在地理信息上的一致性,本文提出了一种基于辅助域数据的跨域学习算法,它能够有效地解决图片与文本两模态数据之间的映射关系。算法首先根据图片的地理信息收集相关度较高的文本信息,把图片的语义信息限制在一定的范围内;之后利用已知的文本信息从互联网中搜索相应的图片数据作为辅助域数据;最后利用跨域学习算法得到图片数据与文本数据之间的映射关系,从而实现图片的语义提取。相应的实验也证明了方法的有效性和准确性。第二、视频语义提取是挖掘视频数据向文本模态数据之间映射关系的关键技术。由于视频在结构上是一系列图片在时间序列上的组合,因此在视频语义信息的理解和挖掘中,充分利用每帧图片中目标在时间序列上的相关性是非常重要的研究方向,考虑到视频中目标在短时间上的不变性,本文提出了一种基于图匹配的数据融合算法来解决图片内容与视频事件之间的映射关系。算法首先利用块检测模型在视频每帧中标记出目标的具体位置以及所在区域,检测的过程中,算法引入在线学习的思想,为每一个跟踪目标训练独一无二的检测模型,且随着目标的运动对检测模型进行更新和矫正以保证检测模型总是最适应跟踪目标当前的状态;之后,充分利用检测目标在空间和时间上的相关性构建图模型,使用图匹配算法解决目标数据融合问题,得到每一个目标在视频序列中的整体状态及底层特征变化情况。最后,根据目标的变化情况来提取视频的语义信息。第三、多模态数据的语义提取是在拥有多种模态媒体数据条件下实现信息综合应用的关键技术。在面对海量多模态媒体数据时,根据用户的具体需求,多模态媒体数据会形成一定的交集,构建针对某些特定目标(地点,人,物等)的语义提取算法将为用户有效地获取相关信息提供有力的支撑。考虑到多模态数据在语义上的相关性,本文提出了一种基于地点的多模态数据语义提取模型。首先从地点社交网络平台Foursquare中收集大量与地点相关的多模态数据(图片,文本,视频,地理坐标等)。然后利用多模态数据之间相互关系来构建多模态数据的图模型结构,最后利用图分割/分类算法来提取多模态数据语义信息。实验结果表明本方法可以有效的解决多模态数据的语义提取问题。全文在分析数据特性的基础上,提出了一系列的创新性算法来解决多模态媒体数据在实际应用中面临的诸多问题。论文主要的创新点可以包括以下几个方面:针对图片语义提取问题,首次把跨域学习算法应用到了图片语义提取中,实现了互联网图片的自动标注;针对目标检测的遮挡问题,在已有目标检测算法的基础上,提出了一种改进的块检测算法,算法利用物体的局部特征有效的解决了遮挡目标的检测;针对视频序列中的目标数据融合问题,成功的将数据融合过程转换为了经典的图匹配问题,并成功的将目标函数的最优化过程转换成了标准的瑞利熵最大化求解过程;针对多模态数据下数据间“语义鸿沟”的问题,提出了基于图模型的语义提取算法,并在基于地点的多模态数据中对模型性能进行了测试,实验最终证明了算法的有效性。
【关键词】:
【学位授予单位】:天津大学【学位级别】:博士【学位授予年份】:2014【分类号】:TP391.41【目录】:
摘要4-6ABSTRACT6-11第一章 绪论11-19 1.1 研究背景及意义11-12 1.2 多模态信息特点及挑战12-14 1.3 多模态信息关键技术14-15 1.4 论文主要工作15-19第二章 多模态媒体数据分析19-39 2.1 单模态媒体数据分析20-32
2.1.1 文本特征提取20-23
2.1.2 图片特征提取23-26
2.1.3 视频特征提取26-30
2.1.4 音频特征提取30-32 2.2 多模态媒体数据分析32-38
2.2.1 互联网图片内容的自动标注32-34
2.2.2 视频内容标注34-37
2.2.3 多模态数据语义提取37-38 2.3 本章小结38-39第三章 基于跨域学习的图片自动标注算法研究39-53 3.1 引言39-40 3.2 系统设计思路及整体流程40-46
3.2.1 自动的图像标注文本选择系统41-43
3.2.2 图片预处理算法43-45
3.2.3 跨域学习算法45-46 3.3 实验46-51
3.3.1 收集数据46-47
3.3.2 实验结果47-51 3.4 本章小结51-53第四章 监控视频下的事件检测算法研究53-73 4.1 引言53-54 4.2 整体跟踪系统设计思路及流程54-62
4.2.1 目标检测算法55-56
4.2.2 基于TMD的Tracklet生成算法56-58
4.2.3 基于图匹配的Tracklet融合算法58-62 4.3 实验设计与分析62-71
4.3.1 测试数据集62-63
4.3.2 特征表征63
4.3.3 评测标准63-65
4.3.4 试验结果分析65-70
4.3.5 分析70-71 4.4 事件检测71-72 4.5 本章小结72-73第五章 多模态数据下的地点语义提取73-89 5.1 引言73-74 5.2 基于地点的主题模型74-81
5.2.1 文本信息处理75-76
5.2.2 图片信息处理76-79
5.2.3 多模态数据图结构79-80
5.2.4 主题模型提取80-81 5.3 基于主题模型应用81-82
5.3.1 图片地点预测81
5.3.2 地点功能概述81-82 5.4 实验分析82-88
5.4.1 数据库介绍82
5.4.2 图片地点预测实验结果82-87
5.4.3 地点功能摘要87-88 5.5 本章小结88-89第六章 总结与展望89-93 6.1 本文工作总结89-90 6.2 困难及其未来工作展望90-93参考文献93-105发表论文和参加科研情况说明105-107致谢107-109
欢迎:、、)
支持CAJ、PDF文件格式
【相似文献】
中国期刊全文数据库
彭建武;于晓燕;齐伟;;[J];图书馆界;2011年01期
保罗·范登侯汶;杨颖;;[J];国际新闻界;2013年04期
王学东;胡宋敏;谢辉;丁帅;曹高辉;;[J];情报科学;2014年07期
胡壮麟;;[J];符号与传媒;2011年01期
张薇;徐筱秋;;[J];校园英语(教研版);2012年05期
郭志斌;;[J];新闻爱好者;2010年14期
;[J];莆田学院学报;2011年01期
王瑜;穆志纯;徐正光;;[J];计算机应用与软件;2009年02期
胡阿旭;陈贵萍;于洪志;;[J];西北民族大学学报(自然科学版);2012年01期
黄戎;肖超;;[J];机床与液压;2012年24期
中国重要会议论文全文数据库
王爱东;谷珍;杨燕平;白鹤;;[A];语言与文化研究(第十四辑)[C];2014年
张霄军;;[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
夏凡;王宏;;[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
赵贤;;[A];2010年全国应用逻辑研讨会会议论文集[C];2010年
张友安;胡云安;周绍磊;;[A];1996中国控制与决策学术年会论文集[C];1996年
钟若飞;郭华东;王为民;朱博勤;;[A];第十四届全国遥感技术学术交流会论文摘要集[C];2003年
康志峰;;[A];第十四届全国科技翻译研讨会论文汇编[C];2011年
黄俊辉;李文政;李学军;;[A];中国肿瘤内科进展 中国肿瘤医师教育(2014)[C];2014年
孟祥亮;史元春;杨欣;;[A];第四届和谐人机环境联合学术会议论文集[C];2008年
郭华东;王为民;朱博勤;;[A];全国国土资源与环境遥感技术应用交流会论文文集[C];2004年
中国重要报纸全文数据库
刘垠;[N];大众科技报;2009年
王建成;[N];中国航天报;2011年
中国博士学位论文全文数据库
高静;[D];哈尔滨工业大学;2015年
侯涛;[D];兰州交通大学;2015年
聂为之;[D];天津大学;2014年
张征;[D];山东大学;2011年
李宝磊;[D];云南大学;2015年
潘鸣威;[D];上海外国语大学;2011年
逯波;[D];东北大学;2013年
谭帅;[D];东北大学;2012年
王洋;[D];中国科学技术大学;2013年
张志坚;[D];中国科学技术大学;2008年
中国硕士学位论文全文数据库
刘洁;[D];西南大学;2015年
邵荣;[D];西南大学;2015年
王玉竹;[D];西南大学;2015年
周德英;[D];华南理工大学;2015年
蒋迪;[D];天津商业大学;2015年
宋康利;[D];湖南工业大学;2015年
张君艳;[D];华中师范大学;2015年
凌霄;[D];广东外语外贸大学;2015年
杨晓倩;[D];宁夏大学;2015年
葛欣;[D];闽南师范大学;2015年
&快捷付款方式
&订购知网充值卡
400-819-9993
《中国学术期刊(光盘版)》电子杂志社有限公司
同方知网数字出版技术股份有限公司
地址:北京清华大学 84-48信箱 大众知识服务
出版物经营许可证 新出发京批字第直0595号
订购热线:400-819-82499
服务热线:010--
在线咨询:
传真:010-
京公网安备75号工具类服务
编辑部专用服务
作者专用服务
基于多模态信息的新闻视频内容分析技术研究
对视频数据的有效处理、浏览、检索和管理正伴随着视频数据的快速增长而成为亟待解决的现实问题。视频内容分析技术旨在将非结构化的视频数据结构化,并提取其中的语义内容,构建低层特征到高层语义之间的桥梁,最终建立视频的摘要、索引和检索等应用系统,提供给用户方便的视频内容获取方式。
本论文以新闻视频为研究对象,以音频、字幕、视觉等多模态信息及其有效融合为研究手段,以模式识别理论中的相关模型为工具,对视频内容分析技术展开了较为深入的研究。主要贡献包括以下三个方面:
(1)提出了一种新颖的基于MPEG压缩域的主持人镜头快速检测算法。其中,在预处理部分,引入了一种改进的利用压缩域信息检测人脸的方法;在镜头聚类部分,构造了一个新颖的度量特征量对主持人镜头采用系统聚类法进行聚类,并用模糊C均值聚类法解决了聚类过程中自适应阈值确定的问题。该算法在保持较高检测性能的前提下提高了主持人镜头的检测速度。
(2)提出了一种基于决策树的镜头分类算法,将新闻视频镜头依次分为广告、“其他”、静态图像、主持人、记者和独白六类。其中广告、“其他”和静态图像三类分别利用黑帧、运动、时间以及人脸等特征进行检测;主持人镜头采用聚类方法进行检测;对于比较难区分的记者和独白镜头,创新性地将它们的检测转换为文本序列标注的问题,并采用条件随机场进行建模。该算法有效地融合了音频、人脸以及上下文等多模态信息,对新闻视频中重要的镜头进行了区分,并取得了较好的分类结果。
(3)提出了一种融合音频、字幕以及视觉等多模态信息的新闻故事单元分割算法。创新性地将字幕变化、音频类型以及镜头类型等高层次内容特征联系起来共同处理,巧妙地将新闻镜头序列转换成为多个关键词序列,使新闻故事单元分割问题转换成为文本序列分割的问题。该算法采用条件随机场进行建模,充分利用了每个序列内以及序列之间的上下文信息,得到了较好的分割性能。
此外,论文还综述了视频内容分析技术,构造了一个基于规则和隐马尔可夫模型的分层音频分类方法,实现了一个较完整的新闻视频中字幕提取框架,最终设计并实现了一个基于COM架构的视频内容分析与摘要系统。
综上所述,本论文分别从音频、字幕、视觉以及它们之间的有效融合等方面对新闻视频进行了基于内容的分析,实验结果证明了这些算法的有效性。
学科专业:
授予学位:
学位授予单位:
导师姓名:
学位年度:
在线出版日期:
本文读者也读过
相关检索词
万方数据知识服务平台--国家科技支撑计划资助项目(编号:2006BAH03B01)(C)北京万方数据股份有限公司
万方数据电子出版社}

我要回帖

更多关于 饲料行业市场分析内容 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信