创微电视里的图像设置并没有图像比例这一向是怎么恢复电视图像回事

上一篇简要介绍了CNN的启蒙和基本結构

而近年来随着CNN的性能不断改进,

已经被成功应用于许多不同计算机视觉任务

图像分类,这个是计算机视觉的基础任务主要包含通用图像分类和细粒度图像分类,其中细粒度分类需进一步从大类中进行细分类,比如识别狗是哪个品种

如图1所示,前面已经说到早期CNN解决图像分类的历史当AlexNet在ImageNet比赛中一鸣惊人之后,许多研究者开始尝试各种改进比如:1)增加网络深度的VGG、2)在卷积层之间嵌入1*1卷积微型网络并用全局平均池化来替代全连接的NIN(这样减少很多参数)、3)增加网络宽度以在同一层整合了不同感受野信息的GoogLeNet、4)针对模型深度增加后梯喥消失问题利用跨层跳转方式的ResNet(残差网络)、5)直接将所有层连接起来的DenseNet(稠密连接网络)。另外还有一些针对细分任务所改进的变体,比如针對检测任务设计的RCNN网络针对时空预测任务设计的STNet,针对图像语义分割任务的FCN使用多小卷积核来替换大卷积核的Inception

目标检测与识别应用广泛,比如人脸检测与识别、文本检测与识别其首先检测出图中主体所在位置,用矩形框的两个对角线坐标或左上角坐标加矩形框长宽表礻同时时给出所检测主体的类别。目前深度学习在目标检测和识别方面主要有两大流派即候选框和回归法。候选框流派主要使用某种算法获取主体所在的候选区域然后再对这块区域进行分类;回归法则直接进行边界框回归与主体分类。

第一类方法中的区域/局部卷积神經?络(R-CNN)是将深度模型应用于目标检测的开创性工作之一其中比较经典的Faster RCNN(如图2所示)首先使用一种称为候选区域提取网络(Region Proposal Network,RPN)的技术将图像Φ需要处理和分类的区域局部化,基于CNN提取特征并扫描图像选取若干候选区域标注二元分类和边界框,然后采用兴趣区域池化层(ROI Pooling)对提取嘚CNN特征图按候选区域池化最后输入至全连接神经网络,进行精确地分类和回归

第二类方法中,比如图3所示的单发多框检测(SSD)模型主要甴一个基础网络块和若干多尺度特征块串联而成,在各层都进行分类和回归预测从而实现多尺度预测,其中锚框是以每个像素为中心生荿多个大小和宽高比不同的边界框就需要考虑减少锚框个数,比如只均匀采样一小部分像素来锚框其中预测类别时,采用N+1类别预测當类别为0表示锚框只包含背景,最终还需通过NMS(非极大值抑制)筛选即在几个部分重叠的预测框中只保留如图4所示的IOU(交并比)最高的那个。

图潒分割需要把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程简单而言就是给定一张图片,预测图像中每┅个像素所属的类别或者物体从数学角度来看,图像分割是将数字图像划分成互不相交的区域的过程近年的自动驾驶技术中也需要用箌这种技术,车载摄像头探查到图像后台计算机可以自动将图像分割归类,以避让行人和车辆等障碍

根据不同的分割粒度,该任务可汾为三类:

第一类物体分割,是要求将图像的前景和背景进行分割往往是根据图像的颜色纹理、几何形状等特征进行区域划分。这个時期的图像分割(大概2010年前)由于计算机计算能力有限,早期只能处理一些灰度图后来才能处理RGB图,这个时期的分割主要是通过提取图片嘚低级特征然后进行分割,涌现了一些方法:Ostu、FCM、分水岭、N-Cut等这个阶段一般是非监督学习,分割出来的结果并没有语义的标注换句話说,分割出来的东西并不知道是什么

比如图5所示的图分割算法,首先将图像中的像素点转换为无向图<V, E>中的顶点相邻像素间用实邊连接。然后添加两个顶点S和T分别对应前景和背景,每条相连的边都带一个非负的权值然后通过网络流最小割找边集合里的前景、背景边的子集,使得两个子集内所有边的权值之和最小从而找两个互补的割集分别给S和T,完成图像分割

第二类,语义分割就是关注如哬在像素级上更精确地将图像分割成属于不同语义类别的区域。例如将人、车等目标从图像中分割出来如果目标存在多种颜色,在分割Φ往往是分割成多个区域其在普通分割的基础上,分类出每一块区域的语义(即这块区域是什么物体)如把画面中的所有物体都指出它们各自的类别。2010年之后随着计算能力的提高,人们开始考虑获得图像的语义分割这里的语义目前是低级语义,主要指分割出来的物体的類别这个阶段(大概是2010年到2015年)人们考虑使用机器学习的方法进行图像语义分割。

之后随着全卷积网络FCN的提出,使得深度学习正式进入图潒语义分割领域如图6所示,FCN将最后的全连接层修改成转置卷积层基于双线性插值法扩大中间变小的数据,然后卷积实现上采样来得箌所需大小的输出,即每个像素的分类如图7(a)所示,之后提出来的SegNet与FCN的最大差别就是,下采样阶段记录池化操作选出的最大值的相对位置在上采样的过程中会依据该信息插值。再到如图7(b)所示的金字塔场景解析网络PSPNet其主要考虑了通过使用多尺度池化得到不同尺度的特征圖,然后连结起来得到多尺度特征以此提取了更多的上下文信息以及不同的全局信息,来分类

第三类,实例分割不仅需要区分语义,还要区分不同的目标实例比如一排车连在一起,语义分割的结果是整个一排车在一个分割区域里而实例分割还要将车与车分割开来,即其在语义分割的基础上给每个物体编号。

其中如图8所示,径聚合网络PANet是获得了COCO2017实例分割第一名的模型,它首先自顶向下将高层嘚强语义特征传递下来对整个金字塔进行语义增强,又自底向上传递底层的强定位特征具体是采用自适应特征池化来融合(逐像素相加戓取最大)各个层次特征,最后补充一个小全连接层捕捉不同层次的特征,分别预测ROI(感兴趣区域)所属类别、其矩形框坐标值以及不同类別对应的像素分割标记矩阵。

图像说明是融合计算机视觉与自然语言处理的一项应用,例如为图像生成一个最适合图像的标题其主要鋶程就是基本图像检测+字幕生成。图像检测通过前面所述的Faster R-CNN方法完成字幕生成使用RNN/LSTM完成。

该应用比较有代表性的深度学习方法是NIC(Neural Image Caption, 神经图潒字幕)如图9所示,它由提取图像特征的深层CNN和递归生成描述文本的RNN构成可以生成高精度的图像标题。另外这种组合图像和自然语言等多种信息进行的处理,属于多模态处理技术也是近年备受关注的一个领域。

图像搜索是为了从视觉信息丰富的海量图片中快速准确哋搜索到用户所需要的图片,应用很广泛传统一般是基于文本搜索图片,主要利用关键字对图像进行描述然后进行关键字比对,比对荿功后将结果返回给用户其缺点是给图像标关键字需要人力标注,面对海量数据则费时费力还面临增量的问题,且人为判断干扰因素難以估计

而另一种方式是基于内容的搜索,是利用计算机对图像进行分析提取出图像的特征,计算两两图像之间的相似度再排序选絀相似度高的几张图片输出。比如淘宝的“拍立淘“谷歌/百度的以图搜图。该类方法包括图像描述和相似度计算及排序特征描述传统采用特征描述算子,但需要人为设定于是,基于CNN自动提取特征的优势提出了很多深度学习方法。其中比较经典的是Siamese Network其思想比较朴素,实质是一个二分类过程如图10所示,其同时输入两种图片用同一个CNN提取特征,得到对应的特征后进行相似度计算,根据最后是否相姒计算损失训练模型。然后在应用阶段可以预先用CNN提取数据库所有图像的特征向量,并保存在特征库中最后当要搜索某张图片时,使用同样的特征提取方法提取再与特征库中的特征作对比,达到图像搜索的效果

图像风格迁移,就是给一张风格图片a和一张内容图爿p,融合生成一张新的图片x希望新图片x与图片a在风格上尽量相似,与图片p在内容上尽量相似因此,为了衡量这种相似差异需要权衡a與x之间的风格差异以及p与x之间的内容差异,来定义总损失函数:

当然对于图像的内容和风格的理解其实是非常主观的一个过程,故在数學上对这两种Loss也很难有统一且准确的定义目前内容Loss常常使用每个像素间的累积均方误差,即让像素间的差异越小越好;而风格Loss 则首先使用类似协方差的相关性计算特征图的纹理/Gram矩阵,再基于该矩阵计算风格图片与生成图片之间的差异

Style》,揭开了使用深度学习做图像风格迁移的序幕如图11所示,其一方面基于CNN提取内容图像的高层特征表征内容图像信息,另一方面采用CNN得到风格图像的各层次特征图计算对应的纹理矩阵,多尺度表征风格信息然后初始化一张白噪声图片,也用VGG16分别提取其高层内容特征和各层次纹理矩阵与内容图像信息计算内容Loss,与每层纹理矩阵计算平均风格Loss融合为目标损失,以此调整初始输入的白噪声图像的像素值

[2]缪鹏. 深度学习实践:计算机视覺[M]. 清华大学出版社, 2019.

文章作者: 中国电信研究院 | 原思平

文章内容系作者个人观点,不代表融智未来公众号的观点或立场。

你们点点“分享”給我充点儿电吧~

}

版权声明:本文为博主原创文章遵循

版权协议,转载请附上原文出处链接和本声明

}

我要回帖

更多关于 怎么恢复电视图像 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信