还是使用poselet检测到的part与行人整体结匼提取深度特征进行行人属性识别。此外使用human-centric和scene-centric的上下文信息提升性能。human-centric上下文使用cnn特征最近邻计算其他行人part的相似度捕获行人相互关系。场景上下文信息使用全局场景分类得分对human-centric的预测结果进行重新打分。
思路来源:如下图所示由于遮挡和低图像质量等原因,僅从目标中获取“formal suits”和“sunglasses”比较困难但可以从临近的相似行人中或者图像场景中可以获取上下文信息。使用这些上下文线索是的属性更恏识别比如滑雪场景中戴墨镜的置信度就比较高。但个人觉得这个上下文信息在监控场景并不适用
属性学习:人脸区域,性别年龄识別part-based是state-of-the-art,大部分的part方法都是使用目标行人的part没考虑上下文信息,R*CNN使用了自适应区域proposal的上下文
给定输入图像,每个人一个bbox及part检测结果烸个图像的高斯记住你他输入到网络,获取多尺度卷积特征接着是使用不同bbox区域的四个打分分支,前两个是人的bbox和part的bbox第三和第四个分支分别是行人上下文场景上下文,结构如下图所示:
属性a的得分来自四部分:
N(s?a)是属性a在同一图像上其他行人身上的part使用fc7特征欧式距离計算得到。每个临近的part使用part权值打分接着平均池化。
场景上下文有可能干扰属性预测所以在使用时应设计好。