基于多输入流的卷积行为识别网络*

刘石磊李钦杨耿

1. 深圳信息职业技术学院广东深圳 518172；

2. 香港理工大学香港 999077

行为识别作为计算机世界领域的研究重点，在视频监控、人机交互、环境辅助生活、智能驾驶等应用方面有很大的应用空间。但是，受到遮挡、视角变化、尺度变化、阴影、光照变化和类内变异与类间相似性等的影响，人体行为识别率并不理想。

由当前的行为识别方法上看，主要体现在以下方面：第一，基于图像局部特征检测的方法，即利用多极体系结构分级的建构实施行为识别的方法；
第二，运用深度学习开展行为识别的方法。

基于图像局部特征检测的方法：使用方向梯度直方图（Hog）或尺度不变（SHIFT）检测子来提取视频中的形状信息，并用光流直方图（HOF）或运动边界直方图特征提取视频中的运动信息（MBH），然后用词包形式进行编码，并训练分类器识别人体行为[1-3]。

基于深度学习的方法：以上所提出的基于图像局部特征的人体行为识别方法，即把视频图像中所提取的局部特征，依托手工制造获得高维特征，所以这些方法具有很强的针对性，但通用性并不是很好。为了获取通用性强的视频中人体行为识别的方法，近些年来，学者们开始对基于深度学习算法应用的研究。

由目前的基于深度学习的方法上看，主要如下：第一，基于双流的方法，即运用空间流（spatial）、结合帧图像提取到的光流场图像（temporal flow），并对视频图像、密集分流开展CNN模型的训练，判断两个分支网络关于动作的识别，融合两个网络的直接平均分类得分、svm分类得分，从而得出最终的结果[4-6]。

第二类是基于3D卷积网络的方法，通过3D卷积，可以直接处理视频[7-9]。

当前，在基于视频的行为识别应用领域，深度学习得到了普遍应用，但是仍面临着两个主要问题：一是长范围时间结构在理解视频中较长时间的行为上起着重要作用，但是目前的神经网络结构大多只关注表象和短时间段的运动；
二是在实际中，对于深度卷积神经网络的训练而言，亟须大量的训练样本，进一步优化其网络性能，但视频数据的样本量是有限的。因此如何设计有效的深度网络来学习视频序列的最佳表示，并在有限的训练样本下，训练网络以提高模型的性能是目前急需解决的研究课题。本文提出一种基于多输入流的行为识别网络，首先将视频分段，然后利用稀疏采样策略提取视频序列, 使得网络能学习到较长时间范围结构，同时提出基于多输入流的卷积网络结构来提高双流卷积神经网络在视频行为识别方面的处理能力。

1.1 稀疏采样

在时间结构上视频的连续帧是高度冗余的。因此，密集的时间采样，通常导致高度相似的采样帧，这是不必要的。相反，基于这种情况，使用稀疏时间采样策略更有利。所以，我们在长视频序列上，利用稀疏采样方案，对短片段进行提取，值得注意的是，样本依时间维度进行均匀分布。在这一前提下，使用分段结构，对源自采样片段的信息实施聚合处理。由这个层面上看，时间段网络能够在整体上建模远程时间结构视频。此外，这种稀疏采样策略，使用比较低的成本，对相关信息进行保留，对时间和资源进行合理预算，以此开展对长视频序列的端到端学习。为了充分利用视频中的视觉内容，我们提出基于多输入流的卷积行为识别网络。

具体的网络结构如下：

具体实施方法：首先，将一个输入的视频分割成K个部分，如接着，对得到的K组视频序列稀疏随机采样得到并将输入双流（two-stream）卷积神经网络中（图中K组网络共享参数W），输出对应K组得分；
接下来，运用平均均值的融合方法得到最终类别得分，该部分对应图1中segmental consensus部分，并且用表示融合后的输出。最后将提取出时间和空间信息合并作为最终特征来进行分类处理。

在此，我们使用Softmax函数来进行分类，使用标准的分类交叉熵损失（cross-entropy loss）来度量损失函数，以及随机梯度下降法（SGD）来训练网络参数。

网络损失函数定义如下：

其中，C是动作的类别数，yi代表第i类的groundtruth标签。

网络结构：选择BN-Inception结构设计时空双流（twostream）卷积神经网络，其中，空间流卷积神经网络作用在单帧的RGB图像上（single RGB images），而时间流卷积神经网络以堆叠的光流数据帧（stacked optical flow field）作为输入。

1.2 防止过拟合

视频数据量过少会使得网络面临严重的过拟合问题。针对此类问题我们提出三种防止过拟合的方法

1.2.1 数据增强。数据增强能出现不同的训练样本，能有效避免出现严重的过拟合情况。在传统的 two-stream 中，运用随机裁剪、水平翻转方法，拓展训练样本的量。此外，还可以采用两种新方法：①角裁剪（corner cropping），即只由图片的中心、边角对区域进行提取，以此防止对关注图片的中心进行默认。②尺度抖动（scale-jittering），即把输入图像、光流场的大小进行固定，对于裁剪区域的宽和高而言，对其进行随机选择。最终，这些裁剪区域能被调整成最为恰当的大小，并在网络训练中得以运用。事实上，这种方法不光包括了尺度抖动，还包括了宽高比抖动。

1.2.2 交叉 - 模态预训练（Cross modality Pre-training）。当训练样本较少时，预训练是一种较好的训练神经网络防止过拟合的方法。

1.2.3 正则化（Regularization Technique）。批量归一化（BN）可以用来解决协方差偏移（covariate shift）的问题。

在HW[10]和Caltech101[11]数据可上进行了实验，表1和表2给出了几种算法和我们提出的算法的比较。由表1和表2可知，我们算法明显优于其他几种算法。

表1 几种算法在HW数据库上的识别率（%）和方差

表2 几种算法在Caltech101数据库上的识别率（%）和方差

长范围时间结构在理解视频中较长时间的行为上起着重要作用。深度学习虽然已经被有效地运用到静止图像的分类研究上，但并不能有效地提取出较长时间范围视频序列中的时序结构信息，因此如何设计出合适的卷积神经网络结构来有效提取长时间范围结构是目前行为识别需要解决的一个关键问题和难点。本文设计了一种卷积神经网络，能够有效地提出视频序列中的图像信息和时序结构，从而达到对行为视频进行分类的目的。

猜你喜欢训练样本卷积神经网络基于3D-Winograd的快速卷积算法设计及FPGA实现北京航空航天大学学报(2021年9期)2021-11-02人工智能科技创新与应用(2020年6期)2020-02-29神经网络抑制无线通信干扰探究电子制作(2019年19期)2019-11-23从滤波器理解卷积电子制作(2019年11期)2019-07-04基于傅里叶域卷积表示的目标跟踪算法北京航空航天大学学报(2018年1期)2018-04-20宽带光谱成像系统最优训练样本选择方法研究北京理工大学学报(2016年6期)2016-11-22融合原始样本和虚拟样本的人脸识别算法电视技术(2016年9期)2016-10-17基于稀疏重构的机载雷达训练样本挑选方法系统工程与电子技术(2016年7期)2016-08-21基于神经网络的拉矫机控制模型建立重型机械(2016年1期)2016-03-01复数神经网络在基于WiFi的室内LBS应用大连工业大学学报(2015年4期)2015-12-11

推荐访问:卷积识别输入