论文解读：实时动作识别中的增强运动向量网络

背景

双流卷积网络（如使用光流CNN，OF-CNN）在视频分析中应用广泛，但其计算开销较高。在K40 GPU上，每计算一帧光流需要60ms，这显著影响了其实时性。为解决这一问题，张等人提出了一个结合光流和运动向量的增强方法，以提升模型的实时性和准确性。

前提知识

H264协议是常用视频压缩标准，主要包括I帧、P帧和B帧：

I帧：第一个帧，仅包含帧内编码的静态信息。

P帧：基于前一帧的差异编码，用于动态信息的表示。

B帧：参考前后帧编码，提供高压缩率但依赖前后帧信息。

本文中，motion vector（运动向量）对应P帧的帧间像素变化，而光流（optical flow）基于像素点的运动信息。两者在信息表达上存在互补性：光流精度高但计算速度慢，运动向量计算速度快但精度不足。

主要贡献

提出使用OF-CNN训练运动向量CNN（MV-CNN），结合光流和运动向量的优势。

提出三种训练方法：

Teacher Initialization (TI)：利用预训练的OF-CNN参数初始化MV-CNN，逐步微调以实现两者融合。

Supervision Transfer (ST)：通过OF-CNN的全连接层对MV-CNN进行监督训练，保留语义信息。

Combination (TI+ST)：结合前两种方法，实现OF-CNN和MV-CNN的高效融合。

数据集与模型

数据集：UCF-101、THUMOS14

模型：基于双流卷积的视频行为识别网络

论文主要思想

OF-CNN和MV-CNN虽然结构相同，但目标不同：

OF-CNN：基于像素点的光流信息，精度高但计算速度慢。

MV-CNN：基于像素块的运动向量，计算速度快但精度不足。

本文通过三种训练方法的结合，弥补了两者的不足：

TI方法：通过预训练参数初始化，实现两者信息的内在关联。

ST方法：通过监督学习保留语义信息，提升MV-CNN的泛化能力。

结合方法：实现OF-CNN和MV-CNN的高效融合，提升实时性和精度。

评估与结论

在两个数据集上，与零训练MV-CNN对比，精度显著提升。

实时性测试显示，第三种方法（TI+ST）每秒计算390帧以上。

Temp参数优化实验表明，temp=2时精度达到79.3%，性能稳定。

对比其他SOTA模型，EMV+RGB-CNN在实时性上接近30倍，精度和实时性均优于其他模型。

总结

本文提出的增强运动向量方法，通过OF-CNN和MV-CNN的结合，有效提升了模型的实时性和精度，适用于视频行为识别任务。

上一篇：MobileNet系列之MobileNet_v2

下一篇：用于视频行为识别的双流卷积网络

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！