
使用增强运动向量CNNs的实时行为识别
提出使用OF-CNN训练运动向量CNN(MV-CNN),结合光流和运动向量的优势。 提出三种训练方法: TI方法:通过预训练参数初始化,实现两者信息的内在关联。 ST方法:通过监督学习保留语义信息,提升MV-CNN的泛化能力。 结合方法:实现OF-CNN和MV-CNN的高效融合,提升实时性和精度。 在两个数据集上,与零训练MV-CNN对比,精度显著提升。 实时性测试显示,第三种方法(TI+ST)每秒计算390帧以上。 Temp参数优化实验表明,temp=2时精度达到79.3%,性能稳定。 对比其他SOTA模型,EMV+RGB-CNN在实时性上接近30倍,精度和实时性均优于其他模型。
发布日期:2021-05-07 13:11:52
浏览次数:16
分类:精选文章
本文共 1072 字,大约阅读时间需要 3 分钟。
论文解读:实时动作识别中的增强运动向量网络
背景
双流卷积网络(如使用光流CNN,OF-CNN)在视频分析中应用广泛,但其计算开销较高。在K40 GPU上,每计算一帧光流需要60ms,这显著影响了其实时性。为解决这一问题,张等人提出了一个结合光流和运动向量的增强方法,以提升模型的实时性和准确性。
前提知识
H264协议是常用视频压缩标准,主要包括I帧、P帧和B帧:
- I帧:第一个帧,仅包含帧内编码的静态信息。
- P帧:基于前一帧的差异编码,用于动态信息的表示。
- B帧:参考前后帧编码,提供高压缩率但依赖前后帧信息。
本文中,motion vector(运动向量)对应P帧的帧间像素变化,而光流(optical flow)基于像素点的运动信息。两者在信息表达上存在互补性:光流精度高但计算速度慢,运动向量计算速度快但精度不足。
主要贡献
- Teacher Initialization (TI):利用预训练的OF-CNN参数初始化MV-CNN,逐步微调以实现两者融合。
- Supervision Transfer (ST):通过OF-CNN的全连接层对MV-CNN进行监督训练,保留语义信息。
- Combination (TI+ST):结合前两种方法,实现OF-CNN和MV-CNN的高效融合。
数据集与模型
- 数据集:UCF-101、THUMOS14
- 模型:基于双流卷积的视频行为识别网络
论文主要思想
OF-CNN和MV-CNN虽然结构相同,但目标不同:
- OF-CNN:基于像素点的光流信息,精度高但计算速度慢。
- MV-CNN:基于像素块的运动向量,计算速度快但精度不足。
本文通过三种训练方法的结合,弥补了两者的不足:
评估与结论
总结
本文提出的增强运动向量方法,通过OF-CNN和MV-CNN的结合,有效提升了模型的实时性和精度,适用于视频行为识别任务。
发表评论
最新留言
表示我来过!
[***.240.166.169]2025年04月14日 05时36分21秒
关于作者

喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
Linux上TCP的几个内核参数调优
2019-03-06
记一次讲故事机器人的开发-我有故事,让机器人来读
2019-03-06
高德算法工程一体化实践和思考
2019-03-06
判断一个数是否是2的幂
2019-03-06
js 闭包(新)
2019-03-06
vscode 编辑python 如何格式化
2019-03-06
seo 回忆录百度基本概念(一)
2019-03-06
重新整理数据结构与算法(c#)—— 算法套路二分法[二十四]
2019-03-06
用ThreadLocal来优化下代码吧
2019-03-06
netcore中使用session
2019-03-06
Android 开发学习进程0.25 自定义控件
2019-03-06
多媒体文件格式全解说(下)--图片
2019-03-06
淘宝WAP版小BUG分析
2019-03-06
NodeJS+Express+MongoDB
2019-03-06
(四十四)c#Winform自定义控件-水波-HZHControls
2019-03-06
c#winform主题实现的一个方法
2019-03-06
asp.net打印网页后自动关闭网页【无需插件】
2019-03-06
一个人开发的html整站源码分享网站就这么上线了
2019-03-06
SQLServer 查看耗时较多的SQL语句(转)
2019-03-06