使用增强运动向量CNNs的实时行为识别
发布日期:2021-05-07 13:11:52 浏览次数:16 分类:精选文章

本文共 1072 字,大约阅读时间需要 3 分钟。

论文解读:实时动作识别中的增强运动向量网络

背景

双流卷积网络(如使用光流CNN,OF-CNN)在视频分析中应用广泛,但其计算开销较高。在K40 GPU上,每计算一帧光流需要60ms,这显著影响了其实时性。为解决这一问题,张等人提出了一个结合光流和运动向量的增强方法,以提升模型的实时性和准确性。

前提知识

H264协议是常用视频压缩标准,主要包括I帧、P帧和B帧:

  • I帧:第一个帧,仅包含帧内编码的静态信息。
  • P帧:基于前一帧的差异编码,用于动态信息的表示。
  • B帧:参考前后帧编码,提供高压缩率但依赖前后帧信息。

本文中,motion vector(运动向量)对应P帧的帧间像素变化,而光流(optical flow)基于像素点的运动信息。两者在信息表达上存在互补性:光流精度高但计算速度慢,运动向量计算速度快但精度不足。

主要贡献

  • 提出使用OF-CNN训练运动向量CNN(MV-CNN),结合光流和运动向量的优势。
  • 提出三种训练方法:
    • Teacher Initialization (TI):利用预训练的OF-CNN参数初始化MV-CNN,逐步微调以实现两者融合。
    • Supervision Transfer (ST):通过OF-CNN的全连接层对MV-CNN进行监督训练,保留语义信息。
    • Combination (TI+ST):结合前两种方法,实现OF-CNN和MV-CNN的高效融合。
  • 数据集与模型

    • 数据集:UCF-101、THUMOS14
    • 模型:基于双流卷积的视频行为识别网络

    论文主要思想

    OF-CNN和MV-CNN虽然结构相同,但目标不同:

    • OF-CNN:基于像素点的光流信息,精度高但计算速度慢。
    • MV-CNN:基于像素块的运动向量,计算速度快但精度不足。

    本文通过三种训练方法的结合,弥补了两者的不足:

  • TI方法:通过预训练参数初始化,实现两者信息的内在关联。
  • ST方法:通过监督学习保留语义信息,提升MV-CNN的泛化能力。
  • 结合方法:实现OF-CNN和MV-CNN的高效融合,提升实时性和精度。
  • 评估与结论

  • 在两个数据集上,与零训练MV-CNN对比,精度显著提升。
  • 实时性测试显示,第三种方法(TI+ST)每秒计算390帧以上。
  • Temp参数优化实验表明,temp=2时精度达到79.3%,性能稳定。
  • 对比其他SOTA模型,EMV+RGB-CNN在实时性上接近30倍,精度和实时性均优于其他模型。
  • 总结

    本文提出的增强运动向量方法,通过OF-CNN和MV-CNN的结合,有效提升了模型的实时性和精度,适用于视频行为识别任务。

    上一篇:MobileNet系列之MobileNet_v2
    下一篇:用于视频行为识别的双流卷积网络

    发表评论

    最新留言

    表示我来过!
    [***.240.166.169]2025年04月14日 05时36分21秒