论文笔记:Tracking by Natural Language Specification
发布日期:2021-09-24 22:28:41 浏览次数:2 分类:技术文章

本文共 983 字,大约阅读时间需要 3 分钟。

Tracking by Natural Language Specification

2018-04-27 15:16:13 

 

Paper: 

Code:  

 

The Proposed Models

本文更加关注的是 Model III:联合文本和图像进行跟踪

 

Attention Model.

  Why:随着跟踪的进行,刚开始能够很好描述第一帧情况的语言描述,可能已经不再适用于后续的视频帧。所以,我们需要随着跟踪的进行,关注文本中不同的单词描述(Therefore, we develop an attention model in the language tracking network to selectively focus on parts of the lingual specification about the visual target)。

  How:我们首先将单词映射成 vector,然后用 LSTM network 来从 the word sequence,产生 hidden states $h_i$。不同于简单的利用最后一个时刻的 hidden state,我们计算这些 hidden states 的加权求和:

  

  其中,权重代表了单词的重要性。这些权重是通过一个多层感知机(MLP) 基于每一个单词位置的 hidden states 以及 目标 B 的 visual features z:

  

  其中,attention weights 也用 softmax 进行归一化。这个 attention 权重是通过将 visual target 和 在每个单词位置的单词序列 进行匹配得到的。所以,和目标物体属性相关的单词就会被赋予更高的权重。

 

Model III details

  为了得到最终的预测,我们首先将 language and visual target 的响应图进行组合。然后利用 1*1 convolution 在堆叠的 response map 上进行处理,得到:

  

  对于模型 III,我们计算 the tracking trajectory of the target

  

 

 

  

转载于:https://www.cnblogs.com/wangxiaocvpr/p/8962692.html

转载地址:https://blog.csdn.net/a1424262219/article/details/102148585 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:论文笔记:Semantic Segmentation using Adversarial Networks
下一篇:论文笔记:Attention Is All You Need

发表评论

最新留言

很好
[***.229.124.182]2024年04月17日 21时20分16秒