论文笔记：Tracking by Natural Language Specification-白红宇的个人博客

论文笔记：Tracking by Natural Language Specification

发布日期：2021-09-24 22:28:41 浏览次数：2 分类：技术文章

本文共 983 字，大约阅读时间需要 3 分钟。

Tracking by Natural Language Specification

2018-04-27 15:16:13

Paper:

Code:

The Proposed Models：

本文更加关注的是 Model III：联合文本和图像进行跟踪

Attention Model.

　　Why：随着跟踪的进行，刚开始能够很好描述第一帧情况的语言描述，可能已经不再适用于后续的视频帧。所以，我们需要随着跟踪的进行，关注文本中不同的单词描述（Therefore, we develop an attention model in the language tracking network to selectively focus on parts of the lingual specification about the visual target）。

　　How：我们首先将单词映射成 vector，然后用 LSTM network 来从 the word sequence，产生 hidden states $h_i$。不同于简单的利用最后一个时刻的 hidden state，我们计算这些 hidden states 的加权求和：

　　其中，权重代表了单词的重要性。这些权重是通过一个多层感知机（MLP) 基于每一个单词位置的 hidden states 以及目标 B 的 visual features z：

　　其中，attention weights 也用 softmax 进行归一化。这个 attention 权重是通过将 visual target 和在每个单词位置的单词序列进行匹配得到的。所以，和目标物体属性相关的单词就会被赋予更高的权重。

Model III details：

　　为了得到最终的预测，我们首先将 language and visual target 的响应图进行组合。然后利用 1*1 convolution 在堆叠的 response map 上进行处理，得到：

　　对于模型 III，我们计算 the tracking trajectory of the target：

转载于:https://www.cnblogs.com/wangxiaocvpr/p/8962692.html

转载地址：https://blog.csdn.net/a1424262219/article/details/102148585 如侵犯您的版权，请留言回复原文章的地址，我们会给您删除此文章，给您带来不便请您谅解！

上一篇：论文笔记：Semantic Segmentation using Adversarial Networks

下一篇：论文笔记：Attention Is All You Need

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

发表评论

最新留言

关于作者

推荐文章