A Graphical Social Topology Model for Multi-Object Tracking

评价和感悟
文章内容
总结

评价和感悟

浏览到这篇文章的时候我发现它的写作风格比较好，即图片画得很好，我就好奇人家是咋搞出来这么多图片的，而且看到文中有好多“cluster”的字眼，就花了将近半天时间来看这篇文章。
看完之后发现不过如此嘛。
严格来说，我还未进入cv圈儿，因此对于其中的细节就不去深究了，上面说了，看这个主要是猎奇，哈哈。

好了，言归正传。cv的文章向来充满了各种technical detail，这篇也不例外，夸张地说，这篇文章的各个计算公式就是明目张胆地告诉读者“我就是这么算的，这个式子要实现xxx”，当然没法说清楚的是，要实现xxx可以有很多式子，作者为啥搞成这种形式，恩，没办法，工程性质的东西就这样吧。
不知道搞多目标tracking一般是咋玩儿的，这篇貌似是off-line的吧，因为该算法的特征提取部分（在IV. TOPOLOGY PATTERN TRAINING）依赖于两个阈值，这俩阈值是根据数据集的ground truth (GT) object annotations进行暴力搜索得到的，难以直视啊，不过效果很不错。
难不成对于每一个数据集都要对阈值进行搜索？目测这就是做application的一个无奈之处吧，怪不得作者只花了很少的篇幅讲这个东西。
不过搞应用的一个好处就是related works好写一点吧。

搞清楚了，文中的这些漂亮的插图很多都是根据其物理意义来画的，估计这个圈子的图都比较好看吧……
看来选择一个圈子很重要嘛，有些圈子就是看起来高大上。

既然看了一遍了，就多学点东西再走吧，下面总结一下该文的方法，不知道会有啥可以借鉴的……

文章内容

在形式上，追踪算法的主体在第五章（TRACKING WITH GRAPHICAL TOPOLOGICAL MODEL），但实际上由于追踪算法是直接在提取到的feature上做的，因此本文的主体是前面的特征提取部分。

基本概念

A tracklet $n_i$ is a consecutive sequence of detection responses or interpolated responses that contain the same object. The goal is to associate tracklets that correspond to the same objects, given certain spatial-temporal constraints.

一个tracklet就是，包含相同object的detection responses的一个连续序列。
追踪就是在一定的时空限制下，将tracklet和对应的object联系起来。

第五章：追踪

首先是Group Tracking，作者说，由于单个的tracklet不太稳定，因此先找出来一个group中持续时间很长的tracklet，称其为confident的tracklet，然后基于学习到的 social topology matrix ，将这些 confident tracklet cluster到不同的group中，再用搜索得到的阈值对graph的edge进行剔除。
然后再用一个经验式子，根据学习到的特征直接估计 virtual center states of groups。
这就是Group Tracking。

然后是Individual Tracking，这个应该是按照经典的approach来的，即搞成一个 Linear Programming problem，不去细看了。

第三章：特征提取和Group learning（这个Group learning和聚类有点像了）

首先是Social Topology Matrix：它*encodes the social exchanges occurring among all theobjects in a scene.
就是从图像中估计出来一堆特征，然后再组合（即线性加权）成一个特征（即Social Topology Matrix，后边的算法貌似就是根据这个matrix来做决策的。）。
这些基本特征包括，各个object之间的距离矩阵，各个object之间同时出现（即在同一个frame中出现的）的时间矩阵，速度矩阵就是两个object之间的速度相近程度的矩阵，object的朝向矩阵也是同理。

然后是Social Topology Property，即一个social topology的两个属性： compactness and consistency，这个我没咋看懂，作者定义了这俩属性应该满足的限制条件，目测应该是形成一个group的限制条件？

再往后就是Group learning，即对识别出来的group进行merge或split，因为是视频嘛，各个group一般都会动的，每个group中的人有可能分成好几拨跑向不同的方向啦。
这一步中作者说不同于 clustering and inference methods，本文的方法能够自动确定group的数目，并且动态变化，恩我发现这个的确和聚类算法有点像哈哈。

果然，作者在第二章的RELATED WORKS提到，这个Group learning的确有人使用hierarchical clustering of trajectories based on pairwise objects speed and distance来实现。

在Group learning的时候，作者虽然没有使用聚类算法，但这又有啥不同呢？聚类算法相对来说没法进行精确调教，而作者这种精确调教的merge-split更强大也就不奇怪了。

总结

一个好的application需要各种trick，后来用于解释这些trick的各种道理其实谁都能想出来，但又有谁去意识到可以用这些道理或常识呢？
天下事有难易乎？为之，则难者亦易矣。
恩，只要去做就行了，不管看起来多么fancy的东西，细究起来也就那样啦。

目录

评价和感悟

文章内容

基本概念

第五章：追踪

第三章：特征提取和Group learning（这个Group learning和聚类有点像了）

总结