Representation Learning by Learning to Count

摘要和简介
相关工作
本文算法
学习的过程
总结

摘要和简介

使用人工监督信号（artificial supervision signal）进行representation learning。
这个监督信号通过等价变化得到，将图像的变换和representation的变换关联起来。
也就是学习到的是满足这个关系的representation。

本文算法属于self-supervised learning，通过定义一个提供监督信号的task来避免标注。
self-supervised learning的rational为，和最终任务（如分类或detection）最相关的pretext 任务更容易build relevant representations。

本文定义了一个新的pretext task，即counting
visual primitives。其实很简单，就是将一个imagepartition撑不重叠的区域以后，这些区域的visual primitives数目之和等于原图像中的数目。

本文算法

我们的最终目的是要学习一个能够count visual primitives的特征变换 $\phi$, 这个 $\phi$ 有什么约束呢？我们让它去数visual primitives的数目：
$\phi(x)=\sum_{j=1}^{4}\phi(T_j \circ x)$
其中 $T_j$ 就是一种变换，将图片分块，其实这个已经可以了，不知道为啥，作者还要他对原信号加个变换，变成：
$\phi(D \circ x)=\sum_{j=1}^{4}\phi(T_j \circ x)$
$D$ 用来factor为2的降采样。以上的变换之后image的size是一样的。

学习的过程

如果将损失函数定义为：
$l(x)=|\phi(D \circ x)-\sum_{j=1}^{4}\phi(T_j \circ x)|^2$
的话，会有 $\phi(x)=0$ 这种trivial解。
因此采用contrastive loss：
$l_{con}(x,y)=|\phi(D \circ x)-\sum_{j=1}^{4}\phi(T_j \circ x)|^2+\max\{0,10-|\phi(D \circ y)-\sum_{j=1}^{4}\phi(T_j \circ x)|^2\}$

即，还要求，对于随机选择的不同图像 $x,y$，它们的数出来的特征数不能一样。

总结

虽然可以算是self-supervised learning（自监督），但其实还是将其转换为有监督来学的。还是依赖于原来的cnn结构。

归根到底还是目标函数的设置，上面这个目标函数只是尽量保证各个区域学习到的特征的数值之和与在整个图像上得到的数值一样，但作者钦定这个数值就是特征的数目，爱说啥就是啥吧。

目录

摘要和简介

相关工作

本文算法

学习的过程

总结