又得做决策了。从12月到今天,整整六个月的调研,是时候了结了。
去年八月份到十一月份,一直在搞聚类,初步感受到了聚类的局限性。从十二月份开始,我着重调研了DNN、深度聚类这俩问题,期间当然夹杂了很多对于经典聚类算法的研究(特别是子空间聚类、谱聚类),还有关于聚类的各种扯淡的paper,但看的越多,就越深感无奈。
有监督这一脉的approach香火很旺的一个重要原因就是 问题很具体 ,如果非常general的问题搞不了,那就限定问题种类,如只搞cv问题,再具体一点就是。
而与之相对的聚类基本上一直沿着(完全)无监督的路走到黑了,零星的半监督聚类文章也不太合我口味。聚类一直无法做非常complicated的task,一个重要原因就是聚类给自己的定位太低了,为啥非得是 similar points in the same group, dissimilar in different groups? 这么一搞就显得聚类的终极任务就只是 将各个points聚到一块儿,只要这些cluster能够make sense, reasonable就行了。
当然最重要的原因还是没有label啊,有监督的DNN的参数能够由误差向量来guide the Learning proce,这时候参数多少基本都无所谓了,但没有label的话,那就是 臣妾做不到啊。
我坚信聚类可以完成的task绝非如此简单,隐约感觉它可以像有监督那样有令人信服的Learning的概念,即能够 generalize。 怎么算令人信服呢?当然是更加complicated的application了,而非以往依赖于矢量量化oriented的应用。
当然,现在的deep clustering也有做的不错的了,如一篇arxiv的文章Deep Clustering using Auto-Clustering Output Layer(我的笔记在这儿,貌似这篇文章刚被被icml拒掉了,我在https://2017.icml.cc/Conferences/2017/AcceptedPapersInitial 没有找到它啊。
聚类老玩儿法感觉快行不通了啊,哦,icml2017收录了一篇 Towards K-means-friendly Spaces: Simultaneous Deep Learning and Clustering,这个题目很明显了嘛,类似于用DNN做特征提取,representation Learning啊。要不要往这个方向走呢?目测这么走下去还是老路子嘛。
我现在大概的想法是,不再将聚类问题用于聚类,即要有新玩儿法。
当然突破口就是先找一个具体的应用,这个应用可以不那么general,关键是能work,而且能让人一眼看出来值得继续去发展。例如,对于一个picture,我们可以根据label信息确定超参数,注意是超参数,而参数仍然按照无监督来搞,这样就能保证整个过程是无监督的,label仅仅是一般的先验信息而已,具体细节还得再研究啊。