-->

formulate clustering as penalized regression

Posted on By Marquis

无监督问题一般还是得按照有监督的套路来搞。

经典的算法如Kmeans没有明确说出来是按照有监督搞,其实看形式也差不多了嘛,都得有object function,只是聚类的来的更弱一些罢了。
我们现在看到的这个approach即clustering as penalized regression,就是 将这个思想严格执行起来了

这次不去追究该approach的起源了。反正不打算入坑哈哈。

先说这篇文章 Cluster Analysis: Unsupervised Learning via Supervised Learning with a Non-convex Penalty
作者是统计学出身,所以很浓重的公式味儿。
一开始我还是很羡慕人家能够游走于各种公式推理之间,随着阅读量的增加,逐渐发现人家也很无奈啊。问题的复杂度一上来,各种式子都没辙了,你得尽量简化才能搞成漂亮的式子。运算的过程中还得各种逼近……
令人沮丧的是辛苦得到的漂亮式子,还不好用。算法运行结果不太漂亮,所以很少看到他们放聚类结果图哈哈。
仔细一想啊,人家各种逼近技巧都用了,为啥还很有可能比不上一些很简单的工程trick?
其实大家都是逼近,所谓条条大路通罗马,但是,每一种聚类方法都是错误的,因为 the truth (即真正意义上的聚类算法)是不可能由我等凡人看见或搞出来的,所以各种聚类算法不管形式多么漂亮或不漂亮,大家谁也别瞧不起谁,能work就行。

好了,言归正传。
目标函数的形式:

\[\hat{\mu}=\text{arg}\min_{\mu}\frac{1}{2} \sum_{i=1}^{n}\|x_i-\mu_i\|_2^2+ \lambda\sum_{i<j} \|\mu_i-\mu_j\|_1\]

思想就是,对于每一个点 $x_i$ ,我都给你一个聚类中心 $\mu_i$ ,只要 $x_i$ 和 $x_j$ 这哥俩的聚类中心就得相同,这意味着,目标函数中必须增加对不一样的聚类中心的惩罚,即上式的第二项。

但这种目标函数很不好解。而且速度很慢。
故,同一拨人又写了一篇文章: A New Algorithm and Theory for Penalized Regression-based Clustering,这篇新文章搞了新解法,又给了好多证明,还有finitesample mis-clustering error bound。