首发于数据怪兽

深入浅出机器学习算法：主流聚类算法背后的原理

简介

在无监督学习中unsupervised learning中，训练样本的标记信息是未知的，其目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律，为进一步的数据分析提供基础。而此类学习任务中应用最广、研究最多的即聚类clustering。
以通俗的语言讲解，聚类学习将数据集中的样本分成若干个互不相交的子集（称为簇cluster）。保持簇内差异尽可能小而簇间差异尽可能大我们就可以将每个簇映射到一些潜在的类别。

需要注意的是，划分的类别对于聚类而言事先是位置的，聚类过程仅能将数据集自动划分为不同的簇，但每个簇对应的概念语义是需要使用者自己来把握和命名。

数学描述

照旧我们以数学语言描述聚类学习，假定样本集 D =\{x_1, x_2, ..., x_m\} 包含 m 个无标记样本，每个样本 x_i = (x_{i1};x_{i2};...;x_{im}) 是一个 n 维特征向量，则聚类算法将样本 D 划分为 k 个不相交的簇 \{C_l | l=1,2,...,k\} 。我们用 \lambda_j\in{1,2,...,k} 表示样本 x_j 的簇标记cluster label，则聚类结果可用包含 m 个元素的簇标记向量 \lambda=(\lambda_1;\lambda_2;...;\lambda_m) 表示。

性能度量

从本质上讲，我们希望聚类形成簇内方差尽可能小而簇间方差尽可能大的分类结果，即相同类别的元素尽可能相似而归属不同类别的元素尽可能不同。

对数据集 D=\{x_1,x_2,...,x_m\} ，假定通过聚类给出的簇划分为 C=\{C_1,C_2,...,C_k\} ，定义：

avg(C)=\frac{2}{|C|(|C|-1))}\sum_{1\leq i<j \leq |C|}dist(x_i, x_j) \\ diam(C)=max_{1 \leq i < j \leq |C|}dist(x_i, x_j) \\ d_{min}(C_i,C_j)=min_{x_i\in C_i, x_j\in C_j}dist(x_i, x_j) \\ d_{cen}(C_i,C_j) = dist(\mu_i, \mu_j) \\ \mu = \frac{1}{|C|}\sum_{1\leq i \leq |C|}x_i

其中 dist(x_i, x_j) 衡量两个样本之间的距离， \mu 表示簇 C 的中心点， avg(C) 表示簇 C 内样本间的平均距离， diam(C) 表示簇 C 内样本间的最远距离， d_{min}(C_i,C_j) 表示两个簇最近样本间的距离， d_{min}(C_i,C_j) 表示两个簇中心点间的距离。
基于这些指标，我们常用下面的聚类性能度量聚类效果：

DB指数Davies-Bouldin Index：值越小表示聚类效果越好

DBI = \frac{1}{k}\sum_{i=1}^{k} \max_{j \neq i}(\frac{avg(C_i)+avg(C_j)}{d_{cen}(\mu_i,\mu_j)})

Dunn指数Dunn Index：值越大表示聚类效果越好

DI = \min_{1 \leq i \leq k}\{\min_{j\neq i}(\frac{d_{min}(C_i,C_j)}{max_{1 \leq l \leq k} diam(C_l)}) \}

给定样本 x_i=(x_{i1};x_{i2};...;x_{in}) 和 x_j=(x_{j1};x_{j2};...;x_{jn}) ,度量两个样本点间距离 dist(x_i, x_j) 的方法有很多种，最常用的就是“闵可夫斯基距离”Minkowski distance：

dist_{mk}(x_i,x_j) = (\sum_{u=1}{n}|x_{iu}-x_{ju}|^p)^{\frac{1}{p}}

当 p=2 时，闵可夫斯基距离等价于欧式距离Euclidean distance； p=1 时，闵可夫斯基距离等价于曼哈顿距离Manhattan distance

k均值算法

给定样本集 D=\{x_1,x_2,...,x_m\} ，k-means最小化聚类所得簇划分 C=\{C_1,C_2,...,C_k\} 的平方误差：

E=\sum_{i=1}^{k}\sum_{x\in C_i}||x-\mu_i||_2^2

最小化上式需要遍历样本集 D 中所有可能的簇划分，这本身就是一个NP难的问题，因此k-means算法采取了贪心策略，通过迭代优化来近似求解。
输入：样本集 D=\{x_1,x_2,...,x_m\} ，聚类簇数kk
输出：最优的簇划分 C=\{C_1,C_2,...,C_k\}

高斯混合聚类

密度聚类DBSCAN

密度聚类density-based clustering假设聚类结构能通过样本分布的紧密程度确定，密度聚类算法从样本密度的角度来考察样本之间的可连接性，并基于可连接样本不断扩展聚类簇以获得最终的聚类结果。

1.密度聚类的相关概念

给定数据集 D=\{x_1,x_2,...,x_m\} ，有如下概念：

下图给出了密度聚类相关概念的直观展示：

在 MinPts=3 的情况下，虚线表示 \epsilon 邻域， x_1 是核心对象， x_2 由 x_1 密度直达， x_3 由 x_1 密度可达， x_3 与 x_4 密度相连。

2.密度聚类原理

基于上述的概念，密度聚类将“簇”定义为：由密度可达关系导出的最大密度相连样本集合。从数学角度上讲，即给定邻域参数 (\epsilon,MinPts) ，簇 C \subseteq D 是满足以下性质的非空样本子集：

不难证明，若 x 为核心对象，则由其密度可达的所有样本组成的集合记为 X = \{{x}' \in D| {x}'\text{由}x\text{密度可达}\} 满足连接性与最大性。

3.密度聚类算法

输入：样本集 D=\{x_1, x_2,...,x_m\} ；邻域参数 (\epsilon, MinPts)
输出：簇划分 C=\{C_1,C_2,...,C_k\} 遍历所有样本，如果样本 x_j 的 \epsilon 邻域满足 |N_{\epsilon}(x_j)| \geq MinPts ，那么将其加入核心对象集合 \Omega=\Omega \cup\{x_j\}

直观展示如下：

层次聚类

层次聚类hierarchical clustering试图在不同层次上对数据集进行划分，从而形成树形的聚类结构，数据集的划分既可以采用“自底向上”的聚合策略，也可以采用“自顶向下”的分拆策略。

AGNES是一种自底向上聚合策略的层次聚类算法，它先将数据集中每个样本看成一个初始聚类簇，然后在算法运行的每一步中找到最近的两个聚类簇进行合并，该过程不断重复直至达到预设的聚类簇个数，关键在于如何计算连个聚类簇之间的距离。

1.计算距离的方式

最小距离： d_{min}(C_i,C_j))= \min_{x\in C_i,z \in C_j}dist(x,z)
最大距离： d_{max}(C_i,C_j))= \max_{x\in C_i,z \in C_j}dist(x,z)
平均距离：： d_{avg}(C_i,C_j))=\frac{1}{|C_i||C_j|}\sum_{x\in C_i}\sum_{z \in C_j}dist(x,z)
当聚类簇距离分别由 d_{min} 、 d_{max} 或 d_{avg} 计算时，AGNES算法被相应地成为“单链接”single-linkage、“全链接”complete-linkage或“均链接”average-linkage算法。

2.算法

输入：样本集 D=\{x_1, x_2,...,x_m\} ；聚类簇距离度量函数 d ；聚类簇数 k
输出：簇划分 C=\{C_1,C_2,...,C_k\}

3.树状图

令AGNES算法执行到所有样本出现在同一个簇中，可得到如下的树状图：

在树状图的特定层次上分割即可得到对应的簇划分结果，上图中虚线划分的位置将样本分为7个簇，理解一下背后的原理。

Reference

[1] 周志华机器学习

发布于 2020-01-01 21:10

聚类算法

机器学习

无监督学习

文章被以下专栏收录

数据怪兽

分享我在数据科学学习道路上的一些经验