聚类算法
Tag: python,
machine learning
2018-07-18
目录
聚类任务
- 无监督学习任务
- 聚类(clustering)
- 密度估计(density estimation)
- 异常检测(anomaly detection)
- 聚类
- 将数据集中的样本划分为若干个不想交的子集,每个子集称为一个簇(cluster)
- 可做为单独过程:寻找数据内在的分布结构
- 其他学习任务的前驱过程
- sklearn提供的常见聚类算法:
data:image/s3,"s3://crabby-images/f4508/f4508b1d6d94cbc159856eb70e65512ea1116547" alt="sklearn_clustering_comparison.png"
聚类结果的性能度量
- 性能度量:有效性指标(validity index),类似于监督学习中的性能度量
- 什么样的类好?
- 直观:物以类聚
- 归纳:簇内(intra-cluster)相似度高而簇间(inter-cluster)相似度低
- 度量分类:
- 外部指标:external index,将聚类结果与某个参考模型进行比较
- 内部指标:internal index,直接考察聚类结果而不利用任何参考模型
- F值
- 互信息:mutual information
- 平均廓宽:average silhouette width
度量:外部指标
定义:
- 数据集:\(D={x_1,x_2,...,x_n}\)
- 聚类结果的簇划分:\(C={C_1,C_2,...,C_n}\)
- 参考模型的簇划分:\(C^*={C^*_1,C^*_2,...,C^*_n}\)
- \(C\)的簇标记向量
- \(C^*\)的簇标记向量
data:image/s3,"s3://crabby-images/2a612/2a612b9a66f02f84c27f054a59c169fb0bd4d581" alt="clustering_measure_external.png"
度量:内部指标
data:image/s3,"s3://crabby-images/1de14/1de14c67ac359231dd714ed316e87eb011d8ac28" alt="clustering_measure_internal.png"
距离计算
- 距离度量:样本之间的距离
- 基本性质:
- 非负性:\(dist(x_i,x_j) \geq 0\)
- 同一性:\(dist(x_i,x_j)=0,当且仅当x_i=x_j\)
- 对称性:\(dist(x_i,x_j)=dist(x_j,x_i)\)
- 直递性:\(dist(x_i,x_j) \leq dist(x_i,x_k)dist(x_k,x_j)\)
- 不同的度量:
data:image/s3,"s3://crabby-images/f735c/f735c94488858198012f5dcfb8d2ea38b6a48f00" alt="clustering_distance.png"
- 还有其他的距离计算方式,比如:
原型聚类
- 原型聚类:基于原型的聚类(prototype-based clustering)
- 原型:样本空间中具有代表性的点
- 基础:假设聚类结构能通过一组原型刻画
k-均值聚类
详细请参见另一篇博文K均值聚类算法,其算法流程如下:data:image/s3,"s3://crabby-images/b8480/b8480a27b5b402fc9edbc646362fc87503e68c90" alt="clustering_kmeans.png"
学习向量量化聚类
- 学习向量量化:Learning Vector Quantization, LVQ
- 类似于k均值,寻找一组原型向量
- 但是是假设数据样本带有类别标记,学习的过程中会使用这些标记以辅助聚类
data:image/s3,"s3://crabby-images/5a00b/5a00bc2577d6a05b48cd1c9173c87c929d892ce9" alt="clustering_LVQ.png"
高斯混合聚类
- k均值、LVQ:使用原型向量
- 高斯混合:mixture of gaussian,采用概率模型来表达聚类原型,而非向量
data:image/s3,"s3://crabby-images/63ed4/63ed4d86b155998459b6e006d0f211ad710594e4" alt="clustering_guassian_mix.png"
密度聚类
- 密度聚类:density-based clustering
- 基础:假设聚类结构能通过样本分布的紧密程度确定
- 样本密度 -》样本的可连接性,基于可连接样本扩展聚类簇,得到最终聚类结果
- 聚类方法:
DBSCAN
- density-based spatial clustering of applications with noise
- 基于邻域参数刻画样本分布的紧密程度
- 概念:
data:image/s3,"s3://crabby-images/99b7f/99b7f1643b2d9b46afadfcd6fbba0f4fee8b35b6" alt="cluster_DBSCAN.png"
data:image/s3,"s3://crabby-images/57f37/57f379163fa54b45086c0b0f73a0ed1934b12b57" alt="clustering_DBSCAN.png"
层次聚类
- 层次聚类:hierarchical clustering
- 在不同层次对数据集进行划分,从而形成树形的聚类结构
- 聚合策略:自低向上
- 分拆策略:自顶向下
AGNES
- AGNES:AGglomerative NESting
-
自底向上的聚合策略
- 每个样本看成一个簇
- 找出距离最近的两个簇进行合并
-
不断重复,直到达到预设的聚类簇的个数
- 关键:如何计算簇之间的距离。上面介绍的是计算样本之间的距离。
- 簇间距离计算:
data:image/s3,"s3://crabby-images/5af63/5af632b3859adf8a8ec3dac040a75c4a6ebe0393" alt="clustering_cluster_distance.png"
- 可选择不同的距离计算方式
- 最小距离:两个簇的最近样本决定,单链接(single-linkage)
- 最大距离:两个簇的最远样本决定,全链接(complete-linkage)。所以我们通常使用的是全链接,是最大的距离?
- 平均距离:两个簇的所有样本决定,均链接(average-linkage)
- 算法流程:
data:image/s3,"s3://crabby-images/de136/de13633c4b132d0c0e9195c98f940ed44ab25427" alt="clustering_AGNES.png"
参考