聚类分析算法
一、知识速览
什么是聚类?
聚类是一种无监督学习方法,它将数据集划分为若干个组(簇),使得同一簇内的数据对象彼此相似,而不同簇间的数据对象相异。
- 无监督学习:不需要预先标记的数据
- 自动分组:基于数据的内在相似性
- 典型应用:市场细分、图像分割、异常检测等
K-Means算法四步走
- 随机选择K个初始中心点(质心)
- 计算每个数据点到各质心的距离
- 将每个数据点分配给最近的质心所在的簇
- 重新计算每个簇的新质心
- 重复步骤2-4直到质心不再变化或达到最大迭代次数
| 聚类 (Clustering) | 分类 (Classification) | |
|---|---|---|
| 任务类型 | 无监督学习 | 监督学习 |
| 数据标签 | 无需预先知道类别 | 必须已知训练集标签 |
| 目标 | 发现隐藏的结构 | 预测新数据的类别 |
| 例子 | 将顾客分为高/中/低消费群体 | 根据病史判断疾病种类 |
二、动手实践区
K-Means算法模拟
小测验
1. K-Means算法的第一步是什么?
2. 以下哪项不是聚类的典型应用?
三、考试重难点突破
高频考点清单
- ★★★ K-Means的优缺点:速度快但初值敏感,仅适合数值型数据和凸形分布
- ★★☆ 轮廓系数:衡量聚类质量,越接近1表示效果越好
- ★☆☆ DBScan密度聚类:基于密度可达性,能处理任意形状的簇
- ★☆☆ elbow method拐点法:确定最佳K值的方法
易错辨析题
Q1: "聚类的结果一定是唯一的" — 这个说法正确吗?
Q2: 如果数据集中有明显的离群点,该选用哪种聚类方法?