互动
最近评论
聚类分析算法

聚类分析算法

一、知识速览

什么是聚类?

聚类是一种无监督学习方法,它将数据集划分为若干个组(簇),使得同一簇内的数据对象彼此相似,而不同簇间的数据对象相异。

  • 无监督学习:不需要预先标记的数据
  • 自动分组:基于数据的内在相似性
  • 典型应用:市场细分、图像分割、异常检测等

K-Means算法四步走

  1. 随机选择K个初始中心点(质心)
  2. 计算每个数据点到各质心的距离
  3. 将每个数据点分配给最近的质心所在的簇
  4. 重新计算每个簇的新质心
  5. 重复步骤2-4直到质心不再变化或达到最大迭代次数
聚类 (Clustering) 分类 (Classification)
任务类型 无监督学习 监督学习
数据标签 无需预先知道类别 必须已知训练集标签
目标 发现隐藏的结构 预测新数据的类别
例子 将顾客分为高/中/低消费群体 根据病史判断疾病种类

二、动手实践区

K-Means算法模拟

3
中速

小测验

1. K-Means算法的第一步是什么?

A. 计算每个点到质心的距离
B. 随机选择K个初始质心
C. 将点分配到最近的质心
D. 重新计算质心位置

2. 以下哪项不是聚类的典型应用?

A. 客户分群
B. 手写数字识别
C. 文档分组
D. 异常检测

三、考试重难点突破

高频考点清单

  • ★★★ K-Means的优缺点:速度快但初值敏感,仅适合数值型数据和凸形分布
  • ★★☆ 轮廓系数:衡量聚类质量,越接近1表示效果越好
  • ★☆☆ DBScan密度聚类:基于密度可达性,能处理任意形状的簇
  • ★☆☆ elbow method拐点法:确定最佳K值的方法

易错辨析题

Q1: "聚类的结果一定是唯一的" — 这个说法正确吗?

A. 正确
B. 错误

Q2: 如果数据集中有明显的离群点,该选用哪种聚类方法?

A. K-Means
B. DBSCAN

© 2023 高中信息科技学业水平考试复习 | 聚类分析算法专题


引用到评论