简单地描述,Clustering)是将数据集划分为若干相似对象组成的多个组(group)或簇(cluster)的过程,使得。或者说一个簇 (cluster)就是由彼此相似的一组对象所构成的集合,不同簇中的对象通常不相似或相似度很低。
聚类原本是统计学上的概念,现在属于机器学习中非监督学习的范畴,大多都被应用在数据挖掘、数据分析的领域,简单说可以用一个词概括——物以类聚。
如果把人和其他动物放在一起比较,你可以很轻松地找到一些判断特征,比如肢体、嘴巴、耳朵、皮毛等等,根据判断指标之间的差距大小划分出某一类为人,某一类为狗,某一类为鱼等等,这就是聚类。
从定义上讲,聚类就是针对大量数据或者样品,根据数据本身的特性研究分类方法,并遵循这个分类方法对数据进行合理的分类,最终将相似数据分为一组,也就是“同类相同、异类相异”。
说到这里,可能有人会觉得聚类不就是分类嘛,而其实在严格意义上,聚类与分类并不是一回事,两者有着很大的差异。
在进行分类之前,我们事先已经有了一套数据划分标准,只需要严格按照标准进行数据分组就可以了。
而聚类则不同,我们并不知道具体的划分标准,要靠算法进行判断数据之间的相似性,把相似的数据放在一起,也就是说聚类最关键的工作是:
在聚类的结论出来之前,我完全不知道每一类有什么特点,一定要根据聚类的结果通过人的经验来分析,看看聚成的这一类大概有什么特点。
(Cluster Analysis)是一个将数据集中的所有数据,按照划分为多个类别 ()的过程;
• 是相似数据的集合。
是一种无监督(Unsupervised Learning) 分类方法:数据集中的数据没有预定义的类别标号(无训练集和训练的过程)。
要求:聚类分析之后,应尽可能保证类别相同的数据之间具有,而类别不同的 数据之间具有。
• 作为一个独立的工具来获得数据集中数据的分布情况;
• 作为其他数据挖掘算法的预处理步骤。
空间数据分析
• 图像处理——灰度图像的二值化(对灰度像素进行聚类)。
万维网
• 对WEB日志数据进行聚类,以发现类似的用户访问模式。
金融领域
• 用户交易数据的聚类分析,以获得奇异点(异常交易)。
……
(Partitioning Methods):以距离作为数 据集中不同数据间的相似性度量,将数据集划分成多个簇。
(Hierarchical Methods):对给定的数据集进行层次分解,形成一个树形的聚类结果。