AI人工智能无监督算法之聚类分析

AI人工智能无监督算法之聚类分析

2024-11-10 23:33

AI人工智能无监督算法之聚类分析

简单地描述，Clustering)是将数据集划分为若干相似对象组成的多个组(group)或簇(cluster)的过程，使得。或者说一个簇 (cluster)就是由彼此相似的一组对象所构成的集合，不同簇中的对象通常不相似或相似度很低。

聚类原本是统计学上的概念，现在属于机器学习中非监督学习的范畴，大多都被应用在数据挖掘、数据分析的领域，简单说可以用一个词概括——物以类聚。

如果把人和其他动物放在一起比较，你可以很轻松地找到一些判断特征，比如肢体、嘴巴、耳朵、皮毛等等，根据判断指标之间的差距大小划分出某一类为人，某一类为狗，某一类为鱼等等，这就是聚类。

从定义上讲，聚类就是针对大量数据或者样品，根据数据本身的特性研究分类方法，并遵循这个分类方法对数据进行合理的分类，最终将相似数据分为一组，也就是“同类相同、异类相异”。

说到这里，可能有人会觉得聚类不就是分类嘛，而其实在严格意义上，聚类与分类并不是一回事，两者有着很大的差异。

在进行分类之前，我们事先已经有了一套数据划分标准，只需要严格按照标准进行数据分组就可以了。

而聚类则不同，我们并不知道具体的划分标准，要靠算法进行判断数据之间的相似性，把相似的数据放在一起，也就是说聚类最关键的工作是：

在聚类的结论出来之前，我完全不知道每一类有什么特点，一定要根据聚类的结果通过人的经验来分析，看看聚成的这一类大概有什么特点。

(Cluster Analysis)是一个将数据集中的所有数据，按照划分为多个类别（）的过程；

• 是相似数据的集合。

是一种无监督(Unsupervised Learning) 分类方法：数据集中的数据没有预定义的类别标号（无训练集和训练的过程）。

要求：聚类分析之后，应尽可能保证类别相同的数据之间具有，而类别不同的数据之间具有。

• 作为一个独立的工具来获得数据集中数据的分布情况；

• 作为其他数据挖掘算法的预处理步骤。

空间数据分析

• 图像处理——灰度图像的二值化（对灰度像素进行聚类）。

万维网

• 对WEB日志数据进行聚类，以发现类似的用户访问模式。

金融领域

• 用户交易数据的聚类分析，以获得奇异点（异常交易）。

……

（Partitioning Methods）：以距离作为数据集中不同数据间的相似性度量，将数据集划分成多个簇。

（Hierarchical Methods）：对给定的数据集进行层次分解，形成一个树形的聚类结果。