下面一种典型的无监督学习算法,主要用于将相似的样本自动归到一个类别中。
算法概述
原理:根据样本之间的相似性,将样本划分到不同的类别中,对于不同的相似度计算方法,会得到不同的聚类结果
常用方法:欧式距离法
原理实现:确定常数K,常数K意味着最终的聚类数目,首先随机选定初始点为质心,并通过计算每一个样本与质心之间的相似度(这里为欧式距离),将样本点归到最相似的类中,接着,重新计算每个类的质心(即为类中心),重复这样的过程,直到质心不再改变,最终就确定了每个样本所属的类别以及每个类的质心。
伪代码如下:
1 | 选择K个点作为初始质心 |
注意的问题
既然是无监督学习,很多情况下,我们并不知道数据的分布情况,所以我们这个时候要怎么确定k值才能达到我们的预期呢?
这里就涉及到很多的知识了,搞定了这些那可不得了,目前还没有时间,下次。