算法过程如下:
1)从N个文档随机选取K个文档作为质心
2)对剩余的每个文档测量其到每个质心的距离,并把它归到最近的质心的类
3)重新计算已经得到的个各类的质心
4)迭代2~3步直至新的质心与原质心相等或小于指定阈值,算法结束
优点:1.算法快速,简单
2.对大数据集有较高的效率并且是可伸缩性的
3.时间复杂度接近于线性,而且适合挖掘大规模数据集。
时间复杂度O(nkt),其中n代表数据集中对象的数量,t代表着算法迭代的次数,k代表着簇的数目。
缺点:1.K的值难以估计。
2.初始聚类中心的选择对聚类结果有较大的影响。
3.当数据量非常大时,算法的时间开销也非常大。
解决办法参考百度百科
时间: 2024-10-08 23:17:43