Google的新闻是自动分类而产生的,但是计算机只懂算法,是看不懂我们人类的新闻。若是人为地一个新闻一个新闻地划分又会浪费不必要的人力、物理。由此,我们设计出一个算法,帮助我们利用计算机,自动地划分每天数量庞大地新闻。
算法涉及的方面不多:TF-IDF算法、余弦定理
看过的TF-IDF算法写的比较详细的,链接如下:
https://blog.csdn.net/asialee_bird/article/details/81486700
简单来说可以运用这个算法,把一个个的新闻映射成为向量的形式。而映射为向量形式,便于计算机这个“无感情”的孩子快速计算。
假设经过TF-IDF映射后两个新闻变成向量b,c。根据余弦定理,可以计算两个向量所成的夹角的余弦值。我们说,当夹角的余弦值接近1时,两条新闻相似,可归为一类;当夹角的余弦值越小,两条新闻越不相关,不归为一类。
吴恩达的《机器学习入门》中,也介绍过分类、聚类的知识。其实在某种方面,聚类也与余弦定理有关。
分类的定义自不用说;聚类是,给你一组数据,找出它的数据结构。
而聚类时,我们把每一个个的数据点看成一个类,用余弦定理计算一个“类”与另一些“类”的相关度,把相关度大的“小类”和成“大类”,反复循环,完成聚类。
其实生活中处处存在分类,好比我们人,看到远方走过来一个人,其实这时候我们已经在做分类了。对面过来的人是男是女?而你的分类规则无非就是他是长头发、短头发?穿裙子穿裤子?这个时候,我们已经在对一个未知事物进行按照自己的分类规则实行的分类了。计算机也是如此。只是等待程序员来训练它、教会它所谓的规则罢了。
这学期想要一个怎样的算法:试试自己实现一个聚类算法吧。
上一下以后要遵循的代码规范:
https://www.cnblogs.com/yunliu0603/p/10042463.html
原文地址:https://www.cnblogs.com/lycsuper/p/11443658.html