读《数学之美系列十二——余弦定理和新闻的分类》有感 + 代码规范

Google的新闻是自动分类而产生的，但是计算机只懂算法，是看不懂我们人类的新闻。若是人为地一个新闻一个新闻地划分又会浪费不必要的人力、物理。由此，我们设计出一个算法，帮助我们利用计算机，自动地划分每天数量庞大地新闻。

算法涉及的方面不多：TF-IDF算法、余弦定理

看过的TF-IDF算法写的比较详细的，链接如下：

https://blog.csdn.net/asialee_bird/article/details/81486700

简单来说可以运用这个算法，把一个个的新闻映射成为向量的形式。而映射为向量形式，便于计算机这个“无感情”的孩子快速计算。

假设经过TF-IDF映射后两个新闻变成向量b，c。根据余弦定理，可以计算两个向量所成的夹角的余弦值。我们说，当夹角的余弦值接近1时，两条新闻相似，可归为一类；当夹角的余弦值越小，两条新闻越不相关，不归为一类。

吴恩达的《机器学习入门》中，也介绍过分类、聚类的知识。其实在某种方面，聚类也与余弦定理有关。

分类的定义自不用说；聚类是，给你一组数据，找出它的数据结构。

而聚类时，我们把每一个个的数据点看成一个类，用余弦定理计算一个“类”与另一些“类”的相关度，把相关度大的“小类”和成“大类”，反复循环，完成聚类。

其实生活中处处存在分类，好比我们人，看到远方走过来一个人，其实这时候我们已经在做分类了。对面过来的人是男是女？而你的分类规则无非就是他是长头发、短头发？穿裙子穿裤子？这个时候，我们已经在对一个未知事物进行按照自己的分类规则实行的分类了。计算机也是如此。只是等待程序员来训练它、教会它所谓的规则罢了。

这学期想要一个怎样的算法：试试自己实现一个聚类算法吧。

上一下以后要遵循的代码规范：

https://www.cnblogs.com/yunliu0603/p/10042463.html

原文地址：https://www.cnblogs.com/lycsuper/p/11443658.html

时间： 2024-10-11 00:16:48

struts2官方中文教程系列十二：控制标签