读《数学之美系列十二——余弦定理和新闻的分类》有感 + 代码规范

Google的新闻是自动分类而产生的,但是计算机只懂算法,是看不懂我们人类的新闻。若是人为地一个新闻一个新闻地划分又会浪费不必要的人力、物理。由此,我们设计出一个算法,帮助我们利用计算机,自动地划分每天数量庞大地新闻。

算法涉及的方面不多:TF-IDF算法、余弦定理

看过的TF-IDF算法写的比较详细的,链接如下:

https://blog.csdn.net/asialee_bird/article/details/81486700

简单来说可以运用这个算法,把一个个的新闻映射成为向量的形式。而映射为向量形式,便于计算机这个“无感情”的孩子快速计算。

假设经过TF-IDF映射后两个新闻变成向量b,c。根据余弦定理,可以计算两个向量所成的夹角的余弦值。我们说,当夹角的余弦值接近1时,两条新闻相似,可归为一类;当夹角的余弦值越小,两条新闻越不相关,不归为一类。

吴恩达的《机器学习入门》中,也介绍过分类、聚类的知识。其实在某种方面,聚类也与余弦定理有关。

分类的定义自不用说;聚类是,给你一组数据,找出它的数据结构。

而聚类时,我们把每一个个的数据点看成一个类,用余弦定理计算一个“类”与另一些“类”的相关度,把相关度大的“小类”和成“大类”,反复循环,完成聚类。

其实生活中处处存在分类,好比我们人,看到远方走过来一个人,其实这时候我们已经在做分类了。对面过来的人是男是女?而你的分类规则无非就是他是长头发、短头发?穿裙子穿裤子?这个时候,我们已经在对一个未知事物进行按照自己的分类规则实行的分类了。计算机也是如此。只是等待程序员来训练它、教会它所谓的规则罢了。

这学期想要一个怎样的算法:试试自己实现一个聚类算法吧。

上一下以后要遵循的代码规范:

https://www.cnblogs.com/yunliu0603/p/10042463.html

原文地址:https://www.cnblogs.com/lycsuper/p/11443658.html

时间: 2024-08-02 14:38:33

读《数学之美系列十二——余弦定理和新闻的分类》有感 + 代码规范的相关文章

struts2官方 中文教程 系列十二:控制标签

介绍 struts2有一些控制语句的标签,本教程中我们将讨论如何使用 if 和iterator 标签.更多的控制标签可以参见 tags reference. 到此我们新建一个struts2 web 项目:struts_basic2 本帖地址:struts2官方 中文教程 系列十二:控制标签 即 http://www.cnblogs.com/linghaoxinpian/p/6941683.html 下载本章节代码 struts2 if标签 我们在thankyou.jsp中添加如下代码: <s:i

SQL Server 2008空间数据应用系列十二:Bing Maps中呈现GeoRSS订阅的空间数据

原文:SQL Server 2008空间数据应用系列十二:Bing Maps中呈现GeoRSS订阅的空间数据 友情提示,您阅读本篇博文的先决条件如下: 1.本文示例基于Microsoft SQL Server 2008 R2调测. 2.具备 Transact-SQL 编程经验和使用 SQL Server Management Studio 的经验. 3.熟悉或了解Microsoft SQL Server 2008中的空间数据类型. 4.具备相应(比如OGC规范.KML规范)的GIS专业理论知识.

Exchange Server 2013系列十二:邮箱的基本管理

杜飞 邮箱是 Exchange 组织中信息工作人员最常用的收件人类型.每个邮箱都与一个 Active Directory 用户帐户关联.用户可以使用邮箱发送和接收邮件,并可以存储邮件.约会.任务.便笺和文档.邮箱是 Exchange 组织中用户的主要邮件传递和协作工具.每个邮箱由 Active Directory 用户以及存储在 Exchange 邮箱数据库中的邮箱数据组成(如下图所示).邮箱的所有配置数据都存储在 Exchange 用户对象的 Active Directory 属性中.邮箱数据

数学之美系列程序

数学之美系列程序一览,点击即可进入相关博客: 生成全1数 生成全8数 生成9开头的按位递减数 用1生成回文数

Silverlight &amp; Blend动画设计系列十二:三角函数(Trigonometry)动画之自由旋转(Free-form rotation)

原文:Silverlight & Blend动画设计系列十二:三角函数(Trigonometry)动画之自由旋转(Free-form rotation) 说到对象的旋转,或许就会联想到对象角度的概念.对象的旋转实现实际上就是利用对象的角度改变来实现的位置变换,在<Silverlight & Blend动画设计系列二:旋转动画(RotateTransform)>一文中有对对象的不同角度变换的实现介绍,本篇要介绍的自由旋转(Free-form rotation)将借助<Fun

数学之美系列二十一 - 布隆过滤器(Bloom Filter)

原文:http://googlechinablog.blogspot.com/2007/07/bloom-filter_7469.html 在日常生活中,包括在设计计算机软件时,我们经常要判断一个元素是否在一个集合中.比如在字处理软件中,需要检查一个英语单词是否拼写正确(也就是要判断它是否在已知的字典中):在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上:在网络爬虫里,一个网址是否被访问过等等.最直接的方法就是将集合中全部的元素存在计算机中,遇到一个新元素时,将它和集合中的元素直接比较即可.一般

Java设计模式菜鸟系列(十二)组合模式建模与实现

转载请注明出处:http://blog.csdn.net/lhy_ycu/article/details/39828653 组合模式(Composite):组合模式有时又叫部分-整体模式,将对象组合成树形结构来表示"部分-整体"层次结构.组合模式在处理树形结构的问题时比较方便. 一.uml建模: 二.代码实现 /** * 示例:组合模式有时也称"整合-部分"模式 * * 组合模式在处理树形结构的问题时比较方便 * * 节点 */ class TreeNode { /

WPF入门教程系列十二——依赖属性(二)

二. 依赖属性的优先级 由于WPF 允许我们可以在多个地方设置依赖属性的值,所以我们就必须要用一个标准来保证值的优先级别.比如下面的例子中,我们在三个地方设置了按钮的背景颜色,那么哪一个设置才会是最终的结果呢?是Black.Red还是Azure呢? <Window x:Class="WpfApp1.WindowDepend" xmlns="http://schemas.microsoft.com/winfx/2006/xaml/presentation" xm

BurpSuite系列(十二)----User options模块(用户选择)

一.简介   User options模块主要用来配置一些常用的选项. 二.模块说明 User options主要由4个模块组成: 1.Connections 连接 2.SSL 3.Display 4.Misc  杂项 1.Connections 连接 选项1:Platform Authentication 选项2:Upstream Proxy Servers 选项3:Socks Proxy 2.SSL 选项1:JavaSSL Options 选项2:Client SSL Certificate