二月一号博客

今天学习自然语言的算法

TF-IDF 算法 :关键词提取

TF-IDF的主要思想就是:如果某个词在一篇文档中出现的频率高,也就是TF高;在语料库中其他的文档中很少出现,就是DF低,也就是IDF高,则认为这个词具有很好的类区分能力。

TF为词频(Term Frequency),表示词t在文档d中出现的频率,计算公式

其中,ni,j 是该词 ti 在文件 dj 中的出现次数,而分母则是在文件 dj 中所有字词的出现次数之和。

IDF 为逆文档频率(Inverse Document Frequency),表示语料库中包含词 t 的文档的数目的倒数,计算公式:

其中,|D| 表示语料库中的文件总数,|{j:ti∈dj}| 表示包含词 ti 的文件数目,如果该词语不在语料库中,就会导致被除数为零,因此一般情况下使用 1+|{j:ti∈dj}|。TF-IDF 在实际中主要是将二者相乘,也即 TF * IDF, 计算公式:

因此,TF-IDF 倾向于过滤掉常见的词语,保留重要的词语。例如,某一特定文件内的高频率词语,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的 TF-IDF。

Jieba中基于TF-IDF算法的关键词抽取:

 

jieba代码:

#_*_coding:utf-8_*_
import jieba.analyse

sentence = "人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,可以设想,未来人工智能带来的科技产品,将会是人类智慧的“容器”。人工智能可以对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考、也可能超过人的智能。人工智能是一门极富挑战性的科学,从事这项工作的人必须懂得计算机知识,心理学和哲学。人工智能是包括十分广泛的科学,它由不同的领域组成,如机器学习,计算机视觉等等,总的说来,人工智能研究的一个主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作。但不同的时代、不同的人对这种“复杂工作”的理解是不同的。2017年12月,人工智能入选“2017年度中国媒体十大流行语”。"
keywords = "  ".join(jieba.analyse.extract_tags(sentence,topK=20,withWeight=False, allowPOS=()))
print(keywords)
keywords = (jieba.analyse.extract_tags(sentence, topK=10, withWeight=True, allowPOS=([‘n‘, ‘v‘])))
print(keywords)

原文地址:https://www.cnblogs.com/goubb/p/12250767.html

时间: 2024-10-11 16:52:14

二月一号博客的相关文章

二月七号博客

深度学习之卷积神经网络 卷积神经网络 - 结构 卷积层 通过在原始图像上平移来提取特征 激活层 增加非线性分割能力 池化层 减少学习的参数,降低网络的复杂度(最大池化和平均池化) 全连接层 卷积层(Convolutional Layer) 卷积核 - filter - 过滤器 - 卷积单元 - 模型参数 个数 大小 1*1 3*3 5*5 卷积如何计算? 输入 5*5*1 filter 3*3*1 步长 1 输出 3*3*1 步长 输入 5*5*1 filter 3*3*1 步长2 输出 2*2

博客被盗,终于找回了。

我一直是个省懒得人,因此我将博客用户名和邮箱设置成一样,末尾还带上了生日,又很傻的将密码设置成生日.一直未发生什么事,也自以为不会有事. 终于,我得到了教训.25号博客被盗,邮箱被登入确认了密码的修改.最绝的是还删除了那封密码修改确认邮件.但我在foxmail里找到了那两封邮件,显示我25号晚七点左右在申请密码修改.最后,改邮箱,改为某个QQ邮箱,让我彻底找不回来.这个人还在我博客里继续写他的日志,直到今天他写了三篇日志,跟移动开发相关的. 我发私信,激烈的评论,想以此来逼他放弃我的博客.事实证

豆约翰博客备份专家新增微信公众号文章批量下载功能

目前微信火得一塌糊涂,豆约翰博客备份专家也来凑凑热闹. 自媒体的兴起,使得一些各个领域的专家在微信中开通了公众号,我们大家可以选择自己感兴趣的进行订阅. 微信公众号会定期的向订阅者推送一些高质量的文章(当然也包括一些广告). 下面我们就来看一下如何利用豆约翰博客备份专家来批量下载微信公众号文章. 要批量下载微信公众号文章,首先我们必须要知道公众号ID. 首先打开搜狗微信搜索:http://weixin.sogou.com/ 在搜索框中录入微信公众号名称,比如豆约翰关注的一个公众号[哥伦布没来过]

谈近期我对博客及微信公众号的态度

2017年的元旦,我开了一个微信公众号"对刘谈心",主要就是随笔的形式谈谈自己生活和工作中的一些感悟与体会,希望与我认识的不认识的朋友进行一些交流,希望我写的东西偶尔能引起你的一点共鸣或些微给你点帮助. 三三两两,断断续续,至今我已经写了超过20篇原创的随笔放到了我的微信公众号上面,不过我没有太多的精力去宣传,也没有那么想过让自己成为"IP 网红". 每一篇文章我只在我的朋友圈里晒一次,偶尔去一两个我的微信群里宣传一下. 于是半年下来,我的关注数是非常地"

个人微信公众号-技术博客

个人技术博客部分在微信号上面,请扫一下关注,后续更新更多文章,共同学习进步 原文地址:http://blog.51cto.com/7038006/2142668

春哥技术博客:宝塔Linux如何修改SSH端口号教程

今天春哥技术博客就客户咨询关于如何修改设置宝塔Linux默认SSH端口号的问题,下面春哥统一写文章教程,大家直接看就可以了. 为了提供服务器的安全性,部分站长需要修改SSH端口,默认端口为22,怎么修改SSH自定义端口呢,比如修改为8899,是否需要在防火墙放行? 其实和其他端口放行操作方法一样的,直接在宝塔的防火墙里面放行就可以了.具体操作方法如下: 登陆宝塔面板后台,在顶部有是否启动SSH 和 SSH 端口 22 这两个操作按钮如上图:直接将22改为自定义端口,然后点击 更改 .宝塔防火墙自

码农人生——博客园中哪些人开通了技术公众号—第004期博文

这周写了几篇博文,感觉不是技术类的没有必放过来,只好准备收集下博客园中的技术公众号,有空研究下,大家是怎么传经送道的.这些年,觉得作为技术的开发者,也应该是技术的布道者,不仅仅是自己能够用技术干什么,重要的是自己的技术得到别人的认可,并且能够使得别人受益. 但是,大多数码农,勤勤恳恳,写作水平一般,并不是很能够表达,或者说写作是另一个行业,作为码农,可能没有太多的时间去创作,去学习一种叫做,如何写作教别人如果学习的技能. 现在我也是一样. 这里只是从前100名推荐名单中手工筛选出来的列表.如果出

关于公众号和个人博客(博客园、CSDN为主)文章推送说明

新的一年,新的开始,2018年已经碌碌无为的度过了,2019年得加倍努力才能补偿回来. 最近在微信上看到一句推送的话,觉得特别有意思 你薪资提升的速度,必然要快于你父母老去的速度 我觉得,不仅仅这样,我们每个人,必要要尽快地让自己提升起来,这样,在我们爱的人需要的时候,我们才能伸出自己的援助之手. 距离年假结束还有最后一天,2019年02月11日开始就要正式上班了,在这里,给2019年立一个小flag: 1.夯实Java基础,关于Java基础方面的文章,会同时推送到微信公众号和博客(博客园和CS

Hexo 博客快速整合公众号导流工具,不用互推也能实现粉丝躺增!

readmore 插件简介 Hexo 整合 OpenWrite 平台的 readmore 插件,实现博客的每一篇文章自动增加阅读更多效果,关注公众号后方可解锁全站文章,从而实现博客流量导流到微信公众号粉丝目的. ?? 主页 效果 用法 Step #1 - 更新 _config.yml 配置文件 在 _config.yml 配置文件中,配置 readmore 插件相关信息,详情见 OpenWrite 微信公众号增长神器 "ReadMore" 简介. plugins: readmore: