python实现关键词提取

简单的关键词提取的代码 
文章内容关键词的提取分为三大步: 
(1) 分词 
(2) 去停用词 
(3) 关键词提取

分词方法有很多,我这里就选择常用的结巴jieba分词;去停用词,我用了一个停用词表。具体代码如下:

 1 import jieba
 2 import jieba.analyse
 3
 4 #第一步:分词,这里使用结巴分词全模式
 5 text = ‘‘‘新闻,也叫消息,是指报纸、电台、电视台、互联网经常使用的记录社会、传播信息、反映时代的一种文体, 6 具有真实性、时效性、简洁性、可读性、准确性的特点。 7 新闻概念有广义与狭义之分。 8 就其广义而言,除了发表于报刊、广播、电视上的评论与专文外的常用文本都属于新闻之列,包括消息、通讯、特写、速写(有的将速写纳入特写之列)等等。 9 狭义的新闻则专指消息,消息是用概括的叙述方式,比较简明扼要的文字,迅速及时地报道国内外新近发生的、有价值的的事实。10 新闻也分公众新闻和小道新闻等。每则新闻在结构上,一般包括标题、导语、主体、背景和结语五部分。11 前三者是主要部分,后二者是辅助部分。写法上主要是叙述,有时兼有议论、描写、评论等。
12 ‘‘‘
13 fenci_text = jieba.cut(text)
14 #print("/ ".join(fenci_text))
15
16 #第二步:去停用词
17 #这里是有一个文件存放要改的文章,一个文件存放停用表,然后和停用表里的词比较,一样的就删掉,最后把结果存放在一个文件中
18 stopwords = {}.fromkeys([ line.rstrip() for line in open(‘stopwords.txt‘) ])
19 final = ""
20 for word in fenci_text:
21     if word not in stopwords:
22         if (word != "。" and word != ",") :
23             final = final + " " + word
24 print(final)
25
26 #第三步:提取关键词
27 a=jieba.analyse.extract_tags(text, topK = 5, withWeight = True, allowPOS = ())
28 b=jieba.analyse.extract_tags(text, topK = 6,   allowPOS = ())
29 print(a)
30 print(b)
31 #text 为待提取的文本
32 # topK:返回几个 TF/IDF 权重最大的关键词,默认值为20。
33 # withWeight:是否一并返回关键词权重值,默认值为False。
34 # allowPOS:仅包括指定词性的词,默认值为空,即不进行筛选。

运行结果如下:

 新闻 也 叫 消息 是 指 报纸 、 电台 、 电视台 、 互联网 经常 使用 的 记录 社会 、 传播 信息 、 反映 时代 的 一种 文体 具有 真实性 、 时效性 、 简洁性 、 可读性 、 准确性 的 特点 新闻 概念 有 广义 与 狭义 之分 就 其 广义 而言 除了 发表 于 报刊 、 广播 、 电视 上 的 评论 与 专文 外 的 常用 文本 都 属于 新闻 之 列 包括 消息 、 通讯 、 特写 、 速写 ( 有 的 将 速写 纳入 特写 之 列 ) 等等 狭义 的 新闻 则 专指 消息 消息 是 用 概括 的 叙述 方式 比较 简明扼要 的 文字 迅速 及时 地 报道 国内外 新近 发生 的 、 有 价值 的 的 事实 新闻 也 分 公众 新闻 和 小道 新闻 等 每则 新闻 在结构上 一般 包括 标题 、 导语 、 主体 、 背景 和 结语 五 部分 前 三者 是 主要 部分 后 二者 是 辅助 部分 写法 上 主要 是 叙述 有时 兼有 议论 、 描写 、 评论 等 

[(‘新闻‘, 0.4804811569680808), (‘速写‘, 0.2121107125313131), (‘消息‘, 0.20363211136040404), (‘特写‘, 0.20023623445272729), (‘狭义‘, 0.16168734917858588)]
[‘新闻‘, ‘速写‘, ‘消息‘, ‘特写‘, ‘狭义‘, ‘广义‘]

原文地址:https://www.cnblogs.com/sxinfo/p/10392428.html

时间: 2024-10-06 23:17:37

python实现关键词提取的相关文章

Python调用百度接口(情感倾向分析)和讯飞接口(语音识别、关键词提取)处理音频文件

本示例的过程是: 1. 音频转文本 2. 利用文本获取情感倾向分析结果 3. 利用文本获取关键词提取 首先是讯飞的语音识别模块.在这里可以找到非实时语音转写的相关文档以及 Python 示例.我略作了改动,让它可以对不同人说话作区分,并且作了一些封装. 语音识别功能 weblfasr_python3_demo.py 文件: 1 #!/usr/bin/env python 2 # -*- coding: utf-8 -*- 3 """ 4 讯飞非实时转写调用demo(语音识别)

处理关键字(织梦关键词提取功能)

I‘m sorry  提取的是织梦关键词加载功能 附件下载:http://files.cnblogs.com/subtract/关键词提取.zip 使用步骤: 1.加载 splitword.class.php 文件并提取 1 require_once './../splitword.class.php'; //加载提取关键字文件 2 $sp = new SplitWord('utf-8','utf-8'); //初始化给予两个默认字符集(本套提取关键词是UTF-8) 3 $sp->SetSour

关于最近研究的关键词提取keyword extraction做的笔记

来源:http://blog.csdn.net/caohao2008/article/details/3144639 之前内容的整理 要求:第一: 首先找出具有proposal性质的paper,归纳出经典的方法有哪些. 第二:我们如果想用的话,哪种更实用或者易于实现? 哪种在研究上更有意义. 第一,      较好较全面地介绍keyword extraction的经典特征的文章<Finding Advertising Keywords on Web Pages>. 基于概念的keywords提

基于高维聚类技术的中文关键词提取算法

[摘要]关键词提取是中文信息处理技术的热点和难点,基于统计信息的方法是其中一个重要分支.本文针对基于统计信息关键词提取方法准确率低的问题,提出基于高维聚类技术的中文关键词提取算法.算法通过依据小词典的快速分词.二次分词.高维聚类及关键词甄选四个步骤实现关键词的提取.理论分析和实验显示,基于高维聚类技术的中文关键词提取方法具备更好的稳定性.更高的效率及更准确的结果. 引言  关键词提取是通过对一篇输入文章做内容分析,按一定比例或字数要求提取出重要且语义相似性凝聚的关键词的过程.关键词自动提取是文本

文本关键词提取算法

1.TF-IDF 2.基于语义的统计语言模型 文章关键词提取基础件能够在全面把握文章的中心思想的基础上,提取出若干个代表文章语义内容的词汇或短语,相关结果可用于精化阅读.语义查询和快速匹配等. 采用基于语义的统计语言模型,所处理的文档不受行业领域限制,且能够识别出最新出现的新词语,所输出的词语可以配以权重. 3.TF-IWF文档关键词自动提取算法 针对现有TF-IWF的领域文档关键词快速提取算法.该算法使用简单统计并考虑词长.位置.词性等启发性知识计算词权重,并通过文档净化.领域词典 分词等方法

python 字典操作提取key,value

python 字典操作提取key,value dictionaryName[key] = value 1.为字典增加一项  2.访问字典中的值  3.删除字典中的一项  4.遍历字典  5.字典遍历的key\value  6.字典的标准操作符  7.判断一个键是否在字典中  8.python中其他的一些字典方法   原文地址:https://www.cnblogs.com/changfeng1800/p/8284125.html

python yield关键词使用总结

python yield关键词使用总结 by:授客 QQ:1033553122 测试环境 win10 python 3.5 yield功能简介 简单来说,yield 的作用就是把一个函数变成一个 generator,带有 yield 的函数不再是一个普通函数,Python 解释器会将其视为一个 generator 代码演示 例子1: 输出斐波那契數列前 N 个数 #!/usr/bin/env python # -*- coding:utf-8 -*-   __author__ = 'shouke

Python使用xslt提取网页数据

lxml是python的一个库,可以迅速.灵活地处理 XML.它支持 XML Path Language (XPath) 和 Extensible Stylesheet Language Transformation (XSLT),并且实现了常见的 ElementTree API. 这2天测试了一下在python中通过xslt来提取网页内容,记录如下: 1. 要提取集搜客官网旧版论坛的帖子标题和回复数 2. 运行下面的代码(在windows10, python3.2下测试通过): from ur

python通用论坛正文提取\python论坛评论提取\python论坛用户信息提取

本人长期出售超大量微博数据,并提供特定微博数据打包,Message to [email protected] 背景 参加泰迪杯数据挖掘竞赛,这次真的学习到了不少东西,最后差不多可以完成要求的内容,准确率也还行.总共的代码,算上中间的过程处理也不超过500行,代码思想也还比较简单,主要是根据论坛的短文本特性和楼层之间内容的相似来完成的.(通俗点说就是去噪去噪去噪,然后只留下相对有规律的日期,内容) 前期准备 软件和开发环境: Pycharm,Python2.7,Linux系统 用的主要Python