08 信息化领域热词分类分析及解释 第二步 将爬取的数据使用jieba分词处理并清洗

直接上代码:

import jieba
import pandas as pd
import re
from collections import Counter

if __name__==‘__main__‘:
    filehandle = open("news.txt", "r",encoding=‘utf-8‘);
    mystr = filehandle.read()
    seg_list = jieba.cut(mystr)  # 默认是精确模式
    print(seg_list)
    #all_words = cut_words.split()
    #print(all_words)
    stopwords = {}.fromkeys([line.rstrip() for line in open(r‘stopwords.txt‘)])
    c = Counter()
    for x in seg_list:
            if x not in stopwords:
                if len(x) > 1 and x != ‘\r\n‘:
                    c[x] += 1

    print(‘\n词频统计结果:‘)
    for (k, v) in c.most_common(100):  # 输出词频最高的前两个词
        print("%s:%d" % (k, v))

    #print(mystr)
    filehandle.close();
# seg2 = jieba.cut("好好学学python,有用。", cut_all=False)
# print("精确模式(也是默认模式):", ‘ ‘.join(seg2))

  

运行截图:

总结:第一步先爬取的大量数据,再根据爬取的数据进行分词,分词中去除多余的单词,用stop.txt。

然后就可以得到上述数据。

stop.txt部分截图:

原文地址:https://www.cnblogs.com/xcl666/p/12289646.html

时间: 2024-10-13 13:29:00

08 信息化领域热词分类分析及解释 第二步 将爬取的数据使用jieba分词处理并清洗的相关文章

11 信息化领域热词分类分析及解释 第五步按目录爬取热词

功能要求为:1,数据采集,定期从网络中爬取信息领域的相关热词 2,数据清洗:对热词信息进行数据清洗,并采用自动分类技术生成自动分类计数生成信息领域热词目录. 3,热词解释:针对每个热词名词自动添加中文解释(参照百度百科或维基百科) 4,热词引用:并对近期引用热词的文章或新闻进行标记,生成超链接目录,用户可以点击访问: 5,数据可视化展示:① 用字符云或热词图进行可视化展示:② 用关系图标识热词之间的紧密程度. 6,数据报告:可将所有热词目录和名词解释生成 WORD 版报告形式导出. 这次完成了按

09 信息化领域热词分类分析及解释 第三步 将清洗完毕的热词添加百度百科解释

功能要求为:1,数据采集,定期从网络中爬取信息领域的相关热词 2,数据清洗:对热词信息进行数据清洗,并采用自动分类技术生成自动分类计数生成信息领域热词目录. 3,热词解释:针对每个热词名词自动添加中文解释(参照百度百科或维基百科) 4,热词引用:并对近期引用热词的文章或新闻进行标记,生成超链接目录,用户可以点击访问: 5,数据可视化展示:① 用字符云或热词图进行可视化展示:② 用关系图标识热词之间的紧密程度. 6,数据报告:可将所有热词目录和名词解释生成 WORD 版报告形式导出. 本次完成第三

Python 爬取 热词并进行分类数据分析-[热词分类+目录生成+关系演示+报告生成]

日期:2020.02.04 博客期:143 星期二   [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 如下图,我已经解决的需求是标黄的部分,剩余需求就只有 热词分类.目录生成.热词关系图展示.数据报告导出 四部分了,这些需求是最紧要完成的,呼~撸起袖子加油干!   1.热词分类 2.热词目录生成 3.热词关系图展示 4.Word模板报告撰写 5.分析格式,制作自动生成报告的 Java 程序 [今日中午12:00更新进度] 原文地址:https://www.cnblo

利用python爬取龙虎榜数据及后续分析

##之前已经有很多人写过相关内容,但我之前并未阅读过,这个爬虫也是按照自己的思路写的,可能比较丑陋,请见谅! 本人作为Python爬虫新手和股市韭菜,由于时间原因每晚没办法一个个翻龙虎榜数据,所以希望借助爬虫筛选出有用信息,供我分析(其实就是想偷懒...). 每日的龙虎榜数据都在:http://data.eastmoney.com/stock/lhb.html 爬取过程其实很简单,不需要登陆,也不需要模拟浏览器登录:数据量小,因此也不用多进程,也不用更换IP等反爬虫手段.后续的分析可能更关键.

13 信息领域热词分析部分功能展示

主界面: 查看新闻 点击相关链接跳转 词云图: 原文地址:https://www.cnblogs.com/xcl666/p/12319730.html

信息领域热词分析系统--python统计

统计词语出现的频率,并且按从高到低的顺序报错在文件中 def main(): file=open("F:\大数据\大作业\分词后的文件\data4_xinxi.txt",'r') wordCounts={} #先建立一个空的字典,用来存储单词 和相应出现的频次 count=50 #显示前多少条(按照单词出现频次从高到低) for line in file: lineprocess(line.lower(),wordCounts) #对于每一行都进行处理,调用lineprocess()函

信息领域热词分析系统--java爬取CSDN中文章标题即链接

package zuoye1; import java.sql.Connection;import java.sql.PreparedStatement;import java.sql.SQLException;import java.util.ArrayList;import java.util.Date;import java.util.List; import org.jsoup.Jsoup;import org.jsoup.nodes.Document; import us.codecr

信息领域热词分析的-质量属性战术-可用性战术

可用性战术 一.错误检测 1.命令/响应:这个在ajax中有所应用,ajax有专门的success方法和error方法来对发出的请求做出响应. $.ajax({ type: "POST", url: "/SentAlink", contentType: "application/json; charset=utf-8", data: JSON, /*传给后端的数据格式json*/ dataType: "json", /*后端返

《信息领域热词分析》系统安全性战术分析

安全性战术是为了保护系统安全方面,安全性是衡量系统在向合法用户正常提供服务的情况下,阻止非授权使用的能力.安全性战术主要包括抵抗攻击的战术.检测攻击的战术和从攻击从恢复的战术.对于这方面的技术,当前的我们知道的知识不多,因此可以参考了一下网上的资料. 一.抵抗攻击: 最简单的就是用户的信息保护,如注册登陆,用户注册的密码可以采用MD5加密,这是一种安全性非常高的加密算法,由于这种加密的不可逆性,在使用10位以上字母加数字组成的随机密码时,几乎没有破解的可能性.下面是实例: 1 //用户登录信息查