信息领域热词分析系统--python统计

统计词语出现的频率,并且按从高到低的顺序报错在文件中

def main():
    file=open("F:\大数据\大作业\分词后的文件\data4_xinxi.txt",‘r‘)
    wordCounts={}    #先建立一个空的字典,用来存储单词 和相应出现的频次
    count=50       #显示前多少条(按照单词出现频次从高到低)
    for line in file:

        lineprocess(line.lower(),wordCounts)  #对于每一行都进行处理,调用lineprocess()函数,参数就是从file文件读取的一行
        items0=list(wordCounts.items())       #把字典中的键值对存成列表,形如:["word":"data"]
        items=[[x,y] for (y,x) in items0]     #将列表中的键值对换一下顺序,方便进行单词频次的排序 就变成了["data":"word"]
        items.sort()            #sort()函数对每个单词出现的频次按从小到大进行排序
    gailv=[]#存储像文件中输入的词语以及概率
    for i in range(len(items)-1,1,-1):   #上一步进行排序之后 对items中的元素从后面开始遍历 也就是先访问频次多的单词
            if items[i][0]<10:
                break;
            zz=items[i][1]+"\t"+str(items[i][0])
            gailv.append(zz)
    f2 = open("F:\大数据\大作业\分词后的文件\data5_xinxi.txt", ‘a+‘,encoding=‘utf-8‘)
    for z1 in gailv:
        f2.write(z1)
        f2.write("\n")
    f2.close()

def lineprocess(line,wordCounts):
    for ch in line:   #对于每一行中的每一个字符 对于其中的特殊字符需要进行替换操作
        if ch in "[email protected]#$%^&*()_-+=<>?/,.:;{}[]|\‘""":
            line=line.replace(ch,"")
    words=line.split()  #替换掉特殊字符以后 对每一行去掉空行操作,也就是每一行实际的单词数量
    for word in words:
        if word in wordCounts:
            wordCounts[word]+=1
        else:
            wordCounts[word]=1

    #这个函数执行完成之后整篇文章里每个单词出现的频次都已经统计好了

main()

原文地址:https://www.cnblogs.com/wl2017/p/10294432.html

时间: 2024-11-09 04:38:41

信息领域热词分析系统--python统计的相关文章

信息领域热词分析系统--java爬取CSDN中文章标题即链接

package zuoye1; import java.sql.Connection;import java.sql.PreparedStatement;import java.sql.SQLException;import java.util.ArrayList;import java.util.Date;import java.util.List; import org.jsoup.Jsoup;import org.jsoup.nodes.Document; import us.codecr

《信息领域热词分析》系统安全性战术分析

安全性战术是为了保护系统安全方面,安全性是衡量系统在向合法用户正常提供服务的情况下,阻止非授权使用的能力.安全性战术主要包括抵抗攻击的战术.检测攻击的战术和从攻击从恢复的战术.对于这方面的技术,当前的我们知道的知识不多,因此可以参考了一下网上的资料. 一.抵抗攻击: 最简单的就是用户的信息保护,如注册登陆,用户注册的密码可以采用MD5加密,这是一种安全性非常高的加密算法,由于这种加密的不可逆性,在使用10位以上字母加数字组成的随机密码时,几乎没有破解的可能性.下面是实例: 1 //用户登录信息查

13 信息领域热词分析部分功能展示

主界面: 查看新闻 点击相关链接跳转 词云图: 原文地址:https://www.cnblogs.com/xcl666/p/12319730.html

信息领域热词分析的-质量属性战术-可用性战术

可用性战术 一.错误检测 1.命令/响应:这个在ajax中有所应用,ajax有专门的success方法和error方法来对发出的请求做出响应. $.ajax({ type: "POST", url: "/SentAlink", contentType: "application/json; charset=utf-8", data: JSON, /*传给后端的数据格式json*/ dataType: "json", /*后端返

信息领域热词查询统计(成果展示)

开场: 搜索:   主页: 分类搜索 词云图:  联系图: 文档下载: 文档: 原文地址:https://www.cnblogs.com/smartisn/p/12293582.html

六大质量属性之可测试性层面描述-以信息领域热词系统为例

首先可测试性指的是可测试性战术的目标是允许在完成软件开发的一个增量后,轻松的对软件进行测试.测试的目标是发现错误. 1.首先对系统新加一个增量,正确的显示是系统没有此选项,但是系统显示null为空. 经过检查发现是相关的代码未加内容提示, private void Select(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { req.setCharacterEncod

11 信息化领域热词分类分析及解释 第五步按目录爬取热词

功能要求为:1,数据采集,定期从网络中爬取信息领域的相关热词 2,数据清洗:对热词信息进行数据清洗,并采用自动分类技术生成自动分类计数生成信息领域热词目录. 3,热词解释:针对每个热词名词自动添加中文解释(参照百度百科或维基百科) 4,热词引用:并对近期引用热词的文章或新闻进行标记,生成超链接目录,用户可以点击访问: 5,数据可视化展示:① 用字符云或热词图进行可视化展示:② 用关系图标识热词之间的紧密程度. 6,数据报告:可将所有热词目录和名词解释生成 WORD 版报告形式导出. 这次完成了按

09 信息化领域热词分类分析及解释 第三步 将清洗完毕的热词添加百度百科解释

功能要求为:1,数据采集,定期从网络中爬取信息领域的相关热词 2,数据清洗:对热词信息进行数据清洗,并采用自动分类技术生成自动分类计数生成信息领域热词目录. 3,热词解释:针对每个热词名词自动添加中文解释(参照百度百科或维基百科) 4,热词引用:并对近期引用热词的文章或新闻进行标记,生成超链接目录,用户可以点击访问: 5,数据可视化展示:① 用字符云或热词图进行可视化展示:② 用关系图标识热词之间的紧密程度. 6,数据报告:可将所有热词目录和名词解释生成 WORD 版报告形式导出. 本次完成第三

08 信息化领域热词分类分析及解释 第二步 将爬取的数据使用jieba分词处理并清洗

直接上代码: import jieba import pandas as pd import re from collections import Counter if __name__=='__main__': filehandle = open("news.txt", "r",encoding='utf-8'); mystr = filehandle.read() seg_list = jieba.cut(mystr) # 默认是精确模式 print(seg_l