+中文词频统计及词云制作9-25

1.我希望老师能讲一点python在数据挖掘，数据分析领域的应用，最好能举些实例，或者说带我们实际操作一波。

2.中文分词

下载一中文长篇小说，并转换成UTF-8编码
```
 
```
使用jieba库，进行中文词频统计，输出TOP20的词及出现次数。

>>>import jieba

>>>lr = open(‘斗破苍穹第一章.txt‘,‘w‘)
>>>lr.write(‘‘‘大陆名为斗气大陆，大陆上并没有小说中常见的各系魔法，而斗气，才是大陆的唯一主调！

在这片大陆上，斗气的修炼，几乎已经在无数代人的努力之下，发展到了巅峰地步，而且由于斗气的不断繁衍，最后甚至扩散到了民间之中，这也导致，斗气，与人类的日常生活，变得息息相关，如此，斗气在大陆中的重要性，更是变得无可替代！

因为斗气的极端繁衍，同时也导致从这条主线中分化出了无数条斗气修炼之法，所谓手有长短，分化出来的斗气修炼之法，自然也是有强有弱。

经过归纳统计，斗气大陆将斗气功法的等级，由高到低分为四阶十二级：天.地.玄.黄！

而每一阶，又分初，中，高三级！

修炼的斗气功法等级的高低，也是决定日后成就高低的关键，比如修炼玄阶中级功法的人，自然要比修炼黄阶高级功法的同等级的人要强上几分。

斗气大陆，分辩强弱，取决于三种条件。

首先，最重要的，当然是自身的实力，如果本身实力只有一星斗者级别，那就算你修炼的是天阶高级的稀世功法，那也难以战胜一名修炼黄阶功法的斗师。

其次，便是功法！同等级的强者，如果你的功法等级较之对方要高级许多，那么在比试之时，种种优势，一触既知。

最后一种，名叫斗技！

顾名思义，这是一种发挥斗气的特殊技能，斗技在大陆之上，也有着等级之分，总的说来，同样也是分为天地玄黄四级。

斗气大陆斗技数不胜数，不过一般流传出来的大众斗技，大多都只是黄级左右，想要获得更高深的斗技，便必须加入宗派，或者大陆上的斗气学院。

当然，一些依靠奇遇所得到前人遗留而下的功法，或者有着自己相配套的斗技，这种由功法衍变而出的斗技，互相配合起来，威力要更强上一些。

依靠这三种条件，方才能判出究竟孰强孰弱，总的说来，如果能够拥有等级偏高的斗气功法，日后的好处，不言而喻…

不过高级斗气修炼功法常人很难得到，流传在普通阶层的功法，顶多只是黄阶功法，一些比较强大的家族或者中小宗派，应该有玄阶的修炼之法，比如萧炎所在的家族，最为顶层的功法，便是只有族长才有资格修炼的：狂狮怒罡，这是一种风属性，并且是玄阶中级的斗气功法。

玄阶之上，便是地阶了，不过这种高深功法，或许便只有那些超然势力与大帝国，方才可能拥有…

至于天阶…已经几百年未曾出现了。

从理论上来说，常人想要获得高级功法，基本上是难如登天，然而事无绝对，斗气大陆地域辽阔，万族林立，大陆之北，有号称力大无穷，可与兽魂合体的蛮族，大陆之南，也有各种智商奇高的高级魔兽家族，更有那以诡异阴狠而著名的黑暗种族等等…

由于地域的辽阔，也有很多不为人知的无名隐士，在生命走到尽头之后，性子孤僻的他们，或许会将平生所创功法隐于某处，等待有缘人取之，在斗气大陆上，流传一句话：如果某日，你摔落悬崖，掉落山洞，不要惊慌，往前走两步，或许，你，将成为强者！

此话，并不属假，大陆近千年历史中，并不泛这种依靠奇遇而成为强者的故事.

这个故事所造成的后果，便是造就了大批每天等在悬崖边，准备跳崖得绝世功法的怀梦之人，当然了，这些人大多都是以断胳膊断腿归来…

总之，这是一片充满奇迹，以及创造奇迹的大陆！
‘‘‘)
>>>lr.close()

>>>txt = open(‘斗破苍穹第一章.txt‘,‘r‘,encoding=‘GBK‘).read()
>>>words = jieba.cut(txt)

>>>dic = {}
>>>for word in words:
    if len(word) == 1:
        continue
    else:
        reword = word
        dic[word] = dic.get(word,0) +1

>>>keys = set(word) 

>>>t = sorted(dic.items())

>>>dd = list(dic.items())
>>>dd.sort(key = lambda x:x[1],reverse = True)

>>>for i in range(20):
    print(dd[i])

**排除一些无意义词、合并同一词。
**使用wordcloud库绘制一个词云。

时间： 2024-07-29 23:36:35

+中文词频统计及词云制作9-25的相关文章

中文词频统计及词云制作

1.中软国际华南区技术总监曾老师还会来上两次课,同学们希望曾老师讲些什么内容?(认真想一想回答) 大数据会用到哪些技术? 2.中文分词下载一中文长篇小说,并转换成UTF-8编码. 使用jieba库,进行中文词频统计,输出TOP20的词及出现次数. **排除一些无意义词.合并同一词. import jieba fr=open("复活.txt",'r',encoding='utf-8') s=list(jieba.cut(fr.read())) key=set(s) dic={} f

中文词频统计与词云生成

https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2822 中文词频统计 1. 下载一长篇中文小说. 2. 从文件读取待分析文本. 3. 安装并使用jieba进行中文分词. pip install jieba import jieba jieba.lcut(text) 4. 更新词库,加入所分析对象的专业词汇. jieba.add_word('天罡北斗阵') #逐个添加 jieba.load_userdict(word_dict)

Python -WordCloud安装、词云制作

一.WordCloud 安装说明:Windows系统直接pip install wordcloud 是不行的,命令行会报错. 第一步:检查自己的Python 版本.Win+R ——>CMD——>命令行输入python,我的是python 3.7 win32位的第二步:下载对应版本的WordCloud,进入 python 扩展包库 (非正式第三方whl文件包)下载第三步:安装.命令行先定位到下载的wordcloud安装文件路径,再输入 pip install wordcloud-1.6.0

中文词频统计

中文分词下载一中文长篇小说,并转换成UTF-8编码. 使用jieba库,进行中文词频统计,输出TOP20的词及出现次数. 排除一些无意义词.合并同一词. 对词频统计结果做简单的解读. import jieba txt=open('111.txt','r',encoding='utf-8').read() words=list(jieba.cut(txt)) keys=set(words) dic={} for w in keys: if len(w)>1: dic[w]=words.count

9-25提出问题和中文词频统计

1.中软国际华南区技术总监曾老师还会来上两次课.希望老师能够讲一下现在的网络发展和现状,感觉计算机专业是最受欢迎的,但是凭借着每年不断毕业(增多)的人数,我们凭借着什么来跟好比如我们是网工专业,跟学软件班的同学去PK,去取得更好的就业岗位.并且一般现在看到比我们大一届的师兄师姐很多都是(大部分),只是谋求工作,而不能因为是学计算机,就能够谋求到一份好的关系到计算机的工作. 2.中文分词下载一中文长篇小说,并转换成UTF-8编码. <水浒传>第一百零三回张管营因妾弟丧身范节级为表兄医脸

实验二-3 Hadoop&Paoding 中文词频统计

参考教程在Hadoop上使用庖丁解牛(较复杂,并未采用,可以之后试试) http://zhaolinjnu.blog.sohu.com/264905210.html Lucene3.3.Lucene3.4中文分词——庖丁解牛分词实例(屈:注意版本) http://www.360doc.com/content/13/0217/13/11619026_266124504.shtml 庖丁分词在hadoop上运行时的配置问题(采纳了一半,没有按照其所写配置dic属性文件) http://f.da

初学Hadoop之中文词频统计

1.安装eclipse 准备 eclipse-dsl-luna-SR2-linux-gtk-x86_64.tar.gz 安装 1.解压文件. 2.创建图标. ln -s /opt/eclipse/eclipse /usr/bin/eclipse #使符号链接目录 vim /usr/share/applications/eclipse.desktop #创建一个 Gnome 启动添加如下代码: [Desktop Entry] Encoding=UTF-8 Name=Eclipse 4.4.2

1.英文词频统2.中文词频统计

1.英文词频统 news=''' Guo Shuqing, head of the newly established China banking and insurance regulatory commission, was appointed Party secretary and vice-governor of the central bank on Monday, according to an announcement published on the People's Bank

中央一号文件中文词频统计并保存到文件中

1 # Author :Zcb 2 3 #中文词频统计 4 import jieba 5 import sys 6 7 f = open("d:/政府工作报告.txt",'r') 8 txt = f.read() 9 f.close() 10 11 d={} 12 ls=jieba.lcut(txt) 13 exclude =['“','”','要','和',',','的','\n','.','.'] #这里是要exclude 的列表,根据需求可灵活改变 14 for w in ls: