jieba库词频统计练习

在sypder上运行jieba库的代码：

import matplotlib.pyplot as plt
fracs = [2,2,1,1,1]
labels = ‘houqin‘, ‘jiemian‘, ‘zhengjiehong‘,‘baogan‘,‘dadaima‘
explode = [ 0,0,0,0,0]
plt.axes(aspect=1)
plt.pie(x=fracs, labels=labels, explode=explode,autopct=‘%3.1f %%‘,
shadow=True, labeldistance=1.1, startangle = 90,pctdistance = 0.6)
plt.show()

运行结果如图：

饼图制作代码：

import jieba
import collections
s="暂定做微信小程序，具体还需队伍学习协商定下最终计划。"
s+="郑杰鸿：擅长Python、Java。爆肝打代码角色。无事Debug，有事120。"
s+="梁旖：随性风格，后勤角色，无，后勤。坚持就是胜利，活着就是奇迹。"
s+="庄子庆：边学边死磕型，有耐心做大量的无趣工作。比较喜欢设计界面。做界面的角色。介系李没有体验过的船新版本。"
s1=jieba.cut(s)
k=[]
l=[‘、‘,‘，‘,‘。‘,‘；‘,‘！‘,‘:‘]
for i in s1:
if i not in l:
k.append(i)
count=collections.Counter(k)
for a,b in count.most_common():
print(a,b)

运行结果如图：

原文地址：https://www.cnblogs.com/lybear/p/8799058.html

时间： 2024-10-29 20:30:26

jieba库词频统计练习的相关文章

python 利用jieba库词频统计

1 #统计<三国志>里人物的出现次数 2 3 import jieba 4 text = open('threekingdoms.txt','r',encoding='utf-8').read() 5 excludes = {'将军','却说','二人','不能','如此','荆州','不可','商议','如何','军士','左右','主公','引兵','次日','大喜','军马', 6 '天下','东吴','于是'} 7 #返回列表类型的分词结果 8 words = jieba.lcut(t

jieba库分词统计

代码在github网站,https://github.com/chaigee/chaigee,中的z2.py文件 py.txt为团队中文简介文件代码运行后词频统计使用xlwt库将数据发送到excel表格,如图,频数为1的省略在excel表格作柱形图如图所示由此分析我们团队的简介用词得出:我们团队不仅注重团队合作,而且注重团队分工,发扬队员风格,提高队员对项目的兴趣,做擅长的工作,多次提到宣言以此提高团队凝聚力. 原文地址:https://www.cnblogs.com/chaigee/p/

用jieba库统计文本词频及云词图的生成

一.安装jieba库 :\>pip install jieba #或者 pip3 install jieba 二.jieba库解析 jieba库主要提供提供分词功能,可以辅助自定义分词词典. jieba库中包含的主要函数如下: jieba.cut(s) 精确模式,返回一个可迭代的数据类型 jieba.cut(s,cut_all=True)

jieba库的使用与词频统计

1.词频统计 (1)词频分析是对文章中重要词汇出现的次数进行统计与分析,是文本挖掘的重要手段.它是文献计量学中传统的和具有代表性的一种内容分析方法,基本原理是通过词出现频次多少的变化,来确定热点及其变化趋势. (2)安装jieba库安装说明代码对 Python 2/3 均兼容全自动安装:easy_install jieba 或者 pip install jieba / pip3 install jieba半自动安装:先下载 http://pypi.python.org/pypi/jieba

运用jieba库进行词频统计

Python第三方库jieba(中文分词) 一.概述 jieba是优秀的中文分词第三方库- 中文文本需要通过分词获得单个的词语- jieba是优秀的中文分词第三方库,需要额外安装- jieba库提供三种分词模式,最简单只需掌握一个函数二.安装说明全自动安装:(cmd命令行) pip install jieba 安装成功显示三.特点 —— jieba分词 1. 原理:jieba分词依靠中文词库 - 利用一个中文词库,确定中文字符之间的关联概率- 中文字符间概率大的组成词组,形成分词结果-

运用jieba库统计词频及制作词云

一.对新时代中国特色社会主义做词频统计 import jieba txt = open("新时代中国特色社会主义.txt","r",encoding="utf-8").read() words = jieba.lcut(txt) counts = {} for word in words: if len(word) == 1: continue else: counts[word] = counts.get(word,0)+1 items = l

使用jieba库与wordcloud库第三方库进行词频统计

一.jieba库与wordcloud库的使用 1.jieba库与wordcloud库的介绍 jieba 库的分词原理是利用一个中文词库,将待分词的内容与分词词库进行比对,通过图结构和动态规划方法找到最大概率的词组:除此之外,jieba 库还提供了增加自定义中文单词的功能. wordcloud是优秀的词云展示第三方库,以词语为基本单位,通过图形可视化的方式,更加直观和艺术的展示文本. 2.安装jieba库与wordcloud库在运行里输入 pip install wordcloud和pip in

python实例：利用jieba库，分析统计金庸名著《倚天屠龙记》中人物名出现次数并排序

本实例主要用到python的jieba库首先当然是安装pip install jieba 这里比较关键的是如下几个步骤: 加载文本,分析文本 txt=open("C:\\Users\\Beckham\\Desktop\\python\\倚天屠龙记.txt","r", encoding='utf-8').read() #打开倚天屠龙记文本 words=jieba.lcut(txt) #jieba库分析文本对数据进行筛选和处理 for word in words:

中文词频统计及词云制作

1.中软国际华南区技术总监曾老师还会来上两次课,同学们希望曾老师讲些什么内容?(认真想一想回答) 大数据会用到哪些技术? 2.中文分词下载一中文长篇小说,并转换成UTF-8编码. 使用jieba库,进行中文词频统计,输出TOP20的词及出现次数. **排除一些无意义词.合并同一词. import jieba fr=open("复活.txt",'r',encoding='utf-8') s=list(jieba.cut(fr.read())) key=set(s) dic={} f

猜你喜欢

Technorati 标签: .NET,C# 1. CLR是一个更好的COM.从COM开发人员所面临的问题入手,讲述了CLR如何应用虚拟化以及无所不在的.可扩展的元数据,解决这些COM问题,从而最终取 ...

MVC--DefaultModelBinder解析request参数

转载:http://www.cnblogs.com/leotsai/p/ASPNET-MVC-DefaultModelBinder.html 看到很多ASP.NET MVC项目还在从request.q ...

避免jQuery名字冲突--noConflict()方法

众所周知,在jQuery语法中,$符号是jQuery的简写方式.但在某些情况下,可能需要在同一个页面引入其他javascript库(比如Prototype).因为$简短方便,很多的库也是使用$符号.为 ...

codevs3732==洛谷解方程P2312 解方程

P2312 解方程 195通过 1.6K提交题目提供者该用户不存在标签数论(数学相关)高精2014NOIp提高组难度提高+/省选- 提交该题讨论题解记录题目描述已知多项式方程: a0+ ...

java 基本程序设计结构一

首先Java区分大小写.如果出现了大小写拼写错误,程序无法运行. java 变量名字必须以字母开头,后面可以跟字母数字的任意组合.长度基本上没有限制.但是不能使用java保留字. 标准的命名规范:类名 ...

《Crazy tea party》

Description n participants of ?crazy tea party? sit around the table. Each minute one pair of neighb ...

nand flash的实现（摘，参考）

首先明确一下我们的编程步骤. (1).加电在nand_flash加载boot.s中4K以内的程序.这4k将自动拷贝到SRAM(片内RAM)执行. (2).我们需要用这4k的程序实现nand-flash ...

python数据结构-序列之字符串

python中包含六种内建的序列:列表:元组:字符串:unicode字符串:buffer对象:xrange对象. 一.字符串: 所有标准的序列操作(索引.分片.乘法.加.成员资格.迭代.求最大最小值等 ...

python中函数参数传递引用

def fun1(arg): del arg[2:] li=[11,22,33,44] fun1(li) print(li) #输出:[11, 22] #函数的传参其实就是传引用:相当于将arg指向l ...

NeHe OpenGL教程第十课：3D世界

转自[翻译]NeHe OpenGL 教程前言声明,此 NeHe OpenGL教程系列文章由51博客yarin翻译(2010-08-19),本博客为转载并稍加整理与修改.对NeHe的OpenGL管线 ...

备忘录模式和策略模式

1.备忘录模式保存对象的状态,在需要的时候在恢复出来即可!!! 2.具体实现 (1).代码实现 #include<iostream> #include<string> us ...

Office2016 转换零售版为VOL版

@echo off :ADMIN openfiles >nul 2>nul ||( echo Set UAC = CreateObject^("Shell.Application ...

跟着刚哥学习Spring框架--通过XML方式配置Bean（三）

Spring配置Bean有两种形式(XML和注解) 今天我们学习通过XML方式配置Bean 1. Bean的配置方式通过全类名(反射)的方式 √ id:标识容器中的bean.id唯一. √ cl ...

修改Linux内核参数提高Nginx服务器并发性能

当linux下Nginx达到并发数很高,TCP TIME_WAIT套接字数量经常达到两.三万,这样服务器很容易被拖死.事实上,我们可以简单的通过修改Linux内核参数,可以减少Nginx服务器的TI ...

canvas-star1.html

<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...

Android开发之使用HTTP访问网络资源

使用HTTP访问网络资源前面介绍了 URLConnection己经可以非常方便地与指定站点交换信息,URLConnection还有一个子类:HttpURLConnection,HttpURLConn ...

java 多线程8 : synchronized锁机制之方法锁

脏读一个常见的概念.在多线程中,难免会出现在多个线程中对同一个对象的实例变量或者全局静态变量进行并发访问的情况,如果不做正确的同步处理,那么产生的后果就是"脏读",也就是取到的数 ...

nginx提示Error: Too many open files的解决办法

nginx提示:Too many open files这种错误问题的原因是因为linux文件系统最大可打开文件数为1024,而你的nginx中的error.log出现大量的Too many open ...

【转】Windows消息投递流程：一般窗口消息投递（WM_LBUTTONCLICK）

原文网址:http://blog.csdn.net/hyhnoproblem/article/details/6182646 本例通过在单文档程序的视图中添加WM_LBUTTONCLICK消息处理函数 ...

eclipse中Android插件问题

问题描述: 提示An error occurred while automatically activating bundle com.android.ide.eclipse.adt 好久没在ecli ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.020 s.