基于python的tagcloud

setp1: 安装jieba,pytagcloud

pip install jieba

apt-get install python-pygame

pip install simplejson

pip install pytagcloud

step2:下载中文字体文件比如simhei.ttf

  • 找到pytagcloud包的字体文件(/usr/local/lib/python2.7/dist-packages/pytagcloud/fonts)
  • 复制字体文件到pytagcloud中 cp simhei.ttf /usr/local/lib/python2.7/dist-packages/pytagcloud/fonts
  • 编辑fonts.json  vim fonts.json (如下图)
[
  2     {
  3         "name":"SimHei",
  4         "ttf":"simhei.ttf",
  5         "web":"none"
  6     },
  7     {
  8         "name": "Nobile",
  9         "ttf": "nobile.ttf",
 10         "web": "http://fonts.googleapis.com/css?family=Nobile"
 11     },
 12     {
 13         "name": "Old Standard TT",
 14         "ttf": "OldStandard-Regular.ttf",
 15         "web": "http://fonts.googleapis.com/css?family=Old+Standard+TT"
 16     },

step3:爬取文本

step4:生成tagcloud

 1 # -*- coding:utf-8 -*-
  2 import jieba
  3 import jieba.analyse
  4 import pytagcloud
  5 from pytagcloud import create_tag_image,make_tags
  6 from pytagcloud.lang.counter import get_tag_counts
  7 fp=open(‘sent.txt‘,‘r‘)
  8 content = fp.read()
  9 words = jieba.cut(content)
 10 top = jieba.analyse.extract_tags(content,topK=100,withWeight=True)
 11 tagcloud={}
 12 for i in xrange(len(top)):
 13     tagcloud[top[i][0]]=int(top[i][1])
 14 print tagcloud
 15 from operator import itemgetter
 16 swd = sorted(tagcloud.iteritems(),key=itemgetter(1),reverse=True)
 17 tags = make_tags(swd, minsize=20,maxsize=60)
 18 #print tags
 19 create_tag_image(tags, ‘cloud_large.png‘,background=(0,0,0,255),size=(900, 600),fontname=‘SimHei‘)
 20 import webbrowser
 21 webbrowser.open(‘cloud_large.png‘)

时间: 2024-10-10 07:34:37

基于python的tagcloud的相关文章

【Machine Learn】决策树案例:基于python的商品购买能力预测系统

决策树在商品购买能力预测案例中的算法实现 作者:白宁超 2016年12月24日22:05:42 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结合视频学习和书籍基础的笔记所得.本系列文章将采用理论结合实践方式编写.首先介绍机器学习和深度学习的范畴,然后介绍关于训练集.测试集等介绍.接着分别介绍机器学习常用算法,分别是监督学习之分类(决策树.临近取样.支持向量机.神经网络算法)监督学习之回归(线性回归.非线性回归)非监督学习(

关于《selenium2自动测试实战--基于Python语言》

关于本书的类型: 首先在我看来技术书分为两类,一类是“思想”,一类是“操作手册”. 对于思想类的书,一般作者有很多年经验积累,这类书需要细读与品位.高手读了会深有体会,豁然开朗.新手读了不止所云,甚至会说,都在扯犊子,看了半天也不知道如何下手. 对于操作手册的书,一般会提供大量的实例,告诉你详细的步骤.对于高手来说,这不就是翻译了一下官方文档嘛,好意思拿来骗钱.但对于新手来说,反而认为是好处,跟着上面的步骤操作就掌握了某种技术能力. 显然,本书属于后者,书中提供了大量代码实例,并没有太多思想层面

基于Python Spark的大数据分析_pyspark实战项目课程

基于Python Spark的大数据分析(第一期) 课程介绍地址:http://www.xuetuwuyou.com/course/173 课程出自学途无忧网:http://www.xuetuwuyou.com 讲师:轩宇老师 1.开课时间:小班化教学授课,第一期开课时间为5月20号(满30人开班,先报先学!): 2.学习方式:在线直播,共8次课,每次2小时,每周2次(周三.六,晚上20:30 - 22:30),提供在线视频,课后反复学习: 3.报名课程后,请联系客服申请加入班级答疑交流QQ群:

基于python语言的tensorflow的‘端到端’的字符型验证码识别源码整理(github源码分享)

基于python语言的tensorflow的‘端到端’的字符型验证码识别 1   Abstract 验证码(CAPTCHA)的诞生本身是为了自动区分 自然人 和 机器人 的一套公开方法, 但是近几年的人工智能技术的发展,传统的字符验证已经形同虚设. 所以,大家一方面研究和学习此代码时,另外一方面也要警惕自己的互联网系统的web安全问题. Keywords: 人工智能,Python,字符验证码,CAPTCHA,识别,tensorflow,CNN,深度学习 2   Introduction 全自动区

Appium基于python unittest自动化测试并生成html测试报告

本文基于python单元测试框架unittest完成appium自动化测试,生成基于html可视化测试报告 代码示例: 1 #利用unittest并生成测试报告 2 class Appium_test(unittest.TestCase): 3 """appium测试类""" 4 def setUp(self): 5 desired_caps = { 6 'platformName': 'Android', 7 'deviceName': 'An

符号执行-基于python的二进制分析框架angr

转载:All Right 符号执行概述 在学习这个框架之前首先要知道符号执行.符号执行技术使用符号值代替数字值执行程序,得到的变量的值是由输入变 量的符号值和常量组成的表达式.符号执行技术首先由King在1976年提出 ,经过三十多年的发展,现在仍然被广泛研究,它在软件测试和程序验证中发挥着重 要作用.符号执行是一种重要的形式化方法和静态分析技术,它使用数学和逻辑 首先定义一些基本概念.程序的路径(path)是程序的一个语句序列,这个 语句序列包括程序的一些顺序的代码片段,代码片段之间的连接是由

基于Python+Django的Kubernetes集群管理平台

原文出自[听云技术博客]:http://blog.tingyun.com/web/article/detail/1345 时至今日,接触kubernetes也有一段时间了,而我们的大部分业务也已经稳定地运行在不同规模的kubernetes集群上,不得不说,无论是从应用部署.迭代,还是从资源调度管理等方面都有其难以言喻的优势,但是随着业务的不断增长,以及服务的多元化,容器的体量与管理的难度也随之增长. 浅述Kubernetes集群日常管理维护中的一些痛点: 1.较为庞大的集群规模及容器数量维护管理

基于Python的urllib2模块的多线程网络爬虫程序

1 m Queue import Queue 2 from gzip import GzipFile 3 from StringIO import StringIO 4 import time 5 import socket 6 class ContentEncodingProcessor(urllib2.BaseHandler): 7 """A handler to add gzip capabilities to urllib2 requests ""

Baseline Testing 开源(基于Python插件式结构开发)

[其他]入职37.com后写的一个东西,为了检查下服务器的一些安全配置.数量太多,手工不靠谱. [OSCHINA开源社区地址]http://www.oschina.net/p/baseline-testing 基于Linux的配置检查工具,采用插件式结构开发.开发语言使用的是python.开发者可以通过自行开发插件来扩展该工具,灵活性高.开发该工具的主要目的是因为刚入职,需要对几百台服务器进行检查.有需要的朋友可以对其进行插件扩展.在使用的过程当中,可以自己配置FTP,目前支持将结果上传到FTP