python3生成标签云

标签云是现在大数据里面最喜欢使用的一种展现方式,其中在python3下也能实现标签云的效果,贴图如下:

-------------------进入正文---------------------

首先要安装以下几个库:

1 #!/usr/bin/python3.4
2 # -*- coding: utf-8 -*-
3
4 # http://www.lfd.uci.edu/~gohlke/pythonlibs/#cx_freeze
5 # 万能仓库下载pygame
6 # pip3下载simplejson

还有最重要的库:

pip3 install pytagcloud

或者去官网下载:

https://pypi.python.org/pypi/pytagcloud/

安装完毕,利用官网的例子来做:

1 from pytagcloud import create_tag_image, make_tags
2 from pytagcloud.lang.counter import get_tag_counts
3
4 YOUR_TEXT = "A tag cloud is a visual representation for text data, typically5 used to depict keyword metadata on websites, or to visualize free form text."
6
7 tags = make_tags(get_tag_counts(YOUR_TEXT), maxsize=120)
8
9 create_tag_image(tags, ‘cloud_large.png‘, size=(900, 600), fontname=‘Lobster‘)

果断报错:

Traceback (most recent call last):
  File "D:/code/pythonwork/Text.py", line 96, in <module>
    tags = make_tags(get_tag_counts(YOUR_TEXT), maxsize=120)
  File "C:\Python34\lib\site-packages\pytagcloud\lang\counter.py", line 25, in get_tag_counts
    return sorted(counted.iteritems(), key=itemgetter(1), reverse=True)
AttributeError: ‘dict‘ object has no attribute ‘iteritems‘

看了发现问题出在库中的:

# counter.py
return sorted(counted.iteritems(), key=itemgetter(1), reverse=True)

原来是python3.4不支持写法:

在Python2.x中,items( )用于 返回一个字典的拷贝列表【Returns a copy of the list of all items (key/value pairs) in D】,占额外的内存。

iteritems() 用于返回本身字典列表操作后的迭代【Returns an iterator on all items(key/value pairs) in D】,不占用额外的内存。

Python 3.x 里面,iteritems() 和 viewitems() 这两个方法都已经废除了,而 items() 得到的结果是和 2.x 里面 viewitems() 一致的。在3.x 里 用 items()替换iteritems() ,可以用于 for 来循环遍历。

但是当我换成:

# counter.py
return sorted(counted.items(), key=itemgetter(1), reverse=True)

发现运行并没有错误,但是没有生成标签云啊,一遍一遍打印出来,终于找到问题了:

from pytagcloud import create_tag_image

这个是为了生成一个元组的东西:

    # counts =[(‘cloud‘, 3),
    # (‘words‘, 2),
    # (‘code‘, 1),
    # (‘word‘, 1),
    # (‘appear‘, 1)]

但是python3里面的items()是达不到这个效果的,所以我就自己写吧。

读取txt文件,将每一行都按照空格划分成一个个数组的元素:

1  arr = []
2     file = open(‘../tagcloud/tag_file.txt‘, ‘r‘)
3     data = file.read().split(‘\r\n‘)
4     for content in data:
5         contents = validatecontent(content).split()
6         for word in contents:
7             arr.append(word)
[‘BAISC‘, ‘Python‘, ‘BASICA‘, ‘GVBASIC‘, ‘GWBASIC‘, ‘Python‘, ‘ETBASIC‘, ‘QBASIC‘, ‘Quick‘, ‘Basic‘, ‘Turbo‘, ‘Basic‘, ‘True‘, ‘Python‘, ‘java‘, ‘Basic‘, ‘Visual‘, ‘Basic‘, ‘Visual‘, ‘Basic‘, ‘Net‘, ‘Power‘, ‘Basic‘, ‘Python‘, ‘java‘, ‘SQL‘, ‘VB‘, ‘Small‘, ‘Basic‘, ‘Free‘, ‘Basic‘, ‘DarkBASIC‘, ‘VBScript‘, ‘Visual‘, ‘Basic‘, ‘For‘, ‘ApplicationsVBA‘, ‘REALbasic‘, ‘C‘, ‘C‘, ‘Turbo‘, ‘C‘, ‘Python‘, ‘java‘, ‘SQL‘, ‘VB‘, ‘PHP‘, ‘HTML‘, ‘Borland‘, ‘C‘, ‘C‘, ‘Builder‘, ‘CCLI‘, ‘Python‘, ‘java‘, ‘ObjectiveC‘, ‘C#‘, ‘Microsoft‘, ‘Visual‘, ‘C‘, ‘Pascal‘, ‘Delphi‘, ‘Turbo‘, ‘Python‘, ‘java‘, ‘SQL‘, ‘VB‘, ‘PHP‘, ‘HTML‘, ‘Pascal‘, ‘Object‘, ‘Pascal‘, ‘Free‘, ‘Pascal‘, ‘Lazarus‘, ‘FORTRAN‘, ‘MATLAB‘, ‘Scilab‘, ‘GNU‘, ‘Octave‘, ‘R‘, ‘SPlus‘, ‘Mathematica‘, ‘Maple‘, ‘Python‘, ‘java‘, ‘SQL‘, ‘VB‘, ‘PHP‘, ‘HTML‘, ‘Julia‘, ‘xBaseClipper‘, ‘Visual‘, ‘FoxPro‘, ‘SQLPLSQL‘, ‘TSQL‘, ‘SQLPSM‘, ‘LINQ‘, ‘Xquer‘, ‘Lua‘, ‘Python‘, ‘java‘, ‘SQL‘, ‘VB‘, ‘Perl‘, ‘PHP‘, ‘Python‘, ‘Ruby‘, ‘ASP‘, ‘JSP‘, ‘TclTk‘, ‘VBScript‘, ‘AppleScript‘, ‘AAuto‘, ‘ActionScript‘, ‘DMDScript‘, ‘ECMAScript‘, ‘JavaScript‘, ‘JScript‘, ‘TypeScript‘, ‘sh‘, ‘bash‘, ‘Python‘, ‘java‘, ‘SQL‘, ‘VB‘, ‘PHP‘, ‘HTML‘, ‘sed‘, ‘awk‘, ‘PowerShell‘, ‘csh‘, ‘tcsh‘, ‘ksh‘, ‘zsh‘, ‘XMLSVG‘, ‘XML‘, ‘Schema‘, ‘Python‘, ‘java‘, ‘XSLT‘, ‘XHTML‘, ‘MathML‘, ‘XAML‘, ‘SSML‘, ‘SGML‘, ‘HTML‘, ‘Python‘, ‘java‘, ‘SQL‘, ‘VB‘, ‘Curl‘, ‘SVG‘, ‘XML‘, ‘Schema‘, ‘XSLT‘, ‘XHTML‘, ‘MathML‘, ‘XAML‘, ‘SSML‘, ‘Java‘, ‘Jython‘, ‘JRuby‘, ‘JScheme‘, ‘Groovy‘, ‘Kawa‘, ‘Scala‘, ‘Clojure‘, ‘ALGOL‘, ‘APLJ‘, ‘Ada‘, ‘Falcon‘, ‘Forth‘, ‘Io‘, ‘MUMPS‘, ‘PLI‘, ‘PostScript‘, ‘REXX‘, ‘SAC‘, ‘Self‘, ‘Simula‘, ‘Swift‘, ‘IronPython‘, ‘IronRuby‘, ‘COBOL‘, ‘Python‘, ‘java‘, ‘SQL‘, ‘VB‘, ‘PHP‘, ‘HTML‘]

对每一个元素都来个计数:

from collections import Counter
counts = Counter(arr).items()
print(counts)

效果出来了:

dict_items([(‘For‘, 1), (‘SQL‘, 8), (‘JRuby‘, 1), (‘Builder‘, 1), (‘HTML‘, 6), (‘LINQ‘, 1), (‘BAISC‘, 1), (‘BASICA‘, 1), (‘PHP‘, 6), (‘Octave‘, 1), (‘csh‘, 1), (‘PostScript‘, 1), (‘awk‘, 1), (‘Ruby‘, 1), (‘AppleScript‘, 1), (‘Object‘, 1), (‘java‘, 11), (‘TclTk‘, 1), (‘Xquer‘, 1), (‘ksh‘, 1), (‘zsh‘, 1), (‘ETBASIC‘, 1), (‘AAuto‘, 1), (‘Borland‘, 1), (‘SVG‘, 1), (‘Jython‘, 1), (‘Simula‘, 1), (‘IronPython‘, 1), (‘Python‘, 14), (‘Microsoft‘, 1), (‘ActionScript‘, 1), (‘XHTML‘, 2), (‘REXX‘, 1), (‘COBOL‘, 1), (‘Scilab‘, 1), (‘Ada‘, 1), (‘Basic‘, 9), (‘GVBASIC‘, 1), (‘ECMAScript‘, 1), (‘TypeScript‘, 1), (‘Falcon‘, 1), (‘Clojure‘, 1), (‘ASP‘, 1), (‘ALGOL‘, 1), (‘XMLSVG‘, 1), (‘GWBASIC‘, 1), (‘VBScript‘, 2), (‘CCLI‘, 1), (‘Lazarus‘, 1), (‘Julia‘, 1), (‘JSP‘, 1), (‘PowerShell‘, 1), (‘IronRuby‘, 1), (‘Power‘, 1), (‘FORTRAN‘, 1), (‘Self‘, 1), (‘Perl‘, 1), (‘Small‘, 1), (‘FoxPro‘, 1), (‘REALbasic‘, 1), (‘GNU‘, 1), (‘Mathematica‘, 1), (‘True‘, 1), (‘Visual‘, 5), (‘JScheme‘, 1), (‘Maple‘, 1), (‘Quick‘, 1), (‘Turbo‘, 3), (‘SAC‘, 1), (‘JScript‘, 1), (‘APLJ‘, 1), (‘sh‘, 1), (‘Kawa‘, 1), (‘Pascal‘, 4), (‘TSQL‘, 1), (‘SPlus‘, 1), (‘C‘, 6), (‘xBaseClipper‘, 1), (‘tcsh‘, 1), (‘SQLPSM‘, 1), (‘ApplicationsVBA‘, 1), (‘SSML‘, 2), (‘R‘, 1), (‘Groovy‘, 1), (‘XSLT‘, 2), (‘MUMPS‘, 1), (‘bash‘, 1), (‘DarkBASIC‘, 1), (‘SGML‘, 1), (‘XAML‘, 2), (‘VB‘, 8), (‘Curl‘, 1), (‘Schema‘, 2), (‘MATLAB‘, 1), (‘MathML‘, 2), (‘Lua‘, 1), (‘Net‘, 1), (‘ObjectiveC‘, 1), (‘JavaScript‘, 1), (‘Java‘, 1), (‘Io‘, 1), (‘Free‘, 2), (‘Delphi‘, 1), (‘sed‘, 1), (‘XML‘, 2), (‘Forth‘, 1), (‘C#‘, 1), (‘SQLPLSQL‘, 1), (‘QBASIC‘, 1), (‘DMDScript‘, 1), (‘Swift‘, 1), (‘Scala‘, 1), (‘PLI‘, 1)])

最后直接代入进去就行了:

1 tags = make_tags(counts, maxsize=120)
2
3 create_tag_image(tags, ‘cloud_large.png‘, size=(900, 600), fontname=‘Lobster‘)

具体的修正需要自己慢慢去琢磨了,比如文字大小、图片大小、背景颜色等等。

到这里标签云是算完成了的,但是却是不支持中文,原因是没有合适的ttf字体文件,准备一个 ttf 中文字体,如 simhei.ttf或者MicrosoftYaHei.ttf ,将其移动到

# C:\Python34\Lib\site-packages\pytagcloud\fonts


接着就是更改fonts.json文件,按照样式添加类似于css的东西:

{
        "name": "MicrosoftYaHei",
        "ttf": "MicrosoftYaHei.ttf",
        "web": "none"
    }

注意前后的逗号就行。最后将这里的代码改一下:

create_tag_image(tags, ‘cloud_large.png‘, size=(900, 600), fontname=‘MicrosoftYaHei‘)

运行,搞定!中文效果图:

我的在github里面,可以去下载看看。

时间: 2024-10-17 16:47:39

python3生成标签云的相关文章

9个优秀网上免费标签云生成工具

9个优秀网上免费标签云生成工具 Wordle Wordle是产生“词云:.不同的字体,布局和配色方案,你可以调整你的云..您可以打印出来,或将它们保存到Wordle画廊与朋友分享. tagCloud发生器 只需几步下载表格,这可以产生HTML和Flash在线标签云. ImageChef 您可以创建不同的风格和异形词云,并作为明信片发送给您的朋友等. ABCya A字云是一个字频的图形表示.您可以键入或粘贴到自己的主页上显示框的文字和按箭头按钮来查看生成的字云方向.使用云以上的图形按钮,可以改变一

Python word_cloud 样例 标签云系列(三)

转载地址:https://zhuanlan.zhihu.com/p/20436642word_cloud/examples at master · amueller/word_cloud · GitHub 上面是官方样例.这一篇里的大部分尝试都基于这些样例进行修改.前提是你已经完成了安装,依照上一篇修改了 FONT_PATH . 还记得 http://zhuanlan.zhihu.com/666666/20432734 里提到的中文分词方法吧,这次我们就不再赘述对文本的预处理了.有所不同的是,在

在hexo静态博客中利用d3-cloud来展现标签云

效果: http://lucyhao.com/tags/ hexo自带的tag cloud的标签展现不太美观,想能够展现出“云”效果的标签.在网上找到了d3-cloud这个项目,github地址:https://github.com/jasondavies/d3-cloud demo地址:https://www.jasondavies.com/wordcloud/ hexo生成的是静态博客,所以最后在网上看到的都是静态的内容,也就是说,我们的看到的标签云也是静态的已经生成好的内容,并不会随着刷新

[翻译] DKTagCloudView - 标签云View

DKTagCloudView 效果(支持点击view触发事件): Overview DKTagCloudView is a tag clouds view on iOS. It can generate a random and not intersects coordinates. DKTagCloudView是一个标签云效果的view,你可以用它来生成随机的效果,在坐标中任意散布. How To Get Started - 如何开始 Installation with CocoaPods -

解析3D标签云,其实很简单

声明:本文为原创文章,如需转载,请注明来源WAxes,谢谢! 最近开始用canvas搞3D了,搞得也是简单的东西,就是球体转圈.做出来后,突然想起以前看过的3D标签云,在以前觉得真心狂拽酷炫叼啊,当时也确实不知道怎么在平面上模拟3D,所以也就没去搞了.现在刚好用了canvas搞3D,也发现,好像3D标签云也差不多,然后就写了一下. 具体怎么做呢,先说一下原理,3D标签云就是做一个球面,然后再球面上取均匀分布的点,把点坐标赋给标签,再根据抽象出来的Z轴大小来改变标签的字体大小,透明度,做出立体感觉

标签云,js实现

标签云,纯js代码实现! 一.效果图 二.代码 <html> <head> <style type="text/css"> #div_tag {position:relative; height:540px; border: 1px solid #0097d3;} #div_tag a { position:absolute; top:0px; left:0px; font-family: Microsoft YaHei; color:#444; f

怎样在自己的Blog中展现3D标签云效果

在用Wordpress创建自己的Blog后,怎样在自己的Blog中安装绚丽的标签3D云呢?本文将带怎样用插件来实现这个3D标签云的效果. 我用的插件为:3D TagCloud 步骤一:打开Wordpress的编辑页面,选择插件,如下图所示:(http://localhost/wpc/wp-admin/) 步骤二:安装完成之后,启动这个插件. 步骤三:设置配置参数(3D Tag Cloud),详细参数如下图所示: 步骤四:进入Blog文章页面,看实际效果如下图所示:(http://localhos

python生成词云

期末复习比较忙过段时间来专门写scrapy框架使用,今天介绍如何用python生成词云,虽然网上有很多词云生成工具,不过自己用python来写是不是更有成就感. 今天要生成的是励志歌曲的词云,百度文库里面找了20来首,如<倔强>,海阔天空是,什么的大家熟悉的. 所要用到的python库有 jieba(一个中文分词库).wordcould .matplotlib.PIL.numpy. 首先我们要做的是读取歌词.我将歌词存在了文件目录下励志歌曲文本中. 现在来读取他 #encoding=gbk l

[HTML5]3D标签云

index.html <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8"/> <title>3D标签云</title> <link rel="stylesheet" type="text/css" href="http://webapplee-