python生成职业要求词云

接着上篇的说的,爬取了大数据相关的职位信息,http://www.17bigdata.com/jobs/。

# -*- coding: utf-8 -*-
"""
Created on Thu Aug 10 07:57:56 2017

@author: lenovo
"""

from wordcloud import WordCloud
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import jieba

def cloud(root,name,stopwords):
    filepath = root +‘\\‘ + name
    f = open(filepath,‘r‘,encoding=‘utf-8‘)
    txt = f.read()
    f.close()
    cut = jieba.cut(txt)
    words = []
    for i in cut:
        words.append(i)
    df = pd.DataFrame({‘words‘:words})
    s= df.groupby(df[‘words‘])[‘words‘].agg([(‘size‘,np.size)]).sort_values(by=‘size‘,ascending=False)
    s = s[~s.index.isin(stopwords[‘stopword‘])].to_dict()
    wordcloud = WordCloud(font_path =r‘E:\Python\machine learning\simhei.ttf‘,background_color=‘black‘)
    wordcloud.fit_words(s[‘size‘])
    plt.imshow(wordcloud)
    pngfile = root +‘\\‘ + name.split(‘.‘)[0] + ‘.png‘
    wordcloud.to_file(pngfile)

import os
jieba.load_userdict(r‘E:\Python\machine learning\NLPstopwords.txt‘)
stopwords = pd.read_csv(r‘E:\Python\machine learning\StopwordsCN.txt‘,encoding=‘utf-8‘,index_col=False)
for root,dirs,file in os.walk(r‘E:\职位信息‘):
    for name in file:
        if name.split(‘.‘)[-1]==‘txt‘:
            print(name)
            cloud(root,name,stopwords)        

词云如图所示:

可以看出有些噪声词没能被去除,比如相关、以上学历等无效词汇。本想通过DF判断停用词,但是我爬的时候没顾及到这个问题,外加本身记录数也不高,就没再找职位信息的停用词。当然也可看出算法和经验是很重要的。加油

时间: 2024-08-29 20:06:26

python生成职业要求词云的相关文章

Python给小说做词云

闲暇时间喜欢看小说,就想着给小说做词云,展示小说的主要内容.开发语言是Python,主要用到的库有wordcloud.jieba.scipy.代码很简单,首先用jieba.cut()函数做分词,生成以空格分割的字符串,然后新建WordCloud类,保存为图片. 1 #coding:utf-8 2 import sys 3 import jieba 4 import matplotlib.pyplot as plt 5 from wordcloud import WordCloud,ImageCo

用Python和WordCloud绘制词云(内附让字体清晰的秘笈)

环境及模块: Win7 64位 Python 3.6.4 WordCloud 1.5.0 Pillow 5.0.0 Jieba 0.39 目标: 绘制安徽省2018年某些科技项目的词云,直观展示热点. 思路: 先提取项目的名称,再用Jieba分词后提取词汇:过滤掉"研发"."系列"等无意义的词:最后用WordCloud 绘制词云. 扩展: 词云默认是矩形的,本代码采用图片作为蒙版,产生异形词云图.这里用的图片是安徽省地图. 秘笈: 用网上的常规方法绘制的词云,字体有

Python -WordCloud安装、词云制作

一.WordCloud 安装 说明:Windows系统直接pip install wordcloud 是不行的,命令行会报错. 第一步:检查自己的Python 版本.Win+R ——>CMD——>命令行输入python,我的是python 3.7 win32位的 第二步:下载对应版本的WordCloud,进入 python 扩展包库 (非正式第三方whl文件包)下载 第三步:安装.命令行先定位到下载的wordcloud安装文件路径,再输入 pip install wordcloud-1.6.0

使用爬虫抓取网易云音乐热门评论生成好玩的词云

互联网爬虫是一个很有意思的技术,借由爬虫,我们可以做到很多好玩的事情--这其中就包括爬取评论. 词云就是个更好玩的技术,通过技术方法分析词语出现频率,生成可视化的图形,将文字内容用图形呈现,想想就很意思. 这次,我们就试着把这两个技术结合起来吧. 前言 网易云音乐一直是我向往的"神坛",听音乐看到走心的评论的那一刻,高山流水.于是今天来抓取一下歌曲的热门评论.并做成词云来展示,看看相对于这首歌最让人有感受的评论内容是什么. 做成词云的好处就是直观以及美观, 其他的我也想不出来有什么了.

【python数据挖掘】使用词云分析来分析豆瓣影评数据

概述: 制作词云的步骤: 1.从文件中读取数据 2.根据数据追加在一个字符串里面,然后用jieba分词器将评论分开 3.设置WordCloud词云参数 4.保存最后的结果 数据:使用爬取的豆瓣影评数据 第一步:引入依赖库 # 1.表格库 import csv # 2.jieba分词器 import jieba # 3.算法运算库 import numpy # 4.图像库 from PIL import Image # 5.词云库 from wordcloud import WordCloud 第

使用Python统计文件中词频,并且生成词云

.title { text-align: center } .todo { font-family: monospace; color: red } .done { color: green } .tag { background-color: #eee; font-family: monospace; padding: 2px; font-size: 80%; font-weight: normal } .timestamp { color: #bebebe } .timestamp-kwd

生成中英文词云

利用简单的python第三方库wordcloud,方便快捷的生成一个中文词云,利于快速浏览文章内容.其中jieba库为一个常用的中文分词库 import wordcloud import jieba from imageio import imread mask = imread("五角星.png") f = open("2019政府工作报告.txt","r",encoding="utf-8") t = f.read() f.

Python word_cloud 样例 标签云系列(三)

转载地址:https://zhuanlan.zhihu.com/p/20436642word_cloud/examples at master · amueller/word_cloud · GitHub 上面是官方样例.这一篇里的大部分尝试都基于这些样例进行修改.前提是你已经完成了安装,依照上一篇修改了 FONT_PATH . 还记得 http://zhuanlan.zhihu.com/666666/20432734 里提到的中文分词方法吧,这次我们就不再赘述对文本的预处理了.有所不同的是,在

用Python绘制红楼梦词云图,竟然发现了这个!

Python在数据分析中越来越受欢迎,已经达到了统计学家对R的喜爱程度,Python的拥护者们当然不会落后于R,开发了一个个好玩的数据分析工具,下面我们来看看如何使用Python,来读红楼梦,绘制小说中的词云. 首先当然要导入我们需要用到的包,下面import进来的包,都是我们将在接下来的程序中使用到的包,如果大家还没有安装它们,那么尽快安装它们吧. import jieba import numpy import codecs import pandas import matplotlib.p