60行python代码分析2018互联网大事件

2018年是改革开放四十周年,也是互联网发展的重要一年。经历了区块链,人工智能潮的互联网行业逐渐迎来了冬天。这一年里有无数的事件发生着,正好学了python数据处理相关,那么就用python对18年的互联网事件进行一个简单的记录与分析。这里主要用了wordcloud和jieba。

首先来看一个数据表,这份excel表单几乎就是2018全年互联网圈发生的所有事件了。

那么现在想要分析着数万条数据,可以用什么方法呢,我们首先会想到用可视化来呈现,图表展示也许会更清晰,但是这里我们选择用python中简单易用的词云来展示。

废话就不多说了,直接贴代码。

 1 #copyright by pricechen
 2 #几个常用库
 3 import xlrd
 4 import jieba
 5 from wordcloud import WordCloud,ImageColorGenerator
 6 import codecs
 7 import imageio
 8
 9 #先把文件地址写好,对文件保存地址有需求的同学可以自行设置一下输入input
10 Savepath = ‘E:\\pricechen\\data\\‘
11 filename = ‘2018大事件记录.xlsx‘
12 month = [‘01‘, ‘02‘, ‘03‘, ‘04‘, ‘05‘, ‘06‘, ‘07‘, ‘08‘, ‘09‘, ‘10‘, ‘11‘, ‘12‘]
13
14 #对内容进行封装
15 def fileHandle(Savepath,filename,month):
16     #打开excel文件
17     book = xlrd.open_workbook(Savepath+filename)
18     sheet = book.sheet_by_name(‘Sheet‘)
19
20     #处理新闻数据
21     for i in range(0,sheet.nrows):
22         #每一行内容
23         textLine = sheet.row_values(i)
24         # print(textLine)
25         #遍历月份
26         for data in month:
27             if textLine[0][5:7]==data:
28                 #这里进行异常处理
29                 try:
30                     #写入以月份命名的文件夹
31                     with open(Savepath+ data + ‘.txt‘, ‘a+‘) as f:
32                         f.write(textLine[1]+‘ ‘)
33                 except FileNotFoundError:#文件不存在异常
34                     continue
35                 except UnicodeEncodeError:#编码异常
36                     continue
37
38 def WCHandle(Savepath,month):
39     #处理词云图片
40     for i in range(0,12):
41         imagePath = Savepath + ‘background\\‘ + month[i] + ‘.jpg‘
42         textPath = Savepath + month[i] +‘.txt‘
43         with codecs.open(textPath) as f:
44             text = f.read()
45             # cut_text = ‘ ‘.join(jieba.cut(text))#使用jieba分词得到词语字符串         #这里原本使用的是jieba分词,但是后面觉得分词之后展现的数据反而没有那么直观
46             cut_text = ‘ ‘.join(text.split(‘,‘)) #改用了将每一句话展现到词云里面
47             try:    #背景图片选择,这里最后因为序号错误需要加一个异常处理,选择第00张图片
48                 background = imageio.imread(imagePath)
49             except FileNotFoundError:
50                 background = imageio.imread(‘E:\\pricechen\\data\\background\\00.jpg‘)
51             #设置词云参数
52             cloud = WordCloud(font_path = 53                     Savepath+‘WenYue-FangTangTi-NC-2.otf‘,
54                     background_color = ‘white‘,mask = background,55                     max_words=2000,max_font_size = 40,56                     scale=10,   #清晰度,这里考虑电脑配置,只选择15
57                     )
58             word_cloud = cloud.generate(cut_text)
59             #保存,使用原图保存方式
60             word_cloud.to_file(Savepath+‘2018\\Chinese‘+month[i]+‘.jpg‘)
61   #这边就是自动化处理了
62 if __name__==‘__main__‘:
63     fileHandle(Savepath,filename,month)
64     WCHandle(Savepath,month)

以上就是所有代码了,一共六十行左右代码,就能处理近六万条数据。

十二个月的数据,每个月都处理为一张词云图,每张词云图都用了一个省的地图作为模板。

来看看处理后的结果,我就直接上图了,因为图片比较大(保存的清晰度较高),这里就只放两张图。

需要2018年互联网大事件数据的可以私信我,代码有错误的话欢迎指正哦。

原文地址:https://www.cnblogs.com/chenprice/p/10206733.html

时间: 2024-07-31 01:56:47

60行python代码分析2018互联网大事件的相关文章

Python代码分析工具:PyChecker、Pylint

1 概述 PyChecker是Python代码的静态分析工具,它能够帮助查找Python代码的bug,而且能够对代码的复杂度和格式等提出警告. PyChecker可以工作在多种方式之下.首先,PyChecker会导入所检查文件中包含的模块,检查导入是否正确,同时检查文件中的函数.类和方法等. PyChecker可以检查出来的问题有如下几种: 全局量没有找到,比如没有导入模块 传递给函数.方法.构造器的参数数目错误 传递给内建函数和方法的参数数目错误 字符串格式化信息不匹配 使用不存在的类方法和属

10 行 Python 代码实现模糊查询/智能提示

10 行 Python 代码实现模糊查询/智能提示 1.导语: 模糊匹配可以算是现代编辑器(如 Eclipse 等各种 IDE)的一个必备特性了,它所做的就是根据用户输入的部分内容,猜测用户想要的文件名,并提供一个推荐列表供用户选择. 样例如下: Vim (Ctrl-P) Sublime Text (Cmd-P) '模糊匹配'这是一个极为有用的特性,同时也非常易于实现. 2.问题分析: 我们有一堆字符串(文件名)集合,我们根据用户的输入不断进行过滤,用户的输入可能是字符串的一部分.我们就以下面的

60行JavaScript代码俄罗斯方块

教你看懂网上流传的60行JavaScript代码俄罗斯方块游戏 早就听说网上有人仅仅用60行JavaScript代码写出了一个俄罗斯方块游戏,最近看了看,今天在这篇文章里面我把我做的分析整理一下(主要是以注释的形式). 我用C写一个功能基本齐全的俄罗斯方块的话,大约需要1000行代码的样子.所以60行乍一看还是很让人吃惊的. 但是读懂了代码之后发现其实整个程序并没有使用什么神秘的技术,只不过是利用一些工具或者JavaScript本身的技巧大大简化了代码. 总结起来主要是以下三点 1.使用eval

教你看懂网上流传的60行JavaScript代码俄罗斯方块游戏

早就听说网上有人仅仅用60行JavaScript代码写出了一个俄罗斯方块游戏,最近看了看,今天在这篇文章里面我把我做的分析整理一下(主要是以注释的形式). 我用C写一个功能基本齐全的俄罗斯方块的话,大约需要1000行代码的样子.所以60行乍一看还是很让人吃惊的. 但是读懂了代码之后发现其实整个程序并没有使用什么神秘的技术,只不过是利用一些工具或者JavaScript本身的技巧大大简化了代码. 总结起来主要是以下三点 1.使用eval来产生JavaScript代码,减小了代码体积 2.以字符串作为

一起来写2048(160行python代码)

前言: Life is short ,you need python. --Bruce Eckel 我与2048的缘,不是缘于一个玩家,而是一次,一次,重新的ACM比赛.四月份校赛初赛,第一次碰到2048,两周后决赛再次遇到2048,后来五月份的广东省赛,又出现了2048.在这三次比赛过程中,我一次2048都没玩过..全靠队友的解释,直到昨天,我突然想起写个2048吧,于是下了个2048玩了几盘,之后就開始用python来写了,心想就不写界面了,为了简洁. 我对python并不熟悉,可是我在之前

20行Python代码爬取王者荣耀全英雄皮肤

引言 王者荣耀大家都玩过吧,没玩过的也应该听说过,作为时下最火的手机MOBA游戏,咳咳,好像跑题了.我们今天的重点是爬取王者荣耀所有英雄的所有皮肤,而且仅仅使用20行Python代码即可完成. 准备工作 爬取皮肤本身并不难,难点在于分析,我们首先得得到皮肤图片的url地址,话不多说,我们马上来到王者荣耀的官网: 我们点击英雄资料,然后随意地选择一位英雄,接着F12打开调试台,找到英雄原皮肤的图片地址: 接着,我们切换一下英雄的皮肤,会发现图片地址没有明显的变化,只是最后的数字序号改变了,我们将两

200行Python代码实现2048

200行Python代码实现2048 一.实验说明 1. 环境登录 无需密码自动登录,系统用户名shiyanlou 2. 环境介绍 本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到桌面上的程序: LX终端(LXTerminal): Linux命令行终端,打开后会进入Bash环境,可以使用Linux命令 GVim:非常好用的编辑器,最简单的用法可以参考课程Vim编辑器 3. 环境使用 使用GVim编辑器输入实验所需的代码及文件,使用LX终端(LXTerminal)运行所需命令进行操

基于Tkinter用50行Python代码实现简易计算器

Tkinter一般是python自带的,所以代码不需要其他组件,本程序是在python2.7版本实现的. 主要涉及了tkinter的使用,函数定义和调用,匿名函数的使用,类成员函数定义等python基础知识,适合新手学习. 代码如下: from Tkinter import * #创建横条型框架 def frame(root, side): w = Frame(root) w.pack(side = side, expand = YES, fill = BOTH) return w #创建按钮

10行python代码实现约瑟夫问题

什么是约瑟夫问题? 约瑟夫问题是一个有趣的数学游戏,游戏规则如下: 1.N个人围成一个圈,编号从1开始,依次到N. 2.编号为M的游戏参与者开始报数,报数从1开始,后面的人报数接龙,直到K为止,报数为K的人将出局. 3.出局者的下一个玩家接着从1开始报数,如此循环,直到剩下一个玩家时游戏结束,这个玩家就是游戏获胜者. 那么问题来了,哪个编号是游戏获胜者呢? 下面通过简单的几行python代码来解决这个问题: #!/usr/bin/env python # Joseph Problem def j