爬虫大作业(虎扑足球新闻)

import requests
from bs4 import BeautifulSoup
import jieba
from PIL import Image,ImageSequence
import numpy as np
import matplotlib.pyplot as plt
from wordcloud import WordCloud,ImageColorGenerator
def changeTitleToDict():
    f = open(‘yingchao.txt‘, ‘r‘,encoding=‘utf-8‘)
    str = f.read()
    stringList = list(jieba.cut(str))
    symbol = {"/", "(", ")" , " ", ";", "!", "、" ,  ":"}
    stringSet = set(stringList) - symbol
    title_dict = {}
    for i in stringSet:
        title_dict[i] = stringList.count(i)
    print(title_dict)
    return title_dict
for i in range(1,10):
        page = i;
        hupu = ‘https://voice.hupu.com/soccer/tag/496-%s.html‘ % (page)
        reslist = requests.get(hupu)
        reslist.encoding = ‘utf-8‘
        soup_list = BeautifulSoup(reslist.text, ‘html.parser‘)
        for news in soup_list.find_all(‘span‘,class_=‘n1‘):
            print(news.text)
            f = open(‘yingchao.txt‘, ‘a‘, encoding=‘utf-8‘)
            f.write(news.text)
            f.close()

title_dict = changeTitleToDict()
font = r‘C:\Windows\Fonts\simhei.ttf‘
content = ‘ ‘.join(title_dict.keys())
# 根据图片生成词云
image = np.array(Image.open(‘1.jpg‘))
wordcloud = WordCloud(background_color=‘white‘, font_path=font, mask=image, width=1000, height=860, margin=2).generate(content)
#字体颜色
image2 = np.array(Image.open(‘2.jpg‘))
iamge_colors = ImageColorGenerator(image2)
wordcloud.recolor(color_func=iamge_colors)

# 显示生成的词云
plt.imshow(wordcloud)
plt.axis("off")
plt.show()
wordcloud.to_file(‘3.jpg‘)

背景图

字体颜色图

词云图

原文地址:https://www.cnblogs.com/Lorz/p/8969234.html

时间: 2024-11-06 07:10:09

爬虫大作业(虎扑足球新闻)的相关文章

爬虫大作业~以爬取hao123漫画为例

一.准备过程 首先打开hao123漫画筛选区,网址是https://www.hao123.com/manhua/list/?finish=&audience=&area=&cate=&order=1 在这里可以通过审查模式看到第一页的详细信息,而目的则是通过爬取漫画筛选页面的每部漫画的人气与题材来分析最近漫画迷的观漫需求 环境如下: python3.6.2 PyCharm Windows8.1 第三方库(jieba,wordcloud,bs4,Requests,re,wor

爬虫大作业-爬区a9vg电玩部落ps4专区

1.选一个自己感兴趣的主题或网站.(所有同学不能雷同) 2.用python 编写爬虫程序,从网络上爬取相关主题的数据. def writeNewsDetail(content): f = open('a9vg.txt','a',encoding='utf-8') f.write(content) f.close() def getNewsDetail(url): res2 = requests.get(url) res2.encoding = 'utf-8' soup2 = BeautifulS

爬虫大作业

import requests import re from bs4 import BeautifulSoup import jieba.analyse from PIL import Image, ImageSequence import numpy as np import matplotlib.pyplot as plt from wordcloud import WordCloud, ImageColorGenerator # 获取总页数 def getnum(url): res = r

Hadoop大作业

---恢复内容开始--- 1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计. 先启动Hadoop. jps查看各个服务已启动,进入hive 把本地文件上传到hdfs文件系统(这里本来是打算把预先准备的英文小说上传上去,但是不知道为什么一直提示找不到文件,然后发现帮助文档和注意文档的内容量也不小,所以直接拿来做词频统计也是不错的.) 建个表docs 把hdfs文件系统中input文件夹里的文本文件load进去,写hiveQL命令统计 统计成功提示 使用se

Hadoop综合大作业

1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计. 启动Hadoop start-all.sh 把本地文件上传到hdfs文件系统,然后查看(之前已经把下载的英文小说上传到hdfs了) hdfs dfs -ls input 启动hive hive 建立表docs create table docs(line string); 把hdfs文件系统中input文件夹里的文本文件load进去,写hiveQL命令统计 load data inpath 'input

专业性体育平台——虎扑的发展与创新的思考(第五次课后作业)

我日常会用到的软件其实不少,但是绝大多数都是客户端的桌面应用程序(如Microsoft Office,Visual Studio等等),而且与其说是粘性大,不如说是我有刚需必须去由这些软件来完成.在这样的使用环境下,虽然很容易就能发现,但是提到创新,却总是让我懵逼,因为针对刚需的任务,只要有能够解决自己问题的工具,那么剩下的工作,就是通过完善和创新功能,来使工作效率和使用舒适性进行提高.然而到了这个层面,我却发现我对这样的软件的使用(以word为例)往往停留在一个并不算很高的水平,一个新版本的出

[python爬虫] Selenium定向爬取虎扑篮球海量精美图片

前言: 作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队.CBA明星.花边新闻.球鞋美女等等,如果一张张右键另存为的话真是手都点疼了.作为程序员还是写个程序来进行吧!        所以我通过Python+Selenium+正则表达式+urllib2进行海量图片爬取.        前面讲过太多Python爬虫相关的文章了,如爬取新浪博客.维基百科Infobox.百度百科.游迅网图片,也包括Selenium安装过程等等,详见我的两个专栏: 

爬取虎扑NBA首页主干道推荐贴的一只小爬虫,日常爬不冷笑话解闷

虎扑是广大jrs的家园,步行街是这个家园里最繁华的地段.据称广大jrs平均学历985,步行街街薪30w起步. 大学时经舍友安利,开始了解虎扑,主要是看看NBA的一些资讯. 偶尔也上上这个破街,看看jrs虐虐狗,说说家长里短等等,别的不说,jr们的三观都是特别正的. 不冷笑话基本是我每天必看的帖子,感觉楼主非常敬业,每天都会有高质量的输出,帖子下的热帖也很给力,福利满满. 正学python,突发奇想想把不冷笑话的图都爬下来. 但是虎扑在这块有限制,不登录无法查看用户的帖子,而我目前又懒得弄登陆认证

基于Lucene框架的“虎扑篮球”网站搜索引擎(java版)

1  引言 本次作业完成了基于Lucene的"虎扑篮球"网站搜索引擎,对其主要三个板块---"最新新闻"(主要NBA新闻),"虎扑步行街"(类似贴吧性质),"虎扑湿乎乎"(篮球发帖区)进行页面分析并建立索引完成搜索引擎. 1.1  设计目的 搜索引擎是一个很有用的程序,可以让你更方便,快捷的实现目标信息的查找和检索,本程序就针对虎扑篮球网站的三个子页面的帖子题目建立索引,并可实现显示目标条目的标题.时间.来源.和正文内容.以及