爬虫大作业－爬区a9vg电玩部落ps4专区

1.选一个自己感兴趣的主题或网站。(所有同学不能雷同)

2.用python 编写爬虫程序，从网络上爬取相关主题的数据。

def writeNewsDetail(content):
    f = open(‘a9vg.txt‘,‘a‘,encoding=‘utf-8‘)
    f.write(content)
    f.close()

def getNewsDetail(url):
    res2 = requests.get(url)
    res2.encoding = ‘utf-8‘
    soup2 = BeautifulSoup(res2.text, ‘html.parser‘)
    news = {}
    news[‘content‘] = soup2.select(‘.art-ctn‘)[0].text # 爬取ps4专区新闻的正文
    writeNewsDetail(news[‘content‘])
    news[‘newsurl‘]=url
    return(news)

def getListPage(pageUrl):
    res = requests.get(pageUrl)
    res.encoding = ‘utf-8‘
    soup = BeautifulSoup(res.text,‘html.parser‘)
    newsList=[]
    for news in soup.select(‘.tab-ctn dl‘):
        if len(news.select(‘h3‘)) > 0:
            a = news.select(‘a‘)[0].attrs[‘href‘]
            print(a)
            newsList.append(getNewsDetail(a))
    return(newsList)

3.对爬了的数据进行文本分析，生成词云。

def cutword():
    text=‘‘
    f = open(‘a9vg.txt‘, ‘r‘, encoding=‘utf8‘)
    lines = f.readlines()
    for line in lines:
        text += line
    for key in analyse.extract_tags(text, 50, withWeight=False):
        # 使用jieba.analyse.extract_tags()参数提取关键字,默认参数为50
        print(key)
    jieba.add_word(‘奥丁‘)
    words_ls = jieba.cut(text)
    words_split = " ".join(words_ls)
    print(words_ls)
    return words_split

def wordspic():
    wordsp=cutword()
    Stopwords = [‘programs‘,‘view‘,‘tudou‘,‘www‘,‘http‘,‘com‘,‘https‘,‘qq‘,‘page‘,‘杀死‘,‘渡鸦‘]
    wc = WordCloud()    # 字体这里有个坑，一定要设这个参数。否则会显示一堆小方框
    wc.stopwords=Stopwords
    wc.max_words=200
    wc.background_color=‘white‘
    wc.font_path="simhei.ttf"   # 黑体
    my_wordcloud = wc.generate(wordsp)
    plt.imshow(my_wordcloud)
    plt.axis("off")
    plt.show()
    wc.to_file(‘ttt.png‘) # 保存图片文件

4.对文本分析结果进行解释说明。

通过使用第三方的jieba库进行中文分词，其中有过多新闻正文内容包含视频链接，所以通过设计了停用词，去掉一些词

关键词如下

5.写一篇完整的博客，描述上述实现过程、遇到的问题及解决办法、数据分析思想及结论。

在进行下载安装第三方的库的时候，wordcloud下载失败，查了各种问题最后通过https://www.lfd.uci.edu/~gohlke/pythonlibs/这个网站下载对应py版本对应系统位数的库进行安装。

6.最后提交爬取的全部数据、爬虫及数据分析源代码。

爬取的链接，内容如下（使用了pandas这个库进行输出到控制台）

词云如下：

原文地址：https://www.cnblogs.com/yxbdbolgs/p/8910322.html

时间： 2024-11-06 03:43:51

爬虫大作业－爬区a9vg电玩部落ps4专区的相关文章

爬虫大作业~以爬取hao123漫画为例

一.准备过程首先打开hao123漫画筛选区,网址是https://www.hao123.com/manhua/list/?finish=&audience=&area=&cate=&order=1 在这里可以通过审查模式看到第一页的详细信息,而目的则是通过爬取漫画筛选页面的每部漫画的人气与题材来分析最近漫画迷的观漫需求环境如下: python3.6.2 PyCharm Windows8.1 第三方库(jieba,wordcloud,bs4,Requests,re,wor

爬虫大作业

import requests import re from bs4 import BeautifulSoup import jieba.analyse from PIL import Image, ImageSequence import numpy as np import matplotlib.pyplot as plt from wordcloud import WordCloud, ImageColorGenerator # 获取总页数 def getnum(url): res = r

爬虫大作业（虎扑足球新闻）

import requests from bs4 import BeautifulSoup import jieba from PIL import Image,ImageSequence import numpy as np import matplotlib.pyplot as plt from wordcloud import WordCloud,ImageColorGenerator def changeTitleToDict(): f = open('yingchao.txt', 'r

Hadoop大作业

---恢复内容开始--- 1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计. 先启动Hadoop. jps查看各个服务已启动,进入hive 把本地文件上传到hdfs文件系统(这里本来是打算把预先准备的英文小说上传上去,但是不知道为什么一直提示找不到文件,然后发现帮助文档和注意文档的内容量也不小,所以直接拿来做词频统计也是不错的.) 建个表docs 把hdfs文件系统中input文件夹里的文本文件load进去,写hiveQL命令统计统计成功提示使用se

Hadoop综合大作业

1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计. 启动Hadoop start-all.sh 把本地文件上传到hdfs文件系统,然后查看(之前已经把下载的英文小说上传到hdfs了) hdfs dfs -ls input 启动hive hive 建立表docs create table docs(line string); 把hdfs文件系统中input文件夹里的文本文件load进去,写hiveQL命令统计 load data inpath 'input

[现代信息检索]搜索引擎大作业

[现代信息检索]搜索引擎大作业一.题目要求: 新闻搜索:定向采集3-4个体育新闻网站,实现这些网站信息的抽取.索引和检索.网页数目不少于10万条.能按相关度.时间.热度(需要自己定义)等属性进行排序,能实现相似新闻的自动聚类. 二.题目分析题目分析:我们将任务分解为四个部分:新闻数据的爬取.倒排索引的构建.向量空间模型的实现和前端界面. 主要分为四个模块:网络爬虫.构建索引.文档评分.排序显示.其中模块与模块之间又包含一些子模块,包括:网页信息抽取.数据存储.文本分析.tf-idf 权重

为什么电玩非得要和性捆绑？

宅男.腐女群体的庞大,让越来越多的二次元相关事物都开始与"性"联系在一起.其中,作为二次元重要组成部分的电玩行业,更是与"性"紧紧捆绑在了一起.无论是电玩游戏中萌到极点的高中萝莉.火爆身材的御姐,还是扛枪横扫的女汉子,抑或各种cosplay.手办周边等,都必须得以性感位前提.就算是针对腐女,也得有帅到掉渣的男主. 就像当下的国产电视剧,没点感情线在里面搀和,根本就没人看一样,"无性"的电玩,似乎也活不下去.说了这么多,那么电玩为什么和性那么黏糊,

怎样才能成为一个电玩程序员（转）

电玩游戏广受青少年们欢迎,其中不少年轻人专注于此,甚至想到要自己编写一个游戏.另外一方面电玩游戏工程师被大多数人认为是大有"钱"途的.如果你做的游戏走红了,成为百万富翁也是分分钟的事情.要是你果真对电玩有着持续的热情,且立志成为电玩工程师,我这里有心得可以分享.如果你够努力,够诚心,就一定没问题!关键是要对自己有信心. 1.资讯灵通: 经常和相关同行啊前辈们交流,走访校园,多阅读些关于电玩编程的杂志书籍,电子书什么的.这样就能更加了解你将要进入的领域究竟是什么样儿的.同时还能了解到要成

[留念贴] C#开发技术期末大作业——星月之痕

明天就要去上海大学参加 2015赛季 ACM/ICPC 最后一场比赛 —— EC-Final,在这之前,顺利地把期末大作业赶出来了. 在这种期末大作业10个人里面有9个是从网上下载的国内计算机水平五六流大学里学习编程,我感到压力很大. 但我依然选择作死——纯手工打造.庆幸的是,历时四天,翘课无数,现在基本完工了. 下载地址:http://pan.baidu.com/s/1pKx6OnL(还有一些小问题,但是逻辑上的BUG不存在了) 下载之后先解压,然后打开DestroyStars\Destroy