用Python爬取了考研吧1000条帖子,原来他们都在讨论这些!

写在前面

考研在即,想多了解考研er的想法,就是去找学长学姐或者去网上搜索,贴吧就是一个好地方。而借助强大的工具可以快速从网络鱼龙混杂的信息中得到有价值的信息。虽然网上有很多爬取百度贴吧的教程和例子,但是贴吧规则更新快,目的不一样,爬取的内容也不一样,所以就有了这个工具。

目的

爬取1000条帖子→判断是否是广告或者垃圾信息→分析语言情感→生成词云

一、分析

1.1 先查看贴吧的规则,果然有规律,每一页是50条帖子

1.2 帖子内容,也有规律,都在这个标签里面

1.3 判断内容就用百度AI的内容审核,情感分析也用百度AI了,省事
1.4 词云可以先用jieba分词然后再用wordcloud生成,但是后来发现网上有现成的工具

二、爬取过程

2.1 首先解决的一个小问题就是让它自己计算一下每页是50条帖子,我输入1000条它应该去爬取那几个页面,就用这种数学计算就行
2.2爬取过程代码,爬取后就调用内容审核以及情感分析,然后写入文件

def gettbtz(tbname,tznum):  ####根据给出的贴吧和帖子数(50的整数倍)获得所有帖子
    n = -50
    tznum = int(tznum)  ###z这里是要根据贴吧的规则,每页显示50条帖子
    emotions = 0
    while (tznum > n):
        n = n + 50
        print("正在爬取前" + str(n) + "条帖子")
        url = "http://tieba.baidu.com/f?kw=" + tbname + "&ie=utf-8&pn=" + str(n)
        soup = BeautifulSoup(requests.get(url).text,'lxml')  ###爬取动作
        a = soup.find_all('div',class_='threadlist_abs threadlist_abs_onlyline')
        for a in a:  ###接下来以此判断文本是否合规,然后判断情感正向倾向指数,然后写入文件
            if BDAITEXT(a.text) == "合规":
                print("爬取到合规帖子,正在写入文件:" + a.text)
                with open("resaults.txt","a+",encoding='utf-8') as f:
                    f.write(str(a.text))  ###写入这里特意转换一下数据类型,避免后面发生文本编码错误
                try:
                    emotions = emotions + BDAIemotion(a.text)
                    print("当前累计情感指数:" + str(emotions))
                except:
                    print("情感分析出错,跳过")

            else:
                print("帖子不合规,跳过")
        time.sleep(10)  ###君子协议,10秒暂停
        f.close()

三、百度人工智能API调用

3.1 百度AK获取,就是要先到百度AI开发平台注册一个开发者账号,然后创建应用,获取应用id和密钥,然后得到这样一个调用的密钥

# client_id 为官网获取的AK, client_secret 为官网获取的SK
host = 'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=【应用ID】&client_secret=【SK】'
 response = requests.get(host)
 if response:
 print(response.json())

3.2 内容审核API调用

def BDAITEXT(text):  ####百度AI文本审核,返回合规或者不合规
    content = {"text": text}
    r = requests.post(BDAItexturl,content).text
    if r:
        rback = json.loads(r)
        return rback["conclusion"]

3.3 情感分析API调用

def BDAIemotion(text):  ####百度AI情感分析,返回一个数值
    content = {"text": text}
    content = json.dumps(content)
    r = requests.post(BDAIemotionurl,content).text
    if r:
        rback = json.loads(r)
        return rback['items'][0]['positive_prob']

四、词云生成

有很多在线工具,导入大段文本,然后根据需要进行文本的过滤、分词,然后设置颜色、样式就可以生成词云。

五、信息分析

看词云,结果不言而喻,提早地准备、丰富的经验、专业课、数学、政治、院校选择…………
从情感上来看,大多数情感指数偏向积极,说明对待考研还是需要一个积极的态度。

运行截图

待改进

1.应该多线程,速度太慢了
2.爬取了帖子,没有爬取评论
3.情感分析有很多出错

“闲言碎语留给市井小民,你只管优雅从容心怀远方”

原文地址:https://www.cnblogs.com/xavierx/p/12194681.html

时间: 2024-07-29 11:11:42

用Python爬取了考研吧1000条帖子,原来他们都在讨论这些!的相关文章

使用python爬取csdn博客访问量

最近学习了python和爬虫,想写一个程序练练手,所以我就想到了大家都比较关心的自己的博客访问量,使用python来获取自己博客的访问量,这也是后边我将要进行的项目的一部分,后边我会对博客的访问量进行分析,以折线图和饼图等可视化的方式展示自己博客被访问的情况,使自己能更加清楚自己的哪些博客更受关注,博客专家请勿喷,因为我不是专家,我听他们说专家本身就有这个功能. 一.网址分析 进入自己的博客页面,网址为:http://blog.csdn.net/xingjiarong 网址还是非常清晰的就是cs

python爬取某个网站的图片并保存到本地

python爬取某个网站的图片并保存到本地 #coding:utf-8 import urllib import re import sys reload(sys) sys.setdefaultencoding('gb2312') #获取整个页面的数据 def getHtml (url): page = urllib.urlopen(url) html = page.read() return html #保存图片到本地 def getImg(html): reg = r'src="(.+?\.

python爬取某个网页的图片-如百度贴吧

python爬取某个网页的图片-如百度贴吧 作者:vpoet 日期:大约在冬季 注:随意copy,不用告诉我 #coding:utf-8 import urllib import urllib2 import re if __name__ =="__main__": rex=r'src="(http://imgsrc.baidu.com/forum/w%3D580.*?\.jpg)"'; Response=urllib2.urlopen("http://t

使用python爬取MedSci上的影响因子排名靠前的文献

使用python爬取medsci上的期刊信息,通过设定条件,然后获取相应的期刊的的影响因子排名,期刊名称,英文全称和影响因子.主要过程如下: 首先,通过分析网站http://www.medsci.cn/sci的交互过程.可以使用谷歌或火狐浏览器的“审查元素-->Network”,然后就可以看到操作页面就可以看到网站的交互信息.当在网页上点击“我要查询”时,网页会发送一个POST消息给服务器,然后,服务器返回查询结果 然后,将查询到的结果使用正则表达式提取出需要的数据. 最后将提取出的数据输出到文

Python爬取网页的三种方法

# Python爬取网页的三种方法之一:  使用urllib或者urllib2模块的getparam方法 import urllib fopen1 = urllib.urlopen('http://www.baidu.com').info() fopen2 = urllib2.urlopen('http://www.sina.com').info() print fopen1.getparam('charset') print fopen2.getparam('charset') #----有些

Python爬取京东商品数据

对京东某一商品信息页面的HTML代码进行分析,可以发现它的图书产品信息页面都含有这样一段代码(不同类的商品页面有些不同): window.pageConfig={compatible:true,searchType: 1,product:{"skuid":"11408255","name":"\u4f17\u795e\u7684\u536b\u661f\uff1a\u4e2d\u56fd\u7981\u533a","

Python 爬取广州商学院新闻----测试版

Python 爬取广州商学院新闻----测试版 程序简述:抓取广州商学院新闻栏目的全部新闻内容 开发环境:PyCharm Community Edition 爬取连接:http://news.gzcc.cn/ 作者:siberia 详细内容:http://easyboy1.blog.163.com/blog/static/2641120382017103105416810/ 详细内容:http://easyboy1.blog.163.com/blog/static/264112038201710

利用Python爬取豆瓣电影

目标:使用Python爬取豆瓣电影并保存MongoDB数据库中 我们先来看一下通过浏览器的方式来筛选某些特定的电影: 我们把URL来复制出来分析分析: https://movie.douban.com/tag/#/?sort=T&range=0,10&tags=%E7%94%B5%E5%BD%B1,%E7%88%B1%E6%83%85,%E7%BE%8E%E5%9B%BD,%E9%BB%91%E5%B8%AE 有3个字段是非常重要的: 1.sort=T 2.range=0,10 3.tag

python爬取百度翻译返回:{'error': 997, 'from': 'zh', 'to': 'en', 'query 问题

解决办法: 修改url为手机版的地址:http://fanyi.baidu.com/basetrans User-Agent也用手机版的 测试代码: # -*- coding: utf-8 -*- """ ------------------------------------------------- File Name: requestsGet Description : 爬取在线翻译数据s Author : 神秘藏宝室 date: 2018-04-17 --------