爬取微博用户数据

    • 前言
    • 查找的过程
    • 核心
    • 总结

前言

微博数据基本上可以说是社交圈里面最大的了。但是单纯的使用urllib,是不足以获取数据的。

今天来使用Cookie的方式绕开微博权限验证这一关卡, 爬取一下数据。

查找的过程

打开ChromeF12之后,刷新页面,真的是眼花缭乱的数据流啊,飞流直下。找了好久,发现大部分数据都是通过JavaScript脚本渲染到页面上的。

这也就是为什么单纯的使用urllib抓不到的原因了。因为这是动态页面,而Urllib则是抓取静态页面。明白了这一点,就找到了方向了。

那就是找到数据源接口。后来经过我的仔细审核,发现了类似于这样的一个URL。

http://weibo.com/p/aj/v6/mblog/mbloglist?ajwvr=6&domain=103505&is_search=0&visible=0&is_hot=1&is_tag=0&profile_ftype=1&page=2&pagebar=0&pl_name=Pl_Official_MyProfileFeed__23&id=1035051198367585&script_uri=/kqdpku&feed_type=0&pre_page=2&domain_op=103505&__rnd=1495367966928
  • 1

然后发现服务器端返回的数据内容是JSON格式的。大致内容如下;

然后这姑且算是找到一个人的数据了吧。那么问题接着来了,如果我想看其他人的页面怎么办呢?

思路有如下两个:

  • 一是按照刚才的方法,一个个的去查找。(费时费力,不赞同)
  • 二是走捷径,对比URL,我们会发现一个domain的参数,而对应的值就是目标博主的ID。

    比如我要看刘强东的主页,http://weibo.com/p/1003061866402485/home?from=page_100306&mod=TAB&is_hot=1#place

    里面的from参数的page值后面的数据就是我们需要的domain值了。拿过来就可以直接使用。

核心

经过了刚才的各种铺垫,下面直接上代码。体验一把吧。

# coding: utf8

# @Author: 郭 璞
# @File: login.py
# @Time: 2017/5/21
# @Contact: [email protected]
# @blog: http://blog.csdn.net/marksinoberg
# @Description: 新浪微博登录测试

import requests
import json
from bs4 import BeautifulSoup
headers = {
    ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.110 Safari/537.36‘,
    ‘Host‘: ‘weibo.com‘
}

Cookies = {
    "Cookie": "SCF=Asl3BNSxfmhmaP2cIVfnvOp-mmfHwOPYfdoMZIz6y4WtkH4xK0jdB0Hr0Tll4RzJ0xUHIi5HOLBAjEASrqSGDiQ.; SUB=_2A250JQA2DeThGeNI41UX8ifJyziIHXVXU3b-rDV8PUNbmtBeLWbGkW9yh-AUBKZFFYCHZ2zA0zH1I-l4dg..; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9W5yNOfs44nTEDRpARDUs7Yl5JpX5K2hUgL.Fo-c1hMceo.fehB2dJLoIcBLxK-LBo5L12qLxK-LBo5L12qLxK-LBo5L12qLxK-LBo5L12qLxK-LBo5L12qpi--fi-z7iKysi--fi-z7iKysi--Ni-z0i-8si--Ni-zpi-z0i--fiKLFi-2Ei--fi-82iK.7; SUHB=0HTxO_F0SbtSsP; ALF=1526899685; SSOLoginState=1495363686; YF-V5-G0=8d4d030c65d0ecae1543b50b93b47f0c; _s_tentry=my.sina.com.cn; Apache=9206065364153.127.1495363942807; SINAGLOBAL=9206065364153.127.1495363942807; ULV=1495363942825:1:1:1:9206065364153.127.1495363942807:; YF-Page-G0=fc0a6021b784ae1aaff2d0aa4c9d1f17; YF-Ugrow-G0=ea90f703b7694b74b62d38420b5273df; wvr=6; wb_publish_fist100_5687629504=1; UOR=blog.csdn.net,widget.weibo.com,www.sina.com.cn"
}

# 刘强东
url = ‘http://weibo.com/p/aj/v6/mblog/mbloglist?ajwvr=6&domain=103505&is_search=0&visible=0&is_hot=1&is_tag=0&profile_ftype=1&page=2&pagebar=0&pl_name=Pl_Official_MyProfileFeed__23&id=1035051198367585&script_uri=/kqdpku&feed_type=0&pre_page=1&domain_op=100306&__rnd=1495367966928‘
response = requests.get(url=url, headers=headers, cookies=Cookies)

data = json.loads(response.text)

result = data[‘data‘]

soup = BeautifulSoup(result, ‘html.parser‘)

blogs = soup.find_all(‘div‘, {‘class‘: ‘WB_detail‘})
for blog in blogs[0:8]:
    print("微博发文:", blog.find_all(‘div‘)[2].get_text())
    # 为了减少控制台内容输出,这里注释掉即可
    # print("配图:", blog.find_all(‘div‘, {‘class‘: ‘media_box‘}))
    print(‘=======‘*36)

# WB_innerwrap
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41

运行结果如何呢?

C:\Users\biao\Desktop\network\env\Scripts\python.exe C:/Users/biao/Desktop/network/code/sina/login.py
微博发文:
                                                                                                    骗人,南通没有普洱!//@普洱玫瑰汤:啊哈,我也是南通人呢。
===========================================================
微博发文:
                                                                                                    回复@流氓无产者刘爷:即使那样死了,无耻的看客们还要说不过瘾哩。//@流氓无产者刘爷:不仅不应该收费,还应该累死饿死是不?还应该绑着炸弹跟恐怖分子对炸去是不?还应该拎着菜刀跟汉奸对砍去是不?说话之前掂量掂量自己,考虑考虑别人不行么?
===========================================================
微博发文:
                                                                                                    给队里多买点。
===========================================================
微博发文:
                                                                                                    聪明。//@遇见那兵荒马乱:还是那天红场阅兵那天您阅的未名湖吗?
===========================================================
微博发文:
                                                                                                    你这眼神啊!//@鐵匠--孫:上面怎么还有肉渣渣,还是馋嘴
===========================================================
微博发文:
                                                                                                    这哥俩才超过五百。
===========================================================
微博发文:
                                                                                                    顺也是一种孝,但不可机械教条。//@夜半有人私语时:以前只知道“以顺行孝”,原来也可以“以谏行孝”。谢谢孔老师。
===========================================================
微博发文:
                                                                                                    美梦与歹命。我回答了 @NEW七七 的问题,问题价值¥433.00,大家快来花1元围观~ O微博问答 ????
===========================================================
Process finished with exit code 0
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27

如此,微博数据也能搞到手了。

总结

使用Cookie绕开登录选项,确实是一个比较好的捷径。但是由于时效的问题,治标不治本。

从上面的结果也可以看出,这里简单的打印出了前几条数据内容。也算是抛砖引玉了。而且对比网页源码之后,我发现了更多好玩的数据源。图片,短视频,都会是很好的素材。

然后对XX进行文本分析,做成词云啊,或者做一下社交网络分析啊等等。

今天其实真的是太闲了,所以才搞了一下微博数据的爬取。文章内容,排版都挺失败的。(⊙﹏⊙)b

再分享一下我老师大神的人工智能教程吧。零基础!通俗易懂!风趣幽默!还带黄段子!希望你也加入到我们人工智能的队伍中来!https://blog.csdn.net/jiangjunshow

原文地址:https://www.cnblogs.com/djuwcnhwbx/p/10326043.html

时间: 2024-09-28 17:20:11

爬取微博用户数据的相关文章

python爬取微博图片数据存到Mysql中遇到的各种坑\python Mysql存储图片

本人长期出售超大量微博数据,并提供特定微博数据打包,Message to [email protected] 前言   由于硬件等各种原因需要把大概170多万2t左右的微博图片数据存到Mysql中.之前存微博数据一直用的非关系型数据库mongodb,由于对Mysql的各种不熟悉,踩了无数坑,来来回回改了3天才完成. 挖坑填坑之旅 建表 存数据的时候首先需要设计数据库,我准备设计了3个表 微博表:[id, userid, blog_text, lat, lng, created_time, res

利用Python来爬取“吃鸡”数据,为什么别人能吃鸡?

首先,神装镇楼背景 最近老板爱上了吃鸡(手游:全军出击),经常拉着我们开黑,只能放弃午休的时间,陪老板在沙漠里奔波. 上周在在微信游戏频道看战绩的时候突发奇想,是不是可以通过这个方式抓取到很多战斗数据,然后分析看看有什么规律.秀一波战绩,开黑情况下我们团队吃鸡率非常高,近100场吃鸡次数51次简单评估了一下,觉得可行,咱就开始. Step 1 分析数据接口 第一步当然是把这些战绩数据采集下来,首先我们需要了解页面背后的故事.去看看页面是如何获取战斗数据的. 使用Charles抓包 抓包实现 在M

爬取微博热门话题

1 介绍 本文主要介绍爬取微博热门话题及话题下的微博.这是我毕业设计的数据来源,在这里先记录一下进展. 我买的阿里云服务器,[轻量应用服务器]预装宝塔Linux面板--三个月¥28.5.配置如下: 用起来还是很方便的,宝塔面板可视化文件上传下载,搭建web网站简便,可以定时爬虫程序.在阿里云服务器进行运行爬虫代码并连接到mysql数据库,运行环境如下: 类型 版本 服务器 CentOS Linux 7.4.1708 (Core) web服务器 Apache 2.4 数据库 mysql5.7 PY

Python爬取京东商品数据

对京东某一商品信息页面的HTML代码进行分析,可以发现它的图书产品信息页面都含有这样一段代码(不同类的商品页面有些不同): window.pageConfig={compatible:true,searchType: 1,product:{"skuid":"11408255","name":"\u4f17\u795e\u7684\u536b\u661f\uff1a\u4e2d\u56fd\u7981\u533a","

Scrapy 通过登录的方式爬取豆瓣影评数据

Scrapy 通过登录的方式爬取豆瓣影评数据 爬虫 Scrapy 豆瓣 Fly 由于需要爬取影评数据在来做分析,就选择了豆瓣影评来抓取数据,工具使用的是Scrapy工具来实现.scrapy工具使用起来比较简单,主要分为以下几步: 1.创建一个项目 ==scrapy startproject Douban 得到一个项目目录如下: ├── Douban │   ├── init.py │   ├── items.py │   ├── pipelines.py │   ├── settings.py

爬虫实例(一)——爬取微博动态

首语:开始准备认真学习爬虫了,先从基础的开始学起,比如先爬取微博的个人动态. 两个难点:获取动态加载的内容和翻页这两项操作. 对象:何炅的个人 需要的URL: 首页url:https://weibo.com/hejiong?is_search=0&visible=0&is_all=1&is_tag=0&profile_ftype=1&page=1#feedtop 我们可以直接用get方法请求该URL,但是注意要带上cookies,这样才能得到网页信息.cookies

使用进程池模拟多进程爬取url获取数据,使用进程绑定的回调函数去处理数据

1 # 使用requests请求网页,爬取网页的内容 2 3 # 模拟使用进程池模拟多进程爬取网页获取数据,使用进程绑定的回调函数去处理数据 4 5 import requests 6 from multiprocessing import Pool 7 8 # response = requests.get('http://www.baidu.com') # 访问网页获取网页内容,得到一个网页内容的结果对象<Response [200]>这个200是一个状态码,200表示网页正常的返回,40

python爬虫爬取微博评论案例详解

这篇文章主要介绍了python爬虫爬取微博评论,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧 数据格式:{"name":评论人姓名,"comment_time":评论时间,"comment_info":评论内容,"comment_url":评论人的主页} 以上就是我们需要的信息. 具体操作流程: 我们首相将主页获取完成以后,我们就会发现,其中 的内容带有相

【python网络编程】新浪爬虫:关键词搜索爬取微博数据

上学期参加了一个大数据比赛,需要抓取大量数据,于是我从新浪微博下手,本来准备使用新浪的API的,无奈新浪并没有开放关键字搜索的API,所以只能用爬虫来获取了.幸运的是,新浪提供了一个高级搜索功能,为我们爬取数据提供了一个很好的切入点. 在查阅了一些资料,参考了一些爬虫的例子后,得到大体思路:构造URL,爬取网页,然后解析网页 具体往下看~ 登陆新浪微博,进入高级搜索,如图输入,之后发送请求会发现地址栏变为如下:    http://s.weibo.com/weibo/%25E4%25B8%25A