新浪微博评论抓取

1、现在在任何浏览器中 打开微博登录

2、按F12或者在页面右键选着”审查元素” 找到Network 选项

3、然后刷新下 下页面

4、然后你会看到。哦买噶。。。我滴个神 这啥玩意。。。。

5、点击下这个home?wvr=5

6、这玩意就是我们要的东西(放心我盗不了你的号,这个加密用了md5的算法破不了。。。。。)赋值这个额cookie注意“cookie:”这个就不要了。。。。。。。复制后面的值就可以了(记得要点红色的按钮啊。。。。)

废话了那么多总之:就是为了获取cookie

7、选这一条评论小于500的微博URL,去看看他们在说些神马!!!!现在我只能帮你到这了

8、哥姐,剥个橘子,他就会爬完了。。。。。

9、是不是评论都出来的了。。。。

10、打开你刚刚启动程序的目录看看看是不是多了一个data.txt文件

11、右键他。。。。。。以excel方式打开

注意: 1、这个目前还在完善中千万不能盲目的瞎用啊,小心浪人封你号的。

2、如果有错麻烦截个图发给我啊。。

3、如果你更好的建议也可以随时m我。。。

4、这个在抓取精度上还不能保证完全的百分百我简单的分析了有儿

4.1、新浪把有些敏感评论给删除(或别人看不到)

4.2、程序处理异常导致没有收录

QQ:865252662        
e-mail:[email protected]

后期优化:

1、  抓取失败的链接重新在走一遍

2、  能另存为

3、  把分词加上

 链接:http://url.cn/NQnsGp (密码:Rf0a)

时间: 2024-08-05 17:05:43

新浪微博评论抓取的相关文章

Java模拟新浪微博登陆抓取数据

前言:  兄弟们来了来了,最近有人在问如何模拟新浪微博登陆抓取数据,我听后默默地抽了一口老烟,暗暗的对自己说,老汉是时候该你出场了,所以今天有时间就整理整理,浅谈一二. 首先:  要想登陆新浪微博需要预登陆,即是将账号base64加密,密码rsa加密以及请求http://login.sina.com.cn/sso/prelogin.php链接获取一些登陆需要参数,返回的接送字符串如: {"retcode":0,"servertime":1487292003,&quo

[python]利用selenium模拟用户操作抓取天猫评论数据

准备: python3.5 安装selenium包 第一种方法: cmd里输pip install selenium,但是经常报错 第二种方法: 下载安装包-cmd进入解压路径-python setup.py install-报错permission denied-右键安全更改报错文件夹权限为完全控制-再次安装成功unknown error: unable to discover open pages-下载chromedriver放在环境变量目录下测试自动打开百度时提示"您使用的是不受支持的命令

大数据抓取采集框架(摘抄至http://blog.jobbole.com/46673/)

摘抄至http://blog.jobbole.com/46673/ 随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前.如何能够做到所见即所得的无阻拦式采集.如何快速把不规则页面结构化并存储.如何满足越来越多的数据采集还要在有限时间内采集.这篇文章结合我们自身项目经验谈一下. 我们来看一下作为人是怎么获取网页数据的呢? 1.打开浏览器,输入网址url访问页面内容.2.复制页面内容的标题.作者.内容.3.存储到文本文件或者excel. 从技术角度来说整个过程

Python爬虫,抓取淘宝商品评论内容

作为一个资深吃货,网购各种零食是很频繁的,但是能否在浩瀚的商品库中找到合适的东西,就只能参考评论了!今天给大家分享用python做个抓取淘宝商品评论的小爬虫! 思路 我们就拿"德州扒鸡"做为参考目标吧~!如果想抓其他商品的话,自行更换目标即可!打开淘宝,搜索目标,随便点击一个商品进入,在点击累计评论,打开F12开发者工具--网络,先清除现有的所有内容,然后点击下一页评论,在弹出的内容中查找文件中开头为list_detail_rate.htm的html类型,如下图所示 这个html中就含

python 爬虫抓取 MOOC 中国课程的讨论区内容

一:selenium 库 selenium 每次模拟浏览器打开页面,xpath 匹配需要抓取的内容.可以,但是特别慢,相当慢.作为一个对技术有追求的爬虫菜鸡,狂补了一些爬虫知识.甚至看了 scrapy 框架,惊呆了,真棒! 网上很多关于 selenium 库的详细介绍,这里略过此方法. 二: requests 库 编写一个爬虫小脚本,requests 库极为方便.接下来进入正题,如何抓取 MOOC 中国上课程的讨论内容! 1. 分析网页数据 打开你需要抓取数据的课程页面,点击讨论区之后页面加载讨

python抓取新浪微博评论并分析

1,实现效果 watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQveGlhb2xhbnphbw==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" width="320" height="300" > watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQveGlhb2xhbn

抓取网易云音乐歌曲热门评论生成词云

前言 抓数据 抓包分析 加密信息处理 抓取热门评论内容 词云 词云运行效果 总结 前言 网易云音乐一直是我向往的"神坛",听音乐看到走心的评论的那一刻,高山流水.于是今天来抓取一下歌曲的热门评论.并做成词云来展示,看看相对于这首歌最让人有感受的评论内容是什么. 做成词云的好处就是直观以及美观, 其他的我也想不出来有什么了. 抓数据 要想做成词云,首先得有数据才行.于是需要一点点的爬虫技巧. 抓包分析 加密信息处理 抓取热门评论内容 抓包分析 使用Chrome控制台.我们可以轻松的找到评

抓取新浪微博数据存入MongoDB,避免重复插入微博数据的方法

def getMyDatalist(): #id这个key key = str(u'id').decode('utf-8') #存储旧数据的id列表 old_ids = [] #存储新微博的列表 extr_wb = [] #从MongoDB上获取的数据 old_datalist = weibodata.find() for old in old_datalist: old_ids.append(old[key]) #从微博上抓取新数据 data = client.statuses.home_ti

测试开发Python培训:抓取新浪微博抓取数据-技术篇

测试开发Python培训:抓取新浪微博抓取数据-技术篇 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.在poptest的selenium的课程中,我们在培训的课程里讲python的语言,也是通过项目实战的方式进行讲解,前期分享了个新浪微博的登陆功能,这次在通过抓取新浪微博数据进一步讲解脚本.(大家对课程感兴趣,请加qq:564202718) 微博有发布微博功能,微博发布后需要验证内容,那么如何验证微博发布数据的正确性,首先要