新浪微博评论抓取

1、现在在任何浏览器中打开微博登录

2、按F12或者在页面右键选着”审查元素” 找到Network 选项

3、然后刷新下下页面

4、然后你会看到。哦买噶。。。我滴个神这啥玩意。。。。

5、点击下这个home?wvr=5

6、这玩意就是我们要的东西（放心我盗不了你的号，这个加密用了md5的算法破不了。。。。。）赋值这个额cookie注意“cookie:”这个就不要了。。。。。。。复制后面的值就可以了(记得要点红色的按钮啊。。。。)

废话了那么多总之：就是为了获取cookie

7、选这一条评论小于500的微博URL，去看看他们在说些神马！！！！现在我只能帮你到这了

8、哥姐，剥个橘子，他就会爬完了。。。。。

9、是不是评论都出来的了。。。。

10、打开你刚刚启动程序的目录看看看是不是多了一个data.txt文件

11、右键他。。。。。。以excel方式打开

注意：　1、这个目前还在完善中千万不能盲目的瞎用啊，小心浪人封你号的。

2、如果有错麻烦截个图发给我啊。。

3、如果你更好的建议也可以随时m我。。。

4、这个在抓取精度上还不能保证完全的百分百我简单的分析了有儿

4.1、新浪把有些敏感评论给删除(或别人看不到)

4.2、程序处理异常导致没有收录

QQ:865252662
e-mail:[email protected]

后期优化：

1、抓取失败的链接重新在走一遍

2、能另存为

3、把分词加上

链接：http://url.cn/NQnsGp （密码：Rf0a）

时间： 2024-12-13 22:13:59

新浪微博评论抓取的相关文章

Java模拟新浪微博登陆抓取数据

前言: 兄弟们来了来了,最近有人在问如何模拟新浪微博登陆抓取数据,我听后默默地抽了一口老烟,暗暗的对自己说,老汉是时候该你出场了,所以今天有时间就整理整理,浅谈一二. 首先: 要想登陆新浪微博需要预登陆,即是将账号base64加密,密码rsa加密以及请求http://login.sina.com.cn/sso/prelogin.php链接获取一些登陆需要参数,返回的接送字符串如: {"retcode":0,"servertime":1487292003,&quo

[python]利用selenium模拟用户操作抓取天猫评论数据

准备: python3.5 安装selenium包第一种方法: cmd里输pip install selenium,但是经常报错第二种方法: 下载安装包-cmd进入解压路径-python setup.py install-报错permission denied-右键安全更改报错文件夹权限为完全控制-再次安装成功unknown error: unable to discover open pages-下载chromedriver放在环境变量目录下测试自动打开百度时提示"您使用的是不受支持的命令

大数据抓取采集框架(摘抄至http://blog.jobbole.com/46673/)

摘抄至http://blog.jobbole.com/46673/ 随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前.如何能够做到所见即所得的无阻拦式采集.如何快速把不规则页面结构化并存储.如何满足越来越多的数据采集还要在有限时间内采集.这篇文章结合我们自身项目经验谈一下. 我们来看一下作为人是怎么获取网页数据的呢? 1.打开浏览器,输入网址url访问页面内容.2.复制页面内容的标题.作者.内容.3.存储到文本文件或者excel. 从技术角度来说整个过程

Python爬虫，抓取淘宝商品评论内容

作为一个资深吃货,网购各种零食是很频繁的,但是能否在浩瀚的商品库中找到合适的东西,就只能参考评论了!今天给大家分享用python做个抓取淘宝商品评论的小爬虫! 思路我们就拿"德州扒鸡"做为参考目标吧~!如果想抓其他商品的话,自行更换目标即可!打开淘宝,搜索目标,随便点击一个商品进入,在点击累计评论,打开F12开发者工具--网络,先清除现有的所有内容,然后点击下一页评论,在弹出的内容中查找文件中开头为list_detail_rate.htm的html类型,如下图所示这个html中就含

python 爬虫抓取 MOOC 中国课程的讨论区内容

一:selenium 库 selenium 每次模拟浏览器打开页面,xpath 匹配需要抓取的内容.可以,但是特别慢,相当慢.作为一个对技术有追求的爬虫菜鸡,狂补了一些爬虫知识.甚至看了 scrapy 框架,惊呆了,真棒! 网上很多关于 selenium 库的详细介绍,这里略过此方法. 二: requests 库编写一个爬虫小脚本,requests 库极为方便.接下来进入正题,如何抓取 MOOC 中国上课程的讨论内容! 1. 分析网页数据打开你需要抓取数据的课程页面,点击讨论区之后页面加载讨

python抓取新浪微博评论并分析

1,实现效果 watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQveGlhb2xhbnphbw==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" width="320" height="300" > watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQveGlhb2xhbn

抓取网易云音乐歌曲热门评论生成词云

前言抓数据抓包分析加密信息处理抓取热门评论内容词云词云运行效果总结前言网易云音乐一直是我向往的"神坛",听音乐看到走心的评论的那一刻,高山流水.于是今天来抓取一下歌曲的热门评论.并做成词云来展示,看看相对于这首歌最让人有感受的评论内容是什么. 做成词云的好处就是直观以及美观, 其他的我也想不出来有什么了. 抓数据要想做成词云,首先得有数据才行.于是需要一点点的爬虫技巧. 抓包分析加密信息处理抓取热门评论内容抓包分析使用Chrome控制台.我们可以轻松的找到评

抓取新浪微博数据存入MongoDB，避免重复插入微博数据的方法

def getMyDatalist(): #id这个key key = str(u'id').decode('utf-8') #存储旧数据的id列表 old_ids = [] #存储新微博的列表 extr_wb = [] #从MongoDB上获取的数据 old_datalist = weibodata.find() for old in old_datalist: old_ids.append(old[key]) #从微博上抓取新数据 data = client.statuses.home_ti

测试开发Python培训：抓取新浪微博抓取数据-技术篇

测试开发Python培训:抓取新浪微博抓取数据-技术篇 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.在poptest的selenium的课程中,我们在培训的课程里讲python的语言,也是通过项目实战的方式进行讲解,前期分享了个新浪微博的登陆功能,这次在通过抓取新浪微博数据进一步讲解脚本.(大家对课程感兴趣,请加qq:564202718) 微博有发布微博功能,微博发布后需要验证内容,那么如何验证微博发布数据的正确性,首先要