爬取新浪微博内容（手机新浪微博，pc版本的抓取不到内容，ps:找不到网址！）

 1 #!usr/bin/env python
 2 #coding:utf-8
 3
 4 import urllib2
 5 import cookielib
 6 from bs4 import BeautifulSoup
 7
 8 #cookie = cookielib.CookieJar()
 9 #hander = urllib2.HTTPCookieProcessor(cookie)
10 #opener = urllib2.build_opener(hander)
11
12 user_agent = {‘User-Agent‘:‘Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.110 Safari/537.36‘}
13 cookie = {‘_T_WM=622b9aac959576e1ec052536bf788ca6; SUB=_2A256NuabDeRxGeVI41EY8CzMwj-IHXVZ2IrTrDV6PUJbstBeLWvckW1LHesb2LTzebke-kTx8Edhhrigsk-45Q..; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9W5E1DxUxIRIQkQSlkE2rx2s5JpX5o2p5NHD95Q0Son01K5Eeh.0; SUHB=0pHBSdB4EWaOgH; SSOLoginState=1462933195; gsid_CTandWM=4ubeCpOz59AQGOfsYRXsvfslM1v‘}
14
15 header = {
16             ‘User-Agent‘:user_agent,
17             ‘Cookie‘ :cookie
18             }
19 url = ‘http://weibo.cn/u/5305630013‘
20 request = urllib2.Request(url,headers=header)
21 response = urllib2.urlopen(request)
22 soup = BeautifulSoup(response,‘lxml‘,from_encoding=‘utf-8‘)
23 print soup.prettify()
24
25 titles = soup.find_all(‘span‘,class_=‘ctt‘)
26 for title in titles:
27     print title.get_text()

　　本来是想用cookielib模块获取cookie的，但是只获取到了第一个分号的内容，就直接找在F12里面找到cookie,试了下效果，发现就是cookie问题就直接先把代码写出来！

　　要注意的地方：

　　　　1、首先就是cookie了，最好能够自动获取，我看我今天可不可以完成这个任务；

　　　　2、然后就是user-agent这个了，有时候要有可以，以防万一，就都添加上吧；

　　　　3、就是那个headers了，要传送给url的数据都要放在headers里面，一开始不知道就直接把cookie和user-agent就是放到request里面，报错。

最后是写给自己的，要慢慢的习惯面向对象编程了

时间： 2024-10-19 03:41:54

爬取新浪微博内容（手机新浪微博，pc版本的抓取不到内容，ps:找不到网址！）的相关文章

sqlserver 抓取所有执行语句 SQL语句分析死锁抓取

原文:sqlserver 抓取所有执行语句 SQL语句分析死锁抓取在多人开发中最头疼的是人少事多没有时间进行codereview,本来功能都没时间写,哪有时间来开会细细来分析代码.软件能跑就行,但是一些影响性能的语句写出来,有可能本人都不知道.找就更麻烦了.幸亏sqlserver提供了工具可以导出执行语句进行分析.可以看看是哪些语句影响整体性能.工具叫sql server profiler,这玩意可以抓取实例上执行的所有语句\死锁\事物,为分析提供帮助. 开始->sqlserver目录-

[Python爬虫] 之九：Selenium +phantomjs抓取活动行中会议活动（单线程抓取）

思路是这样的,给一系列关键字:互联网电视:智能电视:数字:影音:家庭娱乐:节目:视听:版权:数据等.在活动行网站搜索页(http://www.huodongxing.com/search?city=%E5%85%A8%E5%9B%BD&pi=1)的文本输入框中分别输入每个关键字,在搜索结果中抓取需要的数据. 首先通过Selenium+IE驱动得到每个关键字搜索结果的url(首页,因为以后各个页的url就是索引不一样)和总页数,保存的列表里面.然后再循环列表,用Selenium +phantomj

[Python爬虫] 之十：Selenium +phantomjs抓取活动行中会议活动（多线程抓取）

延续上个抓取活动行中会议活动的问题,上次使用是单线程的抓取,效率较低,现在使用多线程的抓取. 数据的抓取分为两个过程:首先获取每个关键字搜索结果对应的url和页数,保存在列表里面,这个过程用一个线程来实现(类似生产者),同时根据获取的关键字的url和页数,抓取对应的数据,这个过程用多线程来抓取(类似消费者) 这样整个抓取过程共用了144.366188 秒,采用单线程来进行抓取要用大概184秒,这样大概节省了40秒具体代码如下: # coding=utf-8import osimport ref

Fiddler微信公众号列表、浏览/查看量、评论数据抓取

按之前的文章我们已经可以获取app及网页的https/http请求的json数据: https://www.cnblogs.com/i-love-python/p/11505669.html 在此基础上可对微信公众号文章数据进行抓取. 包括列表.浏览查看量.评论数据. 列表数据: 列表数据获取列表为每个公众号历史数据入口,如图红框中的2部分. 列表数据可通过Fiddler在微信PC客户端获取,获取的数据是json数据里面包含了文章标题,发布时间等信息. 这个列表信息是一个类似下面url的GET

PHP cURL库函数抓取页面内容

目录 1 为什么要用cURL? 2 启用cURL 3 基本结构 4 检查错误 5 获取信息 6 基于浏览器的重定向 7 用POST方法发送数据 8 文件上传 9 cURL批处理(multi cURL) 9.1 WordPress 链接检查器 10 另一些有用的cURL 选项 10.1 HTTP 认证 10.2 FTP 上传 10.3 代理/FQ请求 10.4 回调函数 11 小结 cURL 是一个利用URL语法规定来传输文件和数据的工具,支持很多协议和选项,如HTTP.FTP.TELNET等,能

C#抓取网页HTML内容

网上很多内容采集工具,今天就自己试着写一个,发现C#可以轻松的抓去网页的内容,进而通过正则来分离出自己感兴趣的数据.下面是抓去网页内容的代码: using System; using System.Collections.Generic; using System.Linq; using System.Web; using System.Net; using System.Text; using System.IO; using System.Text.RegularExpressions; n

第三百四十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—

第三百四十一节,Python分布式爬虫打造搜索引擎Scrapy精讲-编写spiders爬虫文件循环抓取内容- 编写spiders爬虫文件循环抓取内容 Request()方法,将指定的url地址添加到下载器下载页面,两个必须参数, 参数: url='url' callback=页面处理函数使用时需要yield Request() parse.urljoin()方法,是urllib库下的方法,是自动url拼接,如果第二个参数的url地址是相对路径会自动与第一个参数拼接 # -*- coding:

利用BeautifulSoup抓取新浪网页新闻的内容

第一次写的小爬虫,python确实功能很强大,二十来行的代码抓取内容并存储为一个txt文本直接上代码 #coding = 'utf-8' import requests from bs4 import BeautifulSoup import sys reload(sys) sys.setdefaultencoding("utf-8") #抓取web页面 url = "http://news.sina.com.cn/china/" res = requests.g

使用python scrapy框架抓取cnblog 的文章内容

scrapy 的文档请移驾到 http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/install.html 1.准备工作安装python .Spyder .scrapy 如果想要数据直接入mysql 还需要安装python的 MySQLdb 依赖包本人mac操作系统安装MySQLdb的时候出现了些小问题最后是重装了openssl 才通过的 Spyder 是编写python的ide 2.新建项目 cd /usr/local/var/ww