python2.7 urllib2 爬虫

# _*_ coding:utf-8 _*_

import urllib2
import cookielib
import random
import re
from bs4 import BeautifulSoup
import datetime

dax = datetime.datetime.now().strftime(‘%Y-%m-%d‘)
print(dax)

url = ‘http://ww=singlemessage&isappinstalled=0‘

cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
urllib2.install_opener(opener)
request = urllib2.Request(url)
headers = [
‘Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)‘,
‘Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)‘,
‘Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11‘,
‘Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0‘,
‘Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50‘
]

hds = random.choice(headers)
# print(hds)
request.add_header(‘User-Agent‘,‘%s‘ % hds)
#response = urllib2.urlopen("http://www.hn1m=singlemessage&isappinstalled=0")
response = urllib2.urlopen(request)
cont = response.read()
#print(cont)

soup = BeautifulSoup(cont,‘html.parser‘,from_encoding=‘utf-8‘)
# print(soup)
# listyj = soup.find_all(‘dl‘)
# for listyjx in listyj:
# print(listyjx.name,listyjx.attrs,listyjx.gettext())
# # if dax in listyjx:
# # print(listyjx)

原文地址:https://www.cnblogs.com/ruiy/p/9193940.html

时间: 2024-10-07 22:21:20

python2.7 urllib2 爬虫的相关文章

python2.7 urllib2访问https 网站出错

今天发现平时每小时报表内容少了好几个table ,感觉好奇怪,这个代码很稳定跑了好长时间了,不知道哪里出来问题,幸亏代码做了异常处理.否则我估计邮件都会发不出来了,看了下日志文件,有报错日志记录如下: ` page = urllib2.urlopen(url, timeout=300) File "/usr/local/lib/python2.7/urllib2.py", line 154, in urlopenreturn opener.open(url, data, timeout

关于urllib、urllib2爬虫伪装的总结

站在网站管理的角度,如果在同一时间段,大家全部利用爬虫程序对自己的网站进行爬取操作,那么这网站服务器能不能承受这种负荷?肯定不能啊,如果严重超负荷则会时服务器宕机(死机)的,对于一些商业型的网站,宕机一秒钟的损失都是不得了的,这不是一个管理员能承担的,对吧?那管理员会网站服务器做什么来优化呢?我想到的是,写一个脚本,当检测到一个IP访问的速度过快,报文头部并不是浏览器的话,那么就拒绝服务,或者屏蔽IP等,这样就可以减少服务器的负担并让服务器正常进行. 那么既然服务器做好了优化,但你知道这是对爬虫

python2与python3爬虫get与post对比

python2中的urllib2改为python3中的urllib.request 四种方式对比: python2的get: # coding=utf-8 import urllib import urllib2 word = urllib.urlencode({"wd":"百度"}) url = 'http://www.baidu.com/s' + '?' + word request = urllib2.Request(url) print urllib2.ur

python2.x urllib2和urllib的使用

1.最简单用法 urlopen(url, data=None, timeout=socket._GLOBAL_DEFAULT_TIMEOUT,...) 1 import urllib2 2 import urllib 3 4 5 response = urllib2.urlopen("http://www.baidu.com") 6 7 print 'getcode():',response.getcode() 8 print 'geturl():',response.geturl()

Python urllib2爬虫豆瓣小说名称和评分

#-*- coding:utf-8 -*- import urllib2 import re url = 'https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4' request = urllib2.Request(url) urlopen = urllib2.urlopen(request) content = urlopen.read() reg_0 = re.findall(r'title.+"\s*on', content) reg_1 = re.

python3--网络爬虫--爬取图片

网上大多爬虫仍旧是python2的urllib2写的,不过,坚持用python3(3.5以上版本可以使用异步I/O) 相信有不少人爬虫第一次爬的是Mm图,网上很多爬虫的视频教程也是爬mm图,看了某人的视频后,把这个爬虫给完成了 因为爬取的内容涉及个人隐私,所以,爬取的代码及网址不在此公布,不过介绍一下爬取的经验: 1.我们首先得了解我们要爬取的是什么,在哪爬取这些信息,不要着急想用什么工具,怎么搞,怎么搞得 2.手动操作一遍爬虫要完成的任务,我这个就是爬图片的,可以自己操作一遍 3.打开抓包软件

爬虫页面

9.31 爬取百度 import urllib.request response=urllib.request.urlopen('http://www.baidu.com')print(response.read().decode('utf-8')) 爬取 10.1 主动提交url2.设置友情链接3.百度会和DNS服务商务合作,抓取新页面?爬取步骤1.给一个url2.写程序,模拟浏览器访问url3.解析内容,提取数据使用库  urllib\requests\bs4解析网页  正则表达式\bs4\

Python爬虫连载1-urllib.request和chardet包使用方式

一.参考资料 1.<Python网络数据采集>图灵工业出版社 2.<精通Python爬虫框架Scrapy>人民邮电出版社 3.[Scrapy官方教程](http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html) 4.[Python3网络爬虫](http://blog.csdn.net/c406495762/article/details/72858983 二.前提知识 url.http协议.web前端:html\

[python]爬虫学习(二)

---恢复内容开始--- #python2 import urllib2 #python3 import urllib.request html=urllib.request.urlopen('http://www.sogou.com')print (html) #<http.client.HTTPResponse object at 0x0000000002D84BA8print (html.read()) urllib.request, urllib.error, urllib.parse,