python伪装浏览器爬虫

待完善

import urllib2,urllib,cookielib

urllib.getproxies_registry=lambda:{}

request=urllib2.Request("http://tuan.qunar.com/hotel/kunming_7133?in_track=home_tuan_content&list=rexiaojingxuan")
request.add_header("User-Agent","Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6")
html_tr=urllib2.urlopen(request)
html_tr=html_tr.read()
print html_tr
时间: 2025-01-16 06:08:03

python伪装浏览器爬虫的相关文章

Python伪装浏览器请求爬虫豆瓣小组

Python爬虫,下载豆瓣小组图片 # -*- coding: utf-8 -*- # ----------------------------------------------- # 程序:豆瓣小组图片爬虫 # 版本:1.0 # 语言:Python 3.4 # 作者:gdp12315 # 操作:输入豆瓣小组讨论版块地址.起始页面.终止页面 # 功能:下载小组帖子里发布的图片 # 注意:下载的保存地址为作者本机地址 读者根据自身情况更改 # --------------------------

python爬虫之伪装浏览器

问题描述:File "D:\python\Lib\httplib.py", line 417, in _read_status                         raise BadStatusLine(line) 首先我们得对这两行代码并对此进行解释 user_agent='Mozilla/4.0(compatible;MSIE 5.5; Windows NT)'headers ={ 'User-Agent':user_agent} User-Agent是http协议中的

零基础自学用Python 3开发网络爬虫(三): 伪装浏览器君

原文出处: Jecvay Notes (@Jecvay) 上一次我自学爬虫的时候, 写了一个简陋的勉强能运行的爬虫alpha. alpha版有很多问题. 比如一个网站上不了, 爬虫却一直在等待连接返回response, 不知道超时跳过; 或者有的网站专门拦截爬虫程序, 我们的爬虫也不会伪装自己成为浏览器正规部队; 并且抓取的内容没有保存到本地, 没有什么作用. 这次我们一个个解决这些小问题. 此外, 在我写这系列文章的第二篇的时候, 我还是一个对http的get和post以及response这些

Python3 爬虫实例(二) -- 伪装浏览器

一.伪装浏览器 对于一些需要登录的网站,如果不是从浏览器发出的请求,则得不到响应.所以,我们需要将爬虫程序发出的请求伪装成浏览器正规军.具体实现:自定义网页请求报头. 二.使用Fiddler查看请求和响应报头 打开工具Fiddler,然后再浏览器访问"https://www.douban.com/",在Fiddler左侧访问记录中,找到"200 HTTPS www.douban.com"这一条,点击查看其对应的请求和响应报头具体内容: 三.访问豆瓣 我们自定义请求报

Python 开发轻量级爬虫05

Python 开发轻量级爬虫 (imooc总结05--网页下载器) 介绍网页下载器 网页下载器是将互联网上url对应的网页下载到本地的工具.因为将网页下载到本地才能进行后续的分析处理,可以说网页下载器是爬虫的核心组件. 网页下载器类似于网页浏览器,会将url对应的互联网网页,以HTML的形式下载到本地存储一个本地文件或者本地字符串,然后才能进行后续的分析和处理. Python有哪几种网页下载器呢? Urllib2 – python官方的基础模块,它支持直接的url下载, 或者说向网页提交一些需要

Windows 环境下运用Python制作网络爬虫

import webbrowser as web import time import os i = 0 MAXNUM = 1 while i <= MAXNUM: web.open_new_tab('要刷的网络地址') os.system('taskkill /F /IM 浏览器文件名(chrome.exe)') i += 1 else: print 'happly day!' 代码和简单只要一个第三方的函数和调用系统的文件就OK了.记住给要刷的次数定值,不然电脑就不好受了! Windows

伪装浏览器根据经纬度解析地理位置

#!/usr/bin/env python # -*- coding: utf-8 -*- """ 作者:昨夜星辰 脚本作用:伪装浏览器根据经纬度解析地理位置 创建时间:2017-01-11 """ import re import requests lat = '23.0300000000' lng = '113.7500000000' url = 'http://www.gpsspg.com/apis/maps/geo/' '?output=

Python Scrapy 自动爬虫注意细节

一.首次爬取模拟浏览器 在爬虫文件中,添加start_request函数.如: def start_requests(self): ua = {"User-Agent": 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.2050.400 QQBrowser/9.5.10169.400'} yie

python应用之爬虫实战1 爬虫基本原理

知识内容: 1.爬虫是什么 2.爬虫的基本流程 3.request和response 4.python爬虫工具 参考:http://www.cnblogs.com/linhaifeng/articles/7773496.html 一.爬虫是什么 1.爬虫定义 爬虫:把互联网比作一张大的蜘蛛网,那一台计算机上的数据便是蜘蛛网上的一个猎物,而爬虫程序就是一只小蜘蛛,沿着蜘蛛网抓取自己想要的猎物/数据,  爬虫实质是向网站发起请求,获取资源后分析并提取有用数据的程序  2.爬虫分类 定向:爬取特定领域