pylibcurl之https搜索引擎之网络数据抓取小例子,302moved?google搜索引擎不让你抓搜索结果??ok,此文问题通通解决

前提:操作平台-WIN7

一.首先你得python,我安装的是python2.7.9

二.其次,你得安装pyLibCurl,安装方式:http://pycurl.sourceforge.net/

三.最后,你得编写测试用例test.py:(当然,从代码中可以看出你电脑得有E盘,否则改一下代码,然后我抓取的数据是google一下test的数据)

#! /usr/bin/env python
# -*- coding: utf-8 -*-
# vi:ts=4:et

import sys
import pycurl

class Test:
    def __init__(self):
        self.contents = ''

    def body_callback(self, buf):
        self.contents = self.contents + buf
        f = open('e:\\tmp\\tmp.html', 'w')
        print f
        f.write(self.contents)

sys.stderr.write("Testing %s\n" % pycurl.version)

t = Test()
c = pycurl.Curl()
c.setopt(c.URL, 'https://www.google.com/search?q=testx')

c.setopt(c.USERAGENT, "Mozilla/4.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0) in my heart of heart.")
c.setopt(c.HEADER, True)
c.setopt(c.REFERER, "https://www.google.com/search?q=testx")
c.setopt(c.COOKIEFILE, "./COOKIE.txt")
c.setopt(c.COOKIEJAR, "./COOKIE.txt")

c.setopt(c.WRITEFUNCTION, t.body_callback)
c.perform()
c.close()

print(t.contents)

延伸:

是不是你正常发起http请求google会告诉你“302 Moved”,ok,仔细研究一下这段代码,也会解决你的问题

参考:

http://superuser.com/questions/482470/google-302-moved-in-firefox

http://stackoverflow.com/questions/22570970/php-search-by-image-google-curl-return-302-moved



时间: 2024-10-05 22:58:50

pylibcurl之https搜索引擎之网络数据抓取小例子,302moved?google搜索引擎不让你抓搜索结果??ok,此文问题通通解决的相关文章

[Gevent]gevent 网络抓取小测试

早就听说gevent基于事件的异步处理能力 效率多么高,一直在项目中也很少用到,今天先来没事就学习了些简单的用法. 有个官方的教程写的很不错 中文版的地址为:http://xlambda.com/gevent-tutorial/ 学习gevent很不错的资料. 具体的理论这里不怎么说了,只是有些了解,具体的原理还不能解释的很清楚.不过协程这种概念在golang里面很多. 写了一个访问网络,使用同步操作,gevent 和 多线程对比的例子. #!/usr/bin/python # -*- codi

网页抓取小工具(IE法)

网页抓取小工具(IE法)-- 吴姐 http://club.excelhome.net/thread-1095707-1-1.html 用IE提取网页资料的好处在于:所见即所得,网页上能看到的信息一般都能获取. 本工具功能不多,主要是便于提取网页上展示的信息所在元素的代码.希望能对大家有点小帮助. 网页抓取小工具.rar (22.91 KB, 下载次数: 2426) 本工具使用方法: 1.在B1内输入网址,可以是已打开的网页,也可以是未打开的 2.A2和B2的内容不要更改,第二行的其他单元格可以

一个极其简洁的Python网页抓取程序,自己主动从雅虎財经抓取股票数据

本程序使用Python 2.7.6编写,扩展了Python自带的HTMLParser,自己主动依据预设的股票代码列表,从Yahoo Finance抓取列表中的数据日期.股票名称.实时报价.当日变化率.当日最低价.当日最高价. 因为Yahoo Finance的股票页面中的数值都有对应id. 比如纳斯达克100指数ETF(QQQ)http://finance.yahoo.com/q?s=qqq 当中实时报价的HTML标记为 <span id="yfs_l84_qqq">87.4

抓取小程序

前言 ,想利用小程序导航页面来提升网站的流量,找到  www.xcxdh666.com  该小程序导航网站. 分析网页 1 发现网站其实也是用异步分页请求加载数据的  ,所以根本用不着xpath  解析html,直接分析其请求url 2点击加载更多找到请求,发现其实就 pageNum ,cagegory 两个参数 3所以直接请求url    带入参数,分析起返回json结果 编写代码 1 首先建立接收类型 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

Python和Ruby抓取网页时的中文乱码问题(在Eclipse和Apatana Studio下均是这种解决方法

Python抓取中文网页乱码 环境1:Eclipse+pydev2.2+python2.7? 环境2:Apatana Studio3+ pydev2.2+python2.7? ????run时设置 run-->run configurations->python run->选中当前运行文件->Common->?Encoding?->Others->输入"GBK" 中文是:运行-->运行配置->python run->选中当前运

百度收录链接抓取小程序

set_time_limit(0); header("Content-type:text/html;charset=utf-8"); $updatePoint = date("Y-m-d", time()); $patMD = date("m-d", time()); $xmlDatas = ''; for($i=0;$i<76;$i++) { $page = $i*10; $conts = file_get_contents("

简单抓取小程序大全,并展示

前言,想利用小程序导航页面来提升网站的流量,找到www.xcxdh666.com该小程序导航网站. 分析网页       1发现网站其实也是用异步分页请求加载数据的,所以根本用不着xpath解析html,直接分析其请求URL       2点击加载更多找到请求,发现其实就是pageNum,cagegory两个参数       3所以直接请求URL,带入参数,分析起返回json结果 编写代码         1首先建立接收类型             public class XcxApplet

抓取百万知乎用户数据之爬取思路

一.如何获取到用户的信息 前往用户主页,以轮子哥为例 从中可以看到用户的详细信息,教育经历主页,主修.所在行业,公司,关注量,回答数,居住地等等.打开开发者工具栏查看网络,即可找到,一般是html或者json这个数据在Html页面里. URL为https://www.zhihu.com/people/excited-vczh/answers,excited-vczh是轮子哥的id,我们只要拿到某个人的Id就可以获取详细信息了. 二.信息藏在哪 对这个json数据进行解析,即可找到用户信息 根据U

使用java开源工具httpClient及jsoup抓取解析网页数据

今天做项目的时候遇到这样一个需求,需要在网页上展示今日黄历信息,数据格式如下 公历时间:2016年04月11日 星期一 农历时间:猴年三月初五 天干地支:丙申年 壬辰月 癸亥日 宜:求子 祈福 开光 祭祀 安床 忌:玉堂(黄道)危日,忌出行 主要包括公历/农历日期,以及忌宜信息的等.但是手里并没有现成的数据可供使用,怎么办呢? 革命前辈曾经说过,没有枪,没有炮,敌(wang)人(luo)给我们造!网络上有很多现成的在线 万年历应用可供使用,虽然没有现成接口,但是我们可以伸出手来,自己去拿.也就是