用代理IP进行简单的爬虫——爬高匿代理网站

用西刺代理网站的IP爬高匿代理网站

 1 import re
 2 import _thread
 3 from time import sleep,ctime
 4 from urllib.request import urlopen
 5 from urllib.request import Request
 6 from urllib.request import ProxyHandler
 7 from urllib.request import build_opener
 8 from lxml import etree
 9
10 url = "http://www.kuaidaili.com/free/"
11 #设置代理IP
12 proxy = {‘http‘:‘113.123.13.149:808‘}
13 proxy_support = ProxyHandler(proxy)
14 opener = build_opener(proxy_support)
15 #设置访问协议头
16 opener.addheaders = [(‘User-agent‘,‘Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6‘)]
17 r = opener.open(url)
18 html = r.read().decode(‘utf-8‘)
19 print(html)
20 selector = etree.HTML(html)
21 links = selector.xpath(‘//tr/td/text()‘)
22 for link in links:
23     print(link)
时间: 2024-11-06 07:19:41

用代理IP进行简单的爬虫——爬高匿代理网站的相关文章

pytohn爬虫成长之路:抓取代理IP并多线程验证

上回说到,突破反爬虫限制的方法之一就是多用几个代理IP,但前提是我们得拥有有效的代理IP,下面我们来介绍抓取代理IP并多线程快速验证其有效性的过程. 一.抓取代理IP 提供免费代理IP的网站还挺多的,我在'西刺代理'上一阵猛抓后自己的IP就被其屏蔽了.只好换'IP巴士'并乖乖的减缓抓取速度了.贴上抓取代码 import urllib.request import urllib import re import time import random #抓取代理IP ip_totle=[] #所有页

如何搭建稳定的代理ip池, 供爬虫使用

新型的代理ip池aox_proxy_pool 在这篇文章之前, 应该不少人都看过很多搭建代理ip池的文章, 然后发现都是坑, 无法使用.说的比较多的 推荐买xx家的代理ip, 贼稳定, 好使(广告) 抓取xx免费代理ip, 然后自己写一个校验, 然后写一个api, 提供给爬虫使用 第一种方法就不说了, 真的存在几家不错的代理ip(别问我谁家的好, 我不知道, 我写这篇文章就为了推销我自己写的项目好伐) 第二种, github上这种项目海了去了, 绝大部分, 在你搭建好以后, 发现爬虫还是爬不动,

python爬虫之反爬虫(随机user-agent,获取代理ip,检测代理ip可用性)

python爬虫之反爬虫(随机user-agent,获取代理ip,检测代理ip可用性) 目录 随机User-Agent 获取代理ip 检测代理ip可用性 随机User-Agent fake_useragent库,伪装请求头 from fake_useragent import UserAgent ua = UserAgent() # ie浏览器的user agent print(ua.ie) # opera浏览器 print(ua.opera) # chrome浏览器 print(ua.chro

Python3网络爬虫(十一):爬虫黑科技之让你的爬虫程序更像人类用户的行为(代理IP池等)

原文链接: Jack-Cui,http://blog.csdn.net/c406495762 运行平台: Windows Python版本: Python3.x IDE: Sublime text3 1 前言 近期,有些朋友问我一些关于如何应对反爬虫的问题.由于好多朋友都在问,因此决定写一篇此类的博客.把我知道的一些方法,分享给大家.博主属于小菜级别,玩爬虫也完全是处于兴趣爱好,如有不足之处,还望指正. 在互联网上进行自动数据采集(抓取)这件事和互联网存在的时间差不多一样长.今天大众好像更倾向于

java爬虫常用设置代理IP教程

爬虫必须用代理IP吗?很多用户认为爬虫必须要用代理IP,没有代理IP将寸步难行:也有人说,代理IP是非必须的.那么他们这样认为的理由都是什么呢?有的用户他自己写爬虫程序,公司的任务一天要爬取几十万个页面,有时任务多的时候一天要上百万,爬着爬着IP就被封了,没有代理IP根本不行,他认为没有代理ip爬虫将寸步难行.他们说很有道理,都用亲身体验来证明了自己的观点.爬虫程序从本质上来说也是个访问网页的用户而已,只不过是个不那么守规矩的特殊用户,服务器一般很不欢迎这样的特殊用户总是用各种手段发现和禁止.最

爬虫-设置代理ip

1.为什么要设置代理ip 在学习Python爬虫的时候,经常会遇见所要爬取的网站采取了反爬取技术导致爬取失败.高强度.高效率地爬取网页信息常常会给网站服务器带来巨大压力,所以同一个IP反复爬取同一个网页,就很可能被封,所以通过设置代理IP来避免被封,从而顺利爬取. 2.从那里获取免费的IP 西刺免费代理 快代理免费代理 from bs4 import BeautifulSoup import requests import random def get_ip_list(url, headers)

网络爬虫一定用代理IP吗?不用代理IP加快速度会被封吗?

网络爬虫一定用代理IP吗?好多人认为网络爬虫必须要加代理IP,没了代理IP将无路可走:也有些人认为代理IP是非需要的.这是为什么呢?不能直接用采集工具吗? 有人说,我用的采集器,用于收集一些其他网站的文章,随后筛选适用的做好加工即可,从来就没有用过代理IP,每天采集量一万篇上下.这没有代理IP照爬不误,因此网络爬虫不一定要用代理IP的. 但也有人说,企业的日常任务1天要抓取几十万个网页,有时候任务多的时候1天要一百多万,爬着爬着IP就被封了,没有代理IP根本不成.没有代理ip,网络爬虫根被就是寸

为何免费IP不适合于爬虫代理

为什么需要爬虫呢?因为爬虫可以提高我们的工作效率,帮我们收集信息并分类归纳,可谓高效智能.做过爬虫的就知道,代理IP是必不可少的,好的代理IP可以使爬虫工作效率更上一层楼,但也要找点好的代理IP也是一笔不小的花费,于是乎,把目光瞄到了免费代理IP上.网上的免费代理IP一大堆一大堆的,一般都是比较零散的,怎么收集起来呢?这对于爬虫工作者来说根本不是什么问题,写个小小的爬虫就可以把各大网站上的免费IP收集起来了.接下来就是用这些免费的代理IP来做爬虫了,然而,灾难开始了.当使用免费代理IP时,会发生

构建一个给爬虫使用的代理IP池

做网络爬虫时,一般对代理IP的需求量比较大.因为在爬取网站信息的过程中,很多网站做了反爬虫策略,可能会对每个IP做频次控制.这样我们在爬取网站时就需要很多代理IP. 代理IP的获取,可以从以下几个途径得到: 从免费的网站上获取,质量很低,能用的IP极少 购买收费的代理服务,质量高很多 自己搭建代理服务器,稳定,但需要大量的服务器资源. 本文的代理IP池是通过爬虫事先从多个免费网站上获取代理IP之后,再做检查判断IP是否可用,可用的话就存放到MongoDB中,最后展示到前端的页面上. 获取可用Pr