Python获取免费的可用代理

在使用爬虫多次爬取同一站点时，常常会被站点的ip反爬虫机制给禁掉，这时就能够通过使用代理来解决。眼下网上有非常多提供最新免费代理列表的站点。这些列表里非常多的代理主机是可用的，可是也有一些是不可用的，因此须要进一步筛选。利用Python能够非常方便地筛选出可用的代理列表。

以提供免费代理信息的站点IPCN 国家地区免费代理为例，这里给出一个爬取此站点上提供的代理信息并筛选可用代理主机的程序。主要用到requests和lxml，详细代码为：

# -*- coding: utf-8 -*-

import requests
from lxml import etree

def get_proxies_from_site():
    url = ‘http://proxy.ipcn.org/country/‘
    xpath = ‘/html/body/div[last()]/table[last()]/tr/td/text()‘

    r = requests.get(url)
    tree = etree.HTML(r.text)

    results = tree.xpath(xpath)
    proxies = [line.strip() for line in results]

    return proxies

#使用http://lwons.com/wx网页来測试代理主机是否可用
def get_valid_proxies(proxies, count):
    url = ‘http://lwons.com/wx‘
    results = []
    cur = 0
    for p in proxies:
        proxy = {‘http‘: ‘http://‘ + p}
        succeed = False
        try:
            r = requests.get(url, proxies=proxy)
            if r.text == ‘default‘:
                succeed = True
        except Exception, e:
            print ‘error:‘, p
            succeed = False
        if succeed:
            print ‘succeed:‘, p
            results.append(p)
            cur += 1
            if cur >= count:
                break

if __name__ == ‘__main__‘:
    print ‘get ‘ + str(len(get_valid_proxies(get_proxies_from_site(), 20))) + ‘ proxies‘

时间： 2024-11-05 10:59:58

Python获取免费的可用代理的相关文章

Python实现爬取可用代理IP

在实现爬虫时,动态设置代理IP可以有效防止反爬虫,但对于普通爬虫初学者需要在代理网站上测试可用代理IP.由于手动测试过程相对比较繁琐,且重复无用过程故编写代码以实现动态抓取可用的代理IP.动态代理IP保存在Json文件中,以供后续具体项目爬虫使用,但所爬取的代理IP是免费IP,所以可能出现当时爬取能用,过一段时间无法使用的情况. 1) 先从西刺代理网站上爬取前10页,速度较快的IP,保存到proxies数组中,其中proxy使用的是requests.get()可直接使用字典格式 1 print(

使用Python自动获取可用代理列表

今天闲来无事,随便写的一个从代理发布网站上提取可用代理列表的脚本.运行后,可以获取 http://cn-proxy.com/ 发布的可用代理ip和端口的列表. 运行效果如下: 源代码如下,请指教: # -*- coding: utf-8 -*- # Python: 2.7.8 # Platform: Windows # Author: wucl # Program: 从代理网站获取可用代理 # History: 2015.6.11 import urll

python扫描proxy并获取可用代理ip列表

mac或linux下可以work的代码如下: # coding=utf-8 import requests import re from bs4 import BeautifulSoup as bs import Queue import threading import random import re headers_useragents = [] headers_referers = [] headers_referers.append('http://www.google.com/?q=

Python网络编程小例子：使用python获取网站域名信息

Whois简介 whois(读作"Who is",非缩写)是用来查询域名的IP以及所有者等信息的传输协议.简单说,whois就是一个用来查询域名是否已经被注册,以及注册域名的详细信息的数据库(如域名所有人.域名注册商).通过whois来实现对域名信息的查询.早期的whois查询多以命令列接口存在,但是现在出现了一些网页接口简化的线上查询工具,可以一次向不同的数据库查询.网页接口的查询工具仍然依赖whois协议向服务器发送查询请求,命令列接口的工具仍然被系统管理员广泛使用.whois通常

Python获取远程文件大小函数示例

分享一个Python获取远程文件大小的函数代码,简单实用,是学习python编程的基础实例. 代码: def getRemoteFileSize(url, proxy=None): """ 通过content-length头获取远程文件大小 url - 目标文件URL proxy - 代理 """ opener = urllib2.build_opener() if proxy: if url.lower().startswith('https:

Python 获取网易云音乐热门评论

--> html { line-height: 1.6 } body { font-family: -apple-system-font, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei", sans-serif; background-color: #f3f3f3; line-height: inherit } body.ric

python获取本机IP、mac地址、计算机名

在python中获取ip地址和在php中有很大不同,在php中往往比较简单.那再python中怎么做呢? 我们先来看一下python 获得本机MAC地址: 1 2 3 4 import uuid def get_mac_address(): mac=uuid.UUID(int = uuid.getnode()).hex[-12:] return ":".join([mac[e:e+2] for e in range(0,11,2)]) 下面再来看一下python获取

python获取微信公共平台消息列表和用户头像

转载需注明原文地址:http://blog.csdn.net/btyh17mxy/article/details/25207889 刚写的模拟登陆的方式从获取微信公众平台消息列表和用户头像的库,之后还会继续增加相关功能,github地址https://github.com/btyh17mxy/wxwall #!/usr/bin/env python # coding: UTF-8 import json import hashlib import re import random import

使用python获取webservice数据并输出到文件

上头要求设置TCP备案检查,给了个WEBSERVICE接口.查了2天,才确认还是python比较好用,我这水平也就写个脚本把数据导出,过滤检索还是用的shell.写此文备忘.WEBSERVICE接口脚本如下: #! /usr/bin/python #coding:utf-8 import codecs import suds def main(file_name, out_file): url = 'http://121.14.4.210:8088/icpautobj/ws/getIcp?wsd