分享一个获取代理ip的python函数


1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

#coding:utf-8

from bs4 import BeautifulSoup

import requests

import random

def getproxyip():

headers = {

‘Accept‘:‘text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8‘,

‘Accept-Encoding‘:‘gzip,deflate,sdch‘,

‘Host‘:‘www.ip-adress.com‘,

‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.3; WOW64; rv:24.0) Gecko/20100101 Firefox/24.0‘

}

proxy_url = http://www.ip-adress.com/Proxy_Checker/

proxy_req = requests.get(proxy_url,headers=headers)

proxy_soup = BeautifulSoup(proxy_req.text)

proxy_ip = proxy_soup.find_all(‘tr‘,{‘class‘:‘yellow‘})

return proxy_ip[random.randrange(0,4)].td.text

python编写的自动获取代理IP列表的爬虫

#/usr/local env python
#coding utf-8
import os
import urllib
from bs4 import BeautifulSoup

def log():
    f=open("f:\daili.txt",‘a‘)
    f.write(ip)
    f.close()

def fenxi():
    page = urllib.urlopen(url)
    data = page.read()
    soup=BeautifulSoup(data)
    #print soup
    list=soup.find_all(‘span‘)
    for i in list:
        #print i.get_text()
        global ip
        ip= i.get_text()
        s="\n".join(ip.split(‘#‘))
        print s
        log()  
for i in range(1,10):
    if i==1:
        url = ‘http://www.youdaili.cn/Daili/http/556.html‘
        print url
        fenxi()
    else:
        url = ‘http://www.youdaili.cn/Daili/http/556_‘+str(i)+‘.html‘
        print url
        fenxi()
        
       运行结果:
||||||||IP知识库最新代理IPwww.Youdaili.Cn07-09免费代理国内外http代理ip地址1.186.200.211:[email protected]#印度

2.135.238.92:[email protected]#哈萨克斯坦

2.181.177.7:[email protected]#伊朗

2.183.155.2:[email protected]#伊朗

时间: 2024-10-01 06:34:41

分享一个获取代理ip的python函数的相关文章

python编写的自动获取代理IP列表的爬虫-chinaboywg-ChinaUnix博客

python编写的自动获取代理IP列表的爬虫-chinaboywg-ChinaUnix博客 undefined Python多线程抓取代理服务器 | Linux运维笔记 undefined java如果模拟请求重启路由器(网络爬虫常用),还有java如何下载图片 - baidu_nod的专栏 - 博客频道 - CSDN.NET undefined [多线程数据采集]使用Jsoup抓取数据+破解屏蔽ip访问. - MiniBu - 开源中国社区 undefined 单linux服务器同时拨多条AD

python爬虫之反爬虫(随机user-agent,获取代理ip,检测代理ip可用性)

python爬虫之反爬虫(随机user-agent,获取代理ip,检测代理ip可用性) 目录 随机User-Agent 获取代理ip 检测代理ip可用性 随机User-Agent fake_useragent库,伪装请求头 from fake_useragent import UserAgent ua = UserAgent() # ie浏览器的user agent print(ua.ie) # opera浏览器 print(ua.opera) # chrome浏览器 print(ua.chro

获取代理IP地址

今天在开源中国上看到有个有写了个小程序,用来获取代理IP地址.用的beautifulsoup. 自己动手用正则重写了一下. #!/usr/bin/python import requests import re pattern=re.compile(r'(\d+)\D(\d+)\D(\d+)\D(\d+)\D(\d+)') headers={'Host':"www.ip-adress.com", 'User-Agent':"Mozilla/5.0 (Windows NT 6.

Python3.x:获取代理ip

Python3.x:获取代理ip 获取代理ip,代码: # python3 # 国内高匿代理IP网站:http://www.xicidaili.com/nn/ # 爬取首页代理IP地址 from bs4 import BeautifulSoup import requests import random # 获取首页IP列表 def get_ip_list(url, headers): web_data = requests.get(url, headers=headers) soup = Be

php 分享一个object(stdclass)转数组的函数

经常调用一个借口之后 返回的内容是json串,利用php函数json_decode() 解析json串之后得到的 数据类型为object(stdclass) 这是一个对象,要取其中的内容也可以 取得,利用object->属性  可以取得,但是习惯数组处理数据,下面是一个object(stdclass)转成 数组的函数 function object_array($array){ if(is_object($array)){ $array = (array)$array; } if(is_arra

python获取代理IP

利用requests库获取代理,用Beautiful库解析网页筛选ip # -*- coding: utf-8 -*- import requests from bs4 import BeautifulSoup from threading import Thread headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:55.0) Gecko/20100101 Firefox/55.0'} #定义获取IP函数

获取代理IP地址(BeautifulSoup)

前天用正则的方式获取网站的代理IP数据,今天为了学习BeautifulSoup,用BeautifulSoup实现了一下. 1 #!/usr/bin/python 2 3 import requests 4 from bs4 import BeautifulSoup 5 6 7 headers={'Host':"www.ip-adress.com", 8 'User-Agent':"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:34.0) Gec

kylin类库之获取代理IP

1 namespace Kylin.GetHttpIp 2 { 3 public class kylinIp 4 { 5 ///爬虫获取网站的高匿代理IP 6 ///目前使用的网站有: 7 ///http://www.xdaili.cn/freeproxy 8 ///http://www.xicidaili.com/nn/ 9 ///http://www.goubanjia.com/free/gngn/index.shtml 10 /// 11 12 ///第一个网站可以抓包:http://ww

.Net——做一个简单代理IP池

一.缘由. 抓取数据时,有一些网站 设置了一些反爬虫设置,进而将自己本地 IP 地址拉入系统黑名单.从而达到禁止本地 IP 访问数据的请求. 二.思路. 根据其他 代理 IP 网站,进行一个免费的代理 IP 进行搜集,然后进行统一 验证 管理 如下图: 三.抓取包含代理 IP 的网站页面. 抓取来网站代码之后,利用 HtmlAgilityPack 进行 html 的解析.并将代理 IP 验证,存放队列等操作. 四.直接看效果图. 运行效果. 浏览器 请求 :http://127.0.0.1:12