分享一个获取代理ip的python函数

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

#coding:utf-8

from bs4 import BeautifulSoup

import requests

import random

def getproxyip():

headers = {

‘Accept‘:‘text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8‘,

‘Accept-Encoding‘:‘gzip,deflate,sdch‘,

‘Host‘:‘www.ip-adress.com‘,

‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.3; WOW64; rv:24.0) Gecko/20100101 Firefox/24.0‘

}

proxy_url = ‘http://www.ip-adress.com/Proxy_Checker/‘

proxy_req = requests.get(proxy_url,headers=headers)

proxy_soup = BeautifulSoup(proxy_req.text)

proxy_ip = proxy_soup.find_all(‘tr‘,{‘class‘:‘yellow‘})

return proxy_ip[random.randrange(0,4)].td.text

python编写的自动获取代理IP列表的爬虫

#/usr/local env python
#coding utf-8
import os
import urllib
from bs4 import BeautifulSoup

def log():
    f=open("f:\daili.txt",‘a‘)
    f.write(ip)
    f.close()

def fenxi():
    page = urllib.urlopen(url)
    data = page.read()
    soup=BeautifulSoup(data)
    #print soup
    list=soup.find_all(‘span‘)
    for i in list:
        #print i.get_text()
        global ip
        ip= i.get_text()
        s="\n".join(ip.split(‘#‘))
        print s
        log()
for i in range(1,10):
    if i==1:
        url = ‘http://www.youdaili.cn/Daili/http/556.html‘
        print url
        fenxi()
    else:
        url = ‘http://www.youdaili.cn/Daili/http/556_‘+str(i)+‘.html‘
        print url
        fenxi()

       运行结果：
||||||||IP知识库最新代理IPwww.Youdaili.Cn07-09免费代理国内外http代理ip地址1.186.200.211:[email protected]#印度

2.135.238.92:[email protected]#哈萨克斯坦

2.181.177.7:[email protected]#伊朗

2.183.155.2:[email protected]#伊朗

时间： 2024-10-01 06:34:41

分享一个获取代理ip的python函数的相关文章

python编写的自动获取代理IP列表的爬虫-chinaboywg-ChinaUnix博客

python编写的自动获取代理IP列表的爬虫-chinaboywg-ChinaUnix博客 undefined Python多线程抓取代理服务器 | Linux运维笔记 undefined java如果模拟请求重启路由器(网络爬虫常用),还有java如何下载图片 - baidu_nod的专栏 - 博客频道 - CSDN.NET undefined [多线程数据采集]使用Jsoup抓取数据+破解屏蔽ip访问. - MiniBu - 开源中国社区 undefined 单linux服务器同时拨多条AD

python爬虫之反爬虫（随机user-agent，获取代理ip，检测代理ip可用性）

python爬虫之反爬虫(随机user-agent,获取代理ip,检测代理ip可用性) 目录随机User-Agent 获取代理ip 检测代理ip可用性随机User-Agent fake_useragent库,伪装请求头 from fake_useragent import UserAgent ua = UserAgent() # ie浏览器的user agent print(ua.ie) # opera浏览器 print(ua.opera) # chrome浏览器 print(ua.chro

获取代理IP地址

今天在开源中国上看到有个有写了个小程序,用来获取代理IP地址.用的beautifulsoup. 自己动手用正则重写了一下. #!/usr/bin/python import requests import re pattern=re.compile(r'(\d+)\D(\d+)\D(\d+)\D(\d+)\D(\d+)') headers={'Host':"www.ip-adress.com", 'User-Agent':"Mozilla/5.0 (Windows NT 6.

Python3.x：获取代理ip

Python3.x:获取代理ip 获取代理ip,代码: # python3 # 国内高匿代理IP网站:http://www.xicidaili.com/nn/ # 爬取首页代理IP地址 from bs4 import BeautifulSoup import requests import random # 获取首页IP列表 def get_ip_list(url, headers): web_data = requests.get(url, headers=headers) soup = Be

php 分享一个object(stdclass)转数组的函数

经常调用一个借口之后返回的内容是json串,利用php函数json_decode() 解析json串之后得到的数据类型为object(stdclass) 这是一个对象,要取其中的内容也可以取得,利用object->属性可以取得,但是习惯数组处理数据,下面是一个object(stdclass)转成数组的函数 function object_array($array){ if(is_object($array)){ $array = (array)$array; } if(is_arra

python获取代理IP

利用requests库获取代理,用Beautiful库解析网页筛选ip # -*- coding: utf-8 -*- import requests from bs4 import BeautifulSoup from threading import Thread headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:55.0) Gecko/20100101 Firefox/55.0'} #定义获取IP函数

获取代理IP地址(BeautifulSoup)

前天用正则的方式获取网站的代理IP数据,今天为了学习BeautifulSoup,用BeautifulSoup实现了一下. 1 #!/usr/bin/python 2 3 import requests 4 from bs4 import BeautifulSoup 5 6 7 headers={'Host':"www.ip-adress.com", 8 'User-Agent':"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:34.0) Gec

kylin类库之获取代理IP

1 namespace Kylin.GetHttpIp 2 { 3 public class kylinIp 4 { 5 ///爬虫获取网站的高匿代理IP 6 ///目前使用的网站有: 7 ///http://www.xdaili.cn/freeproxy 8 ///http://www.xicidaili.com/nn/ 9 ///http://www.goubanjia.com/free/gngn/index.shtml 10 /// 11 12 ///第一个网站可以抓包:http://ww

.Net——做一个简单代理IP池

一.缘由. 抓取数据时,有一些网站设置了一些反爬虫设置,进而将自己本地 IP 地址拉入系统黑名单.从而达到禁止本地 IP 访问数据的请求. 二.思路. 根据其他代理 IP 网站,进行一个免费的代理 IP 进行搜集,然后进行统一验证管理如下图: 三.抓取包含代理 IP 的网站页面. 抓取来网站代码之后,利用 HtmlAgilityPack 进行 html 的解析.并将代理 IP 验证,存放队列等操作. 四.直接看效果图. 运行效果. 浏览器请求 :http://127.0.0.1:12

猜你喜欢

java流程控制语句

public class Demo2 { public static void main(String[] args) { // if语句的使用:多用于范围的判断 int x=3; int y=10; ...

Unity中各类物理投射性能横向比较

测试工程下载地址: http://files.cnblogs.com/files/hont/RaycastTestProj.rar 测试方式: 在某半径内随机若干Cube,然后以中心点发射各种投射进行 ...

第9章多态和抽象

1.多态:在Java中,子类的对象可以替代父类的对象使用.即使用父类类型的引用指向子类的对象. 2.一个引用类型变量可能指向(引用)多种不同类型的对象. 3.一个引用类型变量如果声明为父类的类型,但实 ...

android项目之记事本（12） ----- 图片的等比例缩放及给图片添加边框

本文是自己学习所做笔记,欢迎转载,但请注明出处:http://blog.csdn.net/jesson20121020 在Android的UI开发中经常会遇到图片的缩放,就比如记事本,现在的图片都比较 ...

Linux文件属性命令chattr

该命令只有root有权限使用,并且设置后对root用户有效chattr [+-=] 选项文件或目录常见选项说明:A:文件或目录的 atime (access time)不可被修改(modified) ...

MySQL存储过程实例

一.创建MySQL数据库函数 TCC:无参数,查询fruit表中的所有数据 : TAA:两个参数,查询fruit总共有多少行:查询ids为某个值时水果表的数据 TDD:两个参数,查询ids不等于某个值 ...

Mac下GitHub安装及使用教程

首先介绍下Git和Github Centralized Version Control Systems,简称 CVCS 集中化的版本控制系统这类系统诸如 CVS Subversion以及Perfor ...

poj1321——dfs回溯

POJ 1321 DFS回溯+递归枚举棋盘问题 Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 24813 Accep ...

《Linux命令行与shell脚本编程大全》学习笔记（转）

第一部分:Linux命令行<Linux命令行与shell脚本编程大全> 第一章:初识Linux shell<Linux命令行与shell脚本编程大全> 第二章:走进shell& ...

httpd配置文件详解（v2.2)

# # This is the main Apache server configuration file. It contains the # configuration directives t ...

webViewDidFinishLoad 执行多次的问题

在做网页加载进度条的时候,发现UIWebViewDelegate中webViewDidFinishLoad方法会执行多次: - (void)webViewDidStartLoad:(UIWebView ...

OC基础笔记——继承（广州黑马一期）

OC中的继承机制是单继承的,一个子类只能有一个父类 OC支持多层继承的,A 继承 NSObject,B继承A这就称为多层继承在继承体系中方法调用的顺序 1.在自己类中找 2.如果没有,去父类中找 3 ...

rhel7.1全自动无人值守安装

yum install dhcp tftp-server system-config-kickstart syslinux -y 打开tftp-server 的端口修改tftp-server 配置文 ...

opencv源码分析：icvGetTrainingDataCallback简介

/* *函数icvGetTrainingDataCallback介绍 *功能:对所有样本计算特征编号从first开始的num个特征,并保存到mat里. *输入: *CvMat* mat矩阵样本总数个行 ...

bootstrap-响应式图片、辅助类样式

响应式图片: <div class="container">  <div class=&qu ...

create table b1 as select * from b建表锁表测试

A: create table a1 like a; insert into a1 as select * from a; B: create table b1 as select * from b; ...

老李推荐：破坏性创新第一原则 2

以下就是你应该熟读的脚本:”老大,别在意我们,我们就是在瞎搞些不入流的奇技淫巧.我们根本不值得您花时间费神来关注了,您最好还是将时间花在如何获取和满足您的优质用户,以及如何将您的利润给提升上去吧.“( ...

ssh登陆时,参数直接加入密码

参考: [随笔]ssh登录时如何直接在参数中加入登录密码安装 sshpass

程序员的基础生存技能 -- 关于搜索引擎的小贴士如果票选近二十年最伟大的发明,我相信搜索引擎肯定会占据一个不容小觑的位置,它不单是一项发明,更是一项成就,最大程度消灭了信息的不平等.既然人人都可以接 ...

wpf listbox 内的内容显示问题，需要设置里面的itemsPresenter

有时候控件并非维护本身逻辑,而是依赖于父子元素的,如了上诉的ContentPresenter,我们还有一个非常常用的ListBox控件,因为继承自ItemsControl,所以有一个ItemsPane ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.