IP地址爬取

ip_spider.py= = =

#!/usr/bin/python
# coding: utf-8
import os
import sys
import requests
import re
import urllib

import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )

def getUrl(urlIP):
    url = ‘http://www.123cha.com/ip/?q=%s‘ % urlIP
    r = requests.get(url)
    reg = r‘<td class="tg-data">(.+?.)</td>‘
    gre = re.compile(reg)
    number = re.findall(gre,r.text)
    print number[0]
    print number[2]
    fsock = open(‘ipaddress.txt‘, ‘a+‘)
    fsock.write("%s|%s\n" % (str(number[0]),str(number[2])))

if __name__ == ‘__main__‘:

    file_object = open(‘ipfile3‘)
    list_of_all_the_lines = file_object.readlines( )
    # print list_of_all_the_lines
    for dd in list_of_all_the_lines:
        getUrl(‘%s‘ % dd)

  

时间: 2024-07-31 15:59:50

IP地址爬取的相关文章

淘宝地址爬取及UI展示

淘宝地址爬取及UI展示 淘宝国家省市区街道获取 参考 foxiswho 的 taobao-area-php 部分代码,改由c#重构. 引用如下: Autofac MediatR Swagger HangFire 生成街道数据爬取任务. 演示 https://akinix.github.io/Taobao-Area-CSharp/index.html 前端源码稍后上传,请关注 deepfunc Release 生成的release中包含省市区县.js和街道.json. 下载地址 目的 为了方便获取

.Net一个很有用的帮助类,包含获取获取浏览器版本号、 获取操作系统版本号、获取客户端IP地址、取客户端真实IP、获取公网IP、判断是否是IP格式

using System;using System.Collections.Generic;using System.Linq;using System.Text;using System.Text.RegularExpressions;using System.Threading.Tasks;using System.Web; namespace ZC.Common.Log{    class UserHelper    { #region 获取浏览器版本号 /// <summary>   

python设置代理IP来爬取拉勾网上的职位信息,

import requests import json import time position = input('输入你要查询的职位:') url = 'https://www.lagou.com/jobs/positionAjax.json?city=%E6%9D%AD%E5%B7%9E&needAddtionalResult=false' headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/5

某代理网站免费IP地址抓取测试

源代码在测试中... http://www.AAA.com/nn/|    122.6.107.107|    8888|    山东日照|    高匿|    HTTP|    |    |    1天|    16-05-31 12:27|    |    182.45.84.129|    8888|    山东|    高匿|    HTTP|    |    |    11小时|    16-05-31 12:27|    |    123.175.53.50|    8888|  

Python骚操作!利用Python来爬取IP代理!偷偷给文章刷阅读量!

二.代码 代码直接参考了下文,更多解读参见原文,其中将ip提取部分修改了下,并将用来测试IP是否可用的百度url改成了CSDN博客里文章的url. 进群:548377875   即可获取数十套PDF哦! 另外也试了下豆瓣......嗯,立马就"403",上不去了,所以看了本文想刷其他网站数据的朋友,还是三思而行,如果账号被封,概不负责哦.==. 代码(py3.5版本):源码奉上! # coding: utf-8 import urllib.request import urllib.p

python爬取准备四 定义Opener和设置代理IP

Handler和Opener Handler处理器和自定义Opener opener是urllib2.OpenerDirector的实例,我们之前一直在使用urlopen,它是一个特殊的opener(也就是我们构建好的). 但是urlopen()方法不支持代理.cookie等其他的HTTP/GTTPS高级功能.所有要支持这些功能: 1.使用相关的Handler处理器来创建特定功能的处理器对象: 2.然后通过urllib2.build_opener()方法使用这些处理器对象,创建自定义opener

python爬虫--爬取某网站电影下载地址

前言:因为自己还是python世界的一名小学生,还有很多路要走,所以本文以目的为向导,达到目的即可,对于那些我自己都没弄懂的原理,不做去做过多解释,以免误人子弟,大家可以网上搜索. 友情提示:本代码用到的网址仅供交流学习使用,如有不妥,请联系删除. 背景:自己有台电脑要给老爸用,老爷子喜欢看一些大片,但是家里网络环境不好,就想批量下载一些存到电脑里.但是目前大部分的网站都是这样的, 需要一个个地点进去,才能看到下载地址 如果我要下载100部电影,那肯定手都要点断了,于是便想把这些地址给爬取出来,

某鱼直播数据全站爬取

前言 本次爬取使用了代理IP,爬取全站为1个小时,当然也可以不用代理proxy,但是要设置爬取速度 time.sleep(5) 先附上完整代码,下面有详解 import csv from fake_useragent import UserAgent import json from lxml import etree import requests # 代理服务器 proxyHost = "http-dyn.abuyun.com" proxyPort = "9020&quo

&nbsp; &nbsp; &nbsp; CCNA入门基础之 IP地址

CCNA入门基础之 IP地址 IP(Internet Protocol),意思是"网络之间互连的协议",也就是为计算机网络相互连接进行通信而设计的协议.在因特网中,它是能使连接到网上的所有计算机网络实现相互通信的一套规则,规定了计算机在因特网上进行通信时应当遵守的规则.任何厂家生产的计算机系统,只要遵守IP协议就可以与因特网互连互通.IP地址是指互联网协议地址(Internet Protocol Address,又译为网际协议地址).IP地址是IP协议提供的一种统一主机编址的方式的地址