根据请求网页状态返回码 批量过滤无效网址

#coding=gbk

import os
import httplib2
import socket

def GetWebStatus(host):
    try:
        h =httplib2.Http()
        resp, content = h.request(host)
        resultStatus =  resp.get(‘status‘)
        if(resultStatus != ‘200‘):
            #print(host+"无效")
            return 0
        else:
            #print(host+"有效")
            return 1
    except Exception:
        return 0

def ReadHost():

    obn = open(‘d:/white.txt‘, ‘rb‘);
    for line in obn:
        line = line.strip(‘\r\n‘)
        ss = ‘http://www.‘+line
        if (GetWebStatus(ss) == 0):
            fw = open("d:/wuxiao.txt","a+")
            fw.writelines(line)
            fw.writelines(‘\n‘)
            fw.close()
        else:
            fw = open("d:/out.txt","a+")
            fw.writelines(line)
            fw.writelines(‘\n‘)
            fw.close()
    obn.close();

if __name__ == "__main__":
    ReadHost();
时间: 2024-10-26 17:37:49

根据请求网页状态返回码 批量过滤无效网址的相关文章

1、python爬虫 request.urlopen请求网页获取源码

# python3导入request包 from urllib import request import sys import io # 如果需要用print打印时,如果出现异常可以先设置输出环境 sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8') # 需要获取的url url = 'http://www.xxx.com/' # 头文件 headers = { "User-Agent": "M

c# HttpWebRequest与HttpWebResponse请求网页和返回网页教程

如果要使用中间的方法的话,可以访问我的帮助类完全免费开源:C# HttpHelper,帮助类,真正的Httprequest请求时无视编码,无视证书,无视Cookie,网页抓取 1.第一招,根据URL地址获取网页信息 先来看一下代码 get方法 C# Code复制内容到剪贴板 public static string GetUrltoHtml(string Url,string type) { try { System.Net.WebRequest wReq = System.Net.WebReq

记录一下http请求时各个返回码的定义

·400 - 错误的请求. ·401 - 访问被拒绝.IIS 定义了许多不同的 401 错误,它们指明更为具体的错误原因.这些具体的错误代码在浏览器中显示,但不在 IIS 日志中显示: ·401.1 - 登录失败. ·401.2 - 服务器配置导致登录失败. ·401.3 - 由于 ACL 对资源的限制而未获得授权. ·401.4 - 筛选器授权失败. ·401.5 - ISAPI/CGI 应用程序授权失败. ·401.7 – 访问被 Web 服务器上的 URL 授权策略拒绝.这个错误代码为 I

简述HTTP报文请求方法和状态响应码

1. Method 请求方法,表明客户端希望服务器对资源执行的动作: 1.1. GET 向服务器请求资源. 1.2 HEAD 和GET方法的行为类似,但服务器在响应中只返回首部,不会返回实体的主体部分.这就允许客户端在未获取实际资源的情况下,对资源的首部进行检查. 可以做到: 不获取资源的情况下了解资源的情况(比如,判断器类型) 通过查看响应中的状态码,看看某个对象是否存在: 通过查看首部,测试资源是否被修改了: 1.3. PUT 与GET从服务器读取文件相反,PUT方法回向服务器写入文件.有些

503是一种HTTP状态码。英文名503 Service Unavailable与404(404 Not Found)是同属一种网页状态出错码。前者是服务器出错的一种返回状态,后者是网页程序没有相关的结果后返回的一种状态,需要优化网站的时候通常需要制作404出错页以便网站整体优化。

goldCat1 商城 消息 | 百度首页 新闻网页贴吧知道音乐图片视频地图百科文库 进入词条搜索词条帮助 近期有不法分子冒充官方收费编辑词条,百度百科严正声明:百科词条人人可编辑,词条创建和修改均免费,绝不存在官方及代理商付费代编,请勿上当受骗!查看详情 X 首页 分类 艺术 科学 自然 文化 地理 生活 社会 人物 经济 体育 历史 特色百科 历史上的今天 数字博物馆 史记·2015 城市百科 二战百科 非遗百科 用户 蝌蚪团 燃梦计划 百科任务 百科商城 权威合作 合作模式 常见问题 联系

python爬取网页时返回http状态码HTTP Error 418

问题:urllib.error.HTTPError: HTTP Error 418: 问题描述:当我使用Python的request爬取网页时返回了http状态码为418, 错误描述:经过网上查询得知,418的意思是被网站的反爬程序返回的,网上解释为,418 I'm a teapotThe HTTP 418 I'm a teapot client error response code indicates that the server refuses to brew coffee becaus

每日一得--HTTP请求常见的返回状态码

200 - 服务器成功返回网页 404 - 请求的网页不存在 503 - 服务不可用 详细分解: 1xx(临时响应) 表示临时响应并需要请求者继续执行操作的状态代码. 代码   说明 100   (继续) 请求者应当继续提出请求. 服务器返回此代码表示已收到请求的第一部分,正在等待其余部分. 101   (切换协议) 请求者已要求服务器切换协议,服务器已确认并准备切换. 2xx (成功) 表示成功处理了请求的状态代码. 代码   说明 200   (成功)  服务器已成功处理了请求. 通常,这表

HTTP请求常见状态码

HTTP状态码(HTTP Status Code) 一些常见的状态码为: 1xx(临时响应)表示临时响应并需要请求者继续执行操作的状态代码.代码 说明 100 (继续) 请求者应当继续提出请求. 服务器返回此代码表示已收到请求的第一部分,正在等待其余部分. 101 (切换协议) 请求者已要求服务器切换协议,服务器已确认并准备切换. 2xx (成功)表示成功处理了请求的状态代码.代码 说明 200 (成功) 服务器已成功处理了请求. 通常,这表示服务器提供了请求的网页. 201 (已创建) 请求成

网络请求返回码说明

使用ASP.NET/PHP/JSP 或者javascript都会用到http的不同状态,一些常见的状态码为: 200 – 服务器成功返回网页 404 – 请求的网页不存在 503 – 服务不可用 1xx(临时响应) 表示临时响应并需要请求者继续执行操作的状态代码. 100 (继续) 请求者应当继续提出请求. 服务器返回此代码表示已收到请求的第一部分,正在等待其余部分. 101 (切换协议) 请求者已要求服务器切换协议,服务器已确认并准备切换. 2xx (成功) 表示成功处理了请求的状态代码. 2