根据请求网页状态返回码批量过滤无效网址

#coding=gbk

import os
import httplib2
import socket

def GetWebStatus(host):
    try:
        h =httplib2.Http()
        resp, content = h.request(host)
        resultStatus =  resp.get(‘status‘)
        if(resultStatus != ‘200‘):
            #print(host+"无效")
            return 0
        else:
            #print(host+"有效")
            return 1
    except Exception:
        return 0

def ReadHost():

    obn = open(‘d:/white.txt‘, ‘rb‘);
    for line in obn:
        line = line.strip(‘\r\n‘)
        ss = ‘http://www.‘+line
        if (GetWebStatus(ss) == 0):
            fw = open("d:/wuxiao.txt","a+")
            fw.writelines(line)
            fw.writelines(‘\n‘)
            fw.close()
        else:
            fw = open("d:/out.txt","a+")
            fw.writelines(line)
            fw.writelines(‘\n‘)
            fw.close()
    obn.close();

if __name__ == "__main__":
    ReadHost();

时间： 2024-10-26 17:37:49

根据请求网页状态返回码批量过滤无效网址的相关文章

1、python爬虫 request.urlopen请求网页获取源码

# python3导入request包 from urllib import request import sys import io # 如果需要用print打印时,如果出现异常可以先设置输出环境 sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8') # 需要获取的url url = 'http://www.xxx.com/' # 头文件 headers = { "User-Agent": "M

c# HttpWebRequest与HttpWebResponse请求网页和返回网页教程

如果要使用中间的方法的话,可以访问我的帮助类完全免费开源:C# HttpHelper,帮助类,真正的Httprequest请求时无视编码,无视证书,无视Cookie,网页抓取 1.第一招,根据URL地址获取网页信息先来看一下代码 get方法 C# Code复制内容到剪贴板 public static string GetUrltoHtml(string Url,string type) { try { System.Net.WebRequest wReq = System.Net.WebReq

记录一下http请求时各个返回码的定义

·400 - 错误的请求. ·401 - 访问被拒绝.IIS 定义了许多不同的 401 错误,它们指明更为具体的错误原因.这些具体的错误代码在浏览器中显示,但不在 IIS 日志中显示: ·401.1 - 登录失败. ·401.2 - 服务器配置导致登录失败. ·401.3 - 由于 ACL 对资源的限制而未获得授权. ·401.4 - 筛选器授权失败. ·401.5 - ISAPI/CGI 应用程序授权失败. ·401.7 – 访问被 Web 服务器上的 URL 授权策略拒绝.这个错误代码为 I

简述HTTP报文请求方法和状态响应码

1. Method 请求方法,表明客户端希望服务器对资源执行的动作: 1.1. GET 向服务器请求资源. 1.2 HEAD 和GET方法的行为类似,但服务器在响应中只返回首部,不会返回实体的主体部分.这就允许客户端在未获取实际资源的情况下,对资源的首部进行检查. 可以做到: 不获取资源的情况下了解资源的情况(比如,判断器类型) 通过查看响应中的状态码,看看某个对象是否存在: 通过查看首部,测试资源是否被修改了: 1.3. PUT 与GET从服务器读取文件相反,PUT方法回向服务器写入文件.有些

503是一种HTTP状态码。英文名503 Service Unavailable与404（404 Not Found)是同属一种网页状态出错码。前者是服务器出错的一种返回状态，后者是网页程序没有相关的结果后返回的一种状态，需要优化网站的时候通常需要制作404出错页以便网站整体优化。

goldCat1 商城消息 | 百度首页新闻网页贴吧知道音乐图片视频地图百科文库进入词条搜索词条帮助近期有不法分子冒充官方收费编辑词条,百度百科严正声明:百科词条人人可编辑,词条创建和修改均免费,绝不存在官方及代理商付费代编,请勿上当受骗!查看详情 X 首页分类艺术科学自然文化地理生活社会人物经济体育历史特色百科历史上的今天数字博物馆史记·2015 城市百科二战百科非遗百科用户蝌蚪团燃梦计划百科任务百科商城权威合作合作模式常见问题联系

根据请求网页状态返回码批量过滤无效网址