Python脚本:过滤取指定链接标题是否含有指定文字,并将其输出

#coding=utf-8
import requests
import threading
import time
import os

def check(i,total):
global eu
#os.system("title Spider,Current threads: %d,URLs left: %d,URLs

exists:%d" %(threading.active_count(),total,eu))
try:
r = requests.get(i+‘/‘,timeout=10) #链接后缀,如果没有可以

不加,timeout是超时时间
status=r.content.count(‘指定文字‘)
except:
print i,‘超时‘
status = 0
if status !=0: #通过标题判断
r = 0
print i,‘成功!!!!!‘
eu+=1
f = open("成功的文件保存.txt", ‘a‘)
f.write(i+‘\n‘)
f.close()

def main():
global eu
eu = 0
total=len(open(‘等待过滤的链接.txt‘,‘rU‘).readlines())
print ‘Total URLs:%d‘ %total
for i in open("等待过滤的链接.txt").readlines():
i=i.strip(‘\n‘)
t=threading.Thread(target=check, args=(i,total))
t.setDaemon(True)
total-=1
while True:
if(threading.active_count() == 1 and total == 0 ):
print ‘All Done at %s‘ %time.strftime

("%Y-%m-%d[%H.%M.%S]")
break
elif (threading.active_count() < 200):
if (total == 0):
time.sleep(10) #10秒之后回到上一个

if判断线程是否全部结束
else:
os.system("title Spider,Current

threads: %d,URLs left: %d,URLs exists:%d" %(threading.active_count

(),total,eu))
t.start() #加载该线程
break

if __name__ == ‘__main__‘:
main()

时间: 2024-10-12 17:15:50

Python脚本:过滤取指定链接标题是否含有指定文字,并将其输出的相关文章

简易Python脚本爬取我爱我家网站信息

最近杭州房价涨得好凶,要不要跟风买房,确实是个头疼的问题,不过做点准备总是没坏处的.前段时间我找了一个我爱我家的中介了解了下情况,他提到我爱我家官网,说上面信息的时效性和准确度都不错,可以时常关注一下.本着程序员的天性,一切可以用脚本偷懒的事情就都不要麻烦自己动手了,于是就写了一个脚本,用于监测我爱我家官网的消息变动,有新的房源信息就发短信给自己. 首先分析一下可行性,爬取网站,取得HTML页面的信息当然是没什么难度的,接下来就是从中整理出有用的信息,然后发短信给自己了. 发送短信的服务,搜索了

python脚本——生成EXCEL,连接数据库,并将指定数据写入EXCEL

#!/usr/bin/python# -*- coding: utf-8 -*-#!/usr/bin/env python import MySQLdbimport sysimport xlsxwriter reload(sys)sys.setdefaultencoding('utf-8') #创建一个EXCEL文件workbook = xlsxwriter.Workbook('name.xlsx')#EXCEL的文件名 #创建一个工作表对象 worksheet_1 = workbook.add

python脚本从excel表到处数据,生成指定格式的文件

#coding:gbk #导入处理excel的模块 import xlrd #定义哪些字段需要判断,只支持时间字段 toSureColArray = ['CREATE_TIME','MODIFY_TIME'] #确定某个字段是否在数组中 def isColInArray(colName, colArray): for i in range(0, len(colArray)): if (colName == colArray[i]): return 1 else: return 0 #定义子she

python 定时爬取内容并发送报告到指定邮箱

import requests import smtplib import schedule import time from bs4 import BeautifulSoup from email.mime.text import MIMEText from email.header import Header account = input('请输入你的邮箱:') password = input('请输入你的密码:') receiver = input('请输入收件人的邮箱:') def

python爬虫:爬取百度云盘资料,保存下载地址、链接标题、链接详情

在网上看到的教程,但是我嫌弃那个教程写的乱(虽然最后显示我也没高明多少,哈哈),就随手写了一个 主要是嫌弃盘搜那些恶心的广告,这样直接下载下来,眼睛清爽多了. 用pyinstall 打包成EXE文件,就可以安安静静的下载东西了.... #refer:http://upvup.com/html/python/2015-12-13/21.html #!/usr/bin/python# -*- encoding:utf-8 -*- import requestsfrom bs4 import Beau

利用python脚本(xpath)抓取数据

有人会问re和xpath是什么关系?如果你了解js与jquery,那么这个就很好理解了. 上一篇:利用python脚本(re)抓取美空mm图片 # -*- coding:utf-8 -*- from lxml import etree html = """ <!DOCTYPE html> <html> <head lang="en"> <title>我的文档</title> <meta ht

【转载】关于Python脚本开头两行的:#!/usr/bin/python和# -*- coding: utf-8 -*-的作用 &ndash; 指定文件编码类型

下面的内容来自:http://www.cnblogs.com/blueskylcc/p/5332642.html, 对方也是转的,不过没有找到转载的出处: 1.#!/usr/bin/python 是用来说明脚本语言是 python 的 是要用 /usr/bin下面的程序(工具)python,这个解释器,来解释 python 脚本,来运行 python 脚本的. 2.# -*- coding: utf-8 -*- 是用来指定文件编码为 utf-8 的 详情可以参考:PEP 0263 - Defin

使用python脚本监控指定域名解析

python脚本:                                                                                                                  21,0-1        All #!/usr/bin/python # -*- coding: utf-8 -*- #此脚本用于检测域名解析是否正常 import os namelist = {'www.51cto.com':'218.11.0.91

一个获取指定目录下一定格式的文件名称和文件修改时间并保存为文件的python脚本

摘自:http://blog.csdn.net/forandever/article/details/5711319 一个获取指定目录下一定格式的文件名称和文件修改时间并保存为文件的python脚本 @for&ever 2010-07-03 功能: 获取指定目录下面符合一定规则的文件名称和文件修改时间,并保存到指定的文件中 脚本如下: #!/usr/bin/env python# -*- coding: utf-8 -*- '''Created on 2010-7-2 @author: fore