Python脚本:过滤取指定链接标题是否含有指定文字，并将其输出

#coding=utf-8
import requests
import threading
import time
import os

def check(i,total):
global eu
#os.system("title Spider,Current threads: %d,URLs left: %d,URLs

exists:%d" %(threading.active_count(),total,eu))
try:
r = requests.get(i+‘/‘,timeout=10) #链接后缀，如果没有可以

不加，timeout是超时时间
status=r.content.count(‘指定文字‘)
except:
print i,‘超时‘
status = 0
if status !=0: #通过标题判断
r = 0
print i,‘成功!!!!!‘
eu+=1
f = open("成功的文件保存.txt", ‘a‘)
f.write(i+‘\n‘)
f.close()

def main():
global eu
eu = 0
total=len(open(‘等待过滤的链接.txt‘,‘rU‘).readlines())
print ‘Total URLs:%d‘ %total
for i in open("等待过滤的链接.txt").readlines():
i=i.strip(‘\n‘)
t=threading.Thread(target=check, args=(i,total))
t.setDaemon(True)
total-=1
while True:
if(threading.active_count() == 1 and total == 0 ):
print ‘All Done at %s‘ %time.strftime

("%Y-%m-%d[%H.%M.%S]")
break
elif (threading.active_count() < 200):
if (total == 0):
time.sleep(10) #10秒之后回到上一个

if判断线程是否全部结束
else:
os.system("title Spider,Current

threads: %d,URLs left: %d,URLs exists:%d" %(threading.active_count

(),total,eu))
t.start() #加载该线程
break

if __name__ == ‘__main__‘:
main()

时间： 2024-10-12 17:15:50

Python脚本:过滤取指定链接标题是否含有指定文字，并将其输出的相关文章

简易Python脚本爬取我爱我家网站信息

最近杭州房价涨得好凶,要不要跟风买房,确实是个头疼的问题,不过做点准备总是没坏处的.前段时间我找了一个我爱我家的中介了解了下情况,他提到我爱我家官网,说上面信息的时效性和准确度都不错,可以时常关注一下.本着程序员的天性,一切可以用脚本偷懒的事情就都不要麻烦自己动手了,于是就写了一个脚本,用于监测我爱我家官网的消息变动,有新的房源信息就发短信给自己. 首先分析一下可行性,爬取网站,取得HTML页面的信息当然是没什么难度的,接下来就是从中整理出有用的信息,然后发短信给自己了. 发送短信的服务,搜索了

python脚本——生成EXCEL，连接数据库，并将指定数据写入EXCEL

#!/usr/bin/python# -*- coding: utf-8 -*-#!/usr/bin/env python import MySQLdbimport sysimport xlsxwriter reload(sys)sys.setdefaultencoding('utf-8') #创建一个EXCEL文件workbook = xlsxwriter.Workbook('name.xlsx')#EXCEL的文件名 #创建一个工作表对象 worksheet_1 = workbook.add

python脚本从excel表到处数据，生成指定格式的文件

#coding:gbk #导入处理excel的模块 import xlrd #定义哪些字段需要判断,只支持时间字段 toSureColArray = ['CREATE_TIME','MODIFY_TIME'] #确定某个字段是否在数组中 def isColInArray(colName, colArray): for i in range(0, len(colArray)): if (colName == colArray[i]): return 1 else: return 0 #定义子she

python 定时爬取内容并发送报告到指定邮箱

import requests import smtplib import schedule import time from bs4 import BeautifulSoup from email.mime.text import MIMEText from email.header import Header account = input('请输入你的邮箱:') password = input('请输入你的密码:') receiver = input('请输入收件人的邮箱:') def

python爬虫：爬取百度云盘资料，保存下载地址、链接标题、链接详情

在网上看到的教程,但是我嫌弃那个教程写的乱(虽然最后显示我也没高明多少,哈哈),就随手写了一个主要是嫌弃盘搜那些恶心的广告,这样直接下载下来,眼睛清爽多了. 用pyinstall 打包成EXE文件,就可以安安静静的下载东西了.... #refer:http://upvup.com/html/python/2015-12-13/21.html #!/usr/bin/python# -*- encoding:utf-8 -*- import requestsfrom bs4 import Beau

利用python脚本（xpath）抓取数据

有人会问re和xpath是什么关系?如果你了解js与jquery,那么这个就很好理解了. 上一篇:利用python脚本(re)抓取美空mm图片 # -*- coding:utf-8 -*- from lxml import etree html = """ <!DOCTYPE html> <html> <head lang="en"> <title>我的文档</title> <meta ht

【转载】关于Python脚本开头两行的：#!/usr/bin/python和# -- coding: utf-8 --的作用 – 指定文件编码类型

下面的内容来自:http://www.cnblogs.com/blueskylcc/p/5332642.html, 对方也是转的,不过没有找到转载的出处: 1.#!/usr/bin/python 是用来说明脚本语言是 python 的是要用 /usr/bin下面的程序(工具)python,这个解释器,来解释 python 脚本,来运行 python 脚本的. 2.# -*- coding: utf-8 -*- 是用来指定文件编码为 utf-8 的详情可以参考:PEP 0263 - Defin

使用python脚本监控指定域名解析

python脚本: 21,0-1 All #!/usr/bin/python # -*- coding: utf-8 -*- #此脚本用于检测域名解析是否正常 import os namelist = {'www.51cto.com':'218.11.0.91

一个获取指定目录下一定格式的文件名称和文件修改时间并保存为文件的python脚本

摘自:http://blog.csdn.net/forandever/article/details/5711319 一个获取指定目录下一定格式的文件名称和文件修改时间并保存为文件的python脚本 @for&ever 2010-07-03 功能: 获取指定目录下面符合一定规则的文件名称和文件修改时间,并保存到指定的文件中脚本如下: #!/usr/bin/env python# -*- coding: utf-8 -*- '''Created on 2010-7-2 @author: fore

猜你喜欢

Xcode 利用VVDocumenter 生成注释通过设置再生成注释文档

在写代码的时候,如果按照一定的规范在头文件里写上注释的话, 就可以利用Xcode的文档自动输出功能生成一份完整的HTML项目文档. 生成的格式和Apple Developer网站上的API文档几乎是一 ...

算法导论学习笔记－（1）

一个ACM若菜,趁着ACM淡季,开始学习算法导论了,经过一年的ACM学习,逐渐的发现,学东西,深入才是王道,以前学习一个算法,总是看懂了就开始做题,到后来才发现很多题目,会算法,却不知道是用这个算法, ...

linux登录提示修改

通常登录修改提示修改两个地方即可,如下:1.profile /etc/profile或者~/.profile.~/.bashrc (bash shell有效)2.motd /etc/motd 如下截图 ...

事件流:(1)事件冒泡:先响应事件源,再响应父容器: (2)事件捕获:先响应父容器,再响应事件源: (3)事件处理:可以先响应事件源,也可以先响应父容器. 事件处理程序分现代事件处理和传统事件处理,二 ...

Golang Import使用入门

我们在写Go代码的时候经常用到import这个命令用来导入包文件,而我们经常看到的方式参考如下: import( "fmt" ) 然后我们代码里面可以通过如下的方式调用 f ...

【转】Kafka 之中级

摘要: Kafka配置介绍,原理介绍及生产者,消费者Java基本使用方法. 1. 配置 ? Broker主要配置参数默认值说明(解释) broker.id =0 每一个broker在 ...

Atitit 自然语言处理原理与实现 attilax总结

Atitit 自然语言处理原理与实现 attilax总结 1.1. 中文分词原理与实现 111 1.2. 英文分析 1941 1.3. 第6章信息提取 2711 1.4. 第7章自动摘要 3041 ...

JAVA中的内部类使用总结

1) 内部类的优点是:内部类可以访问外部类的私有成员变量,而不需要new外部类的对象. 2) 内部类又分为:静态内部类.匿名内部类.局部内部类.成员内部类. 3) ...

sdutoj Mountain Subsequences

http://acm.sdut.edu.cn/sdutoj/problem.php?action=showproblem&problemid=2607 Mountain Subsequence ...

减肥大师教你啦减肥

http://www.ebay.com/cln/ckbzha.hcrkne/book/158072729013/20150128.html http://www.ebay.com/cln/jgum_q ...

hdu 1848 Fibonacci again and again （SG）

题意: 3堆石头,个数分别是m,n,p. 两个轮流走,每走一步可以选择任意一堆石子,然后取走f个.f只能是菲波那契中的数(即1,2,3,5,8.....) 取光所有石子的人胜. 判断先手胜还是后手胜. ...

单体内置对象的理解

1.有ECMAScript提供的,不依赖于宿主环境,在程序执行之前就已经存在的对象,叫内置对象,例如Object,Array,String 也就是说,实际使用时不用实例化内置对象,因为他们已经实例化了 ...

2015.9.2 文本框中获取当前位置的所在行和列

int totalline = textBox1.GetLineFromCharIndex(textBox1.Text.Length) + 1;//得到总行数.该行数会随着文本框的大小改变而改变:若只 ...

C/C++中的行读取

在C语言里面一直很容易混淆的,gets和fgetS的区别: char * fgets ( char * str, int num, FILE * stream ); Reads characters ...

用父类引用指向子类好处

子类为了省事就继承父类中的一些东西,,子类如果想把父类的方法改一下就出现了重写,子类想要自立门户也调用自己的东西就出现了多态里面的向下转型,(注意这里使用了也字) 那不将父类的引用指向子类照样可以调用 ...

HDU3954 线段树(区间更新 + 点更新)

题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=3954 , 一道比较好的线段树题,值得做. 题目是NotOnlySuccess大神出的,借此题来膜拜一下 ...

使用指针优化性能

============================创建基于栈的数组(高性能,低系统开销) //数组的类型必须为值类型 using System; using System.Collections ...

练手之经典病毒熊猫烧香分析(上)

熊猫烧香病毒在当年可是火的一塌糊涂,感染非常迅速,算是病毒史上比较经典的案例.不过已经比较老了,基本上没啥危害,其中的技术也都过时了.作为练手项目,开始对熊猫烧香病毒进行分析.首先准备好病毒样本(看雪 ...

演讲小技巧iPhone+Keynote

原文发布在简书上:http://www.jianshu.com/p/a45538ca611f 今天在公司里分享了一个技术雷达里关于 ECMAScript 2017 的小 Session,分享加问答总共 ...

在进行struts开发的过程中,总也是出现很多的乱码问题 ,但归根到底,也只是以下三种情况: ㈠页面显示中文乱码㈡传递参数中文乱码㈢国际化资源文件乱码下面就这三中情况介绍怎么在具体项目中处理这些 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.042 s.