python多线程爬虫的简单例子

Python多线程(http://www.maiziedu.com/course/python/)主要是通过thread和threading这两个模块来实现的。thread模块是比较底层的模块,threading模块是对thread做了一些包装的,可以更加方便的使用。

虽然python的多线程受GIL限制,并不是真正的多线程,但是对于I/O密集型计算还是能明显提高效率,比如说爬虫。 下面用一个实例来验证多线程的效率。代码只涉及页面获取,并没有解析出来。

# -*-coding:utf-8 -*-

import urllib2, time

import threading

class MyThread(threading.Thread):

def __init__(self, func, args):

threading.Thread.__init__(self)

self.args = args

self.func = func

def run(self):

apply(self.func, self.args)

def open_url(url):

request = urllib2.Request(url)

html = urllib2.urlopen(request).read()

print len(html)

return html

if __name__ == ’__main__’:

# 构造url列表

urlList = []

for p in range(1, 10):

urlList.append(’http://s.wanfangdata.com.cn/Paper.aspx?q=%E5%8C%BB%E5%AD%A6&p=’ + str(p))

# 一般方式

n_start = time.time()

for each in urlList:

open_url(each)

n_end = time.time()

print ’the normal way take %s s’ % (n_end-n_start)

# 多线程

t_start = time.time()

threadList = [MyThread(open_url, (url,)) for url in urlList]

for t in threadList:

t.setDaemon(True)

t.start()

for i in threadList:

i.join()

t_end = time.time()

print ’the thread way take %s s’ % (t_end-t_start)

分别用两种方式获取10个访问速度比较慢的网页,一般方式耗时50s,多线程耗时10s。

多线程代码解读:

# 创建线程类,继承Thread类

class MyThread(threading.Thread):

def __init__(self, func, args):

threading.Thread.__init__(self)  # 调用父类的构造函数

self.args = args

self.func = func

def run(self):  # 线程活动方法

apply(self.func, self.args)

时间: 2024-10-18 12:13:19

python多线程爬虫的简单例子的相关文章

C语言多线程的一个简单例子

多线程的一个简单例子: #include <stdio.h> #include <stdlib.h> #include <string.h> #include <unistd.h> #include <pthread.h> void * print_a(void *); void * print_b(void *); int main(){ pthread_t t0; pthread_t t1; // 创建线程A if(pthread_creat

python多线程爬虫+批量下载斗图啦图片项目(关注、持续更新)

python多线程爬虫项目() 爬取目标:斗图啦(起始url:http://www.doutula.com/photo/list/?page=1) 爬取内容:斗图啦全网图片 使用工具:requests库实现发送请求.获取响应. xpath实现数据解析.提取和清洗 threading模块实现多线程爬虫 爬取结果: 思路:由于该爬虫存在网络密集IO和磁盘密集IO,存在大量等待时间,遂采用多线程方式爬取. 设计:本文采用多为结构化代码的面向对象封装设计思路,使用生产消费者模型,完成多线程的调度.爬取.

Python 多线程就这么简单

来源:Linux社区  作者:StitchSun 多线程和多进程是什么自行google补脑 对于Python 多线程的理解,我花了很长时间,搜索的大部份文章都不够通俗易懂.所以,这里力图用简单的例子,让你对多线程有个初步的认识. 单线程 在好些年前的MS-DOS时代,操作系统处理问题都是单任务的,我想做听音乐和看电影两件事儿,那么一定要先排一下顺序. (好吧!我们不纠结在DOS时代是否有听音乐和看影的应用.^_^) 1 from time import ctime,sleep 2 3 def m

python多线程爬虫设计及实现示例

爬虫的基本步骤分为:获取,解析,存储.假设这里获取和存储为io密集型(访问网络和数据存储),解析为cpu密集型.那么在设计多线程爬虫时主要有两种方案:第一种方案是一个线程完成三个步骤,然后运行多个线程:第二种方案是每个步骤运行一个多线程,比如N个线程进行获取,1个线程进行解析(多个线程之间切换会降低效率),N个线程进行存储. 下面我们尝试抓取http://www.chembridge.com/ 库存药品信息. 首先确定url为http://www.chembridge.com/search/se

Python网络爬虫 - 一个简单的爬虫例子

下面我们创建一个真正的爬虫例子 爬取我的博客园个人主页首页的推荐文章列表和地址 scrape_home_articles.py from urllib.request import urlopen from bs4 import BeautifulSoup import re html = urlopen("http://www.cnblogs.com/davidgu") bsObj = BeautifulSoup(html, "html.parser") for

python 多线程爬虫

最近,一直在做网络爬虫相关的东西. 看了一下开源C++写的larbin爬虫,仔细阅读了里面的设计思想和一些关键技术的实现. 1.larbin的URL去重用的很高效的bloom filter算法: 2.DNS处理,使用的adns异步的开源组件: 3.对于url队列的处理,则是用部分缓存到内存,部分写入文件的策略. 4.larbin对文件的相关操作做了很多工作 5.在larbin里有连接池,通过创建套接字,向目标站点发送HTTP协议中GET方法,获取内容,再解析header之类的东西 6.大量描述字

Python多线程爬虫爬取电影天堂资源

最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址,代码已经上传到GitHub上了,需要的同学可以自行下载.刚开始学习python希望可以获得宝贵的意见. 先来简单介绍一下,网络爬虫的基本实现原理吧.一个爬虫首先要给它一个起点,所以需要精心选取一些URL作为起点,然后我们的爬虫从这些起点出发,抓取并解析所抓取到的页面,将所需要的信息提取出来,同时获得的新的URL插入到队列中作为下一次爬取的起点.这样不断地循环,一直到获得你想得到的所有的信息爬虫的任务

python:多线程爬虫(美女照片)

上编刚刚写的py,,而进度条不是很满意,而且 是单线程,所以修改为多线程,如果网络快,5分钟全部下载完全,该网站并发不好,而且经常访问不了,出现失败很正常. 只是学习py爬虫吧了. #!/usr/bin/env python # -*- coding: utf-8 -*- import urllib from os import path,makedirs import re from threading import Thread from datetime import datetime d

python 多线程就这么简单(续)

转自:http://www.cnblogs.com/fnng/p/3691053.html 之前讲了多线程的一篇博客,感觉讲的意犹未尽,其实,多线程非常有意思.因为我们在使用电脑的过程中无时无刻都在多进程和多线程.我们可以接着之前的例子继续讲.请先看我的上一篇博客. 从上面例子中发现线程的创建是颇为麻烦的,每创建一个线程都需要创建一个tx(t1.t2....),如果创建的线程多时候这样极其不方便.下面对通过例子进行继续改进: player.py #coding=utf-8 from time i