python—多协程爬取糗事百科热图

今天在使用正则表达式时未能解决实际问题，于是使用bs4库完成匹配，通过反复测试，最终解决了实际的问题，加深了对bs4.BeautifulSoup模块的理解。

爬取流程

前奏：

分析糗事百科热图板块的网址，因为要进行翻页爬取内容，所以分析不同页码的网址信息是必要的

具体步骤：

１，获取网页内容（urllib.request）# 糗事百科有发爬虫技术，所以要添加headers,伪装程浏览器

２，解析网页内容，获取图片链接（from bs4 import BeautifulSoup）

３，通过图片链接下载图片（urllib.request），并存储到本地

备注：

具体的爬取说明在代码都有详细的解释

  1 import urllib.request
  2 import requests
  3 from bs4 import BeautifulSoup
  4 # import re
  5 import gevent
  6 from gevent import monkey
  7 import bs4
  8
  9 monkey.patch_all()
 10
 11
 12 def get_html_text(url, raw_html_text, depth):
 13
 14     # 爬取网页数据
 15
 16     # 糗事百科有反爬虫机制，需要设置请求头伪装成浏览器
 17     hd = (‘User-Agent‘,‘Mozilla/5.0(Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Ch    rome/49.0.2623.22 Safari/537.36 SE 2.X MetaSr 1.0‘)
 18
 19     # 创建opener对象
 20     opener = urllib.request.build_opener()
 21     opener.addheaders = [hd]
 22
 23     # 将opener对象设置为全局
 24     urllib.request.install_opener(opener)
 25
 26     # 翻页爬取html_text
 27     for i in range(depth):
 28         # 根据对网址的分析，构造符合翻页时的网址
 29         url_real = url + str(i+1)
 30         try:
 31             html_data = urllib.request.urlopen(url_real).read().decode(‘utf-8‘, ‘ignore‘)
 32             raw_html_text.append(html_data)
 33             # 测试代码
 34             # print(len(html_data))
 35         except Exception as result:
 36             print(‘错误类型：‘, result)
 37
 38     print(‘提取网页信息完成...‘)
 39     return raw_html_text
 40     # 测试代码
 41     # print(len(raw_html_text))
 42
 43
 44 def parser_html_text(raw_html_text, done_img):
 45
 46     # 对爬取的网页数据进行遍历
 47
 48     for html_text in raw_html_text:
 49         # 使用BeautifulSoup对网页进行解析
 50         soup = BeautifulSoup(html_text, ‘html.parser‘)
 51         # 使用soup.find_all(‘div‘,‘thumb‘) 查找出每个网页中所有标签是div,属性值是thumb的标签
 52         # 通过对网页源代码的分析，图片信息都存储在该标签下的孙子标签img中的属性src中
 53         # 遍历每个div标签
 54         for tag in soup.find_all(‘div‘, ‘thumb‘):
 55             # 判断 tag 是否是bs4.element.Tag属性，因为在标签div下，并不是全部是标签
 56             if isinstance(tag, bs4.element.Tag):
 57                 # 遍历每个div标签下的所有孙子标签
 58                 for img in tag.descendants:
 59                     # 判断标签的名字是不是‘img’,如果是,取出标签中属性src的属性值。
 60                     if img.name == ‘img‘:
 61                         link = img.get(‘src‘)
 62                         done_img.append(link)
 63     #测试代码
 64     #print(done_img)
 65     print(‘网页解析完成...‘)
 66     return done_img
 67
 68 def save_crawler_data(done_img):
 69     # 将目标文本存储到本地‘./’表示当前目录
 70     path = ‘./img/‘
 71     # enumerate(list) 返回索引及索引对应的列表内的元素
 72     for i,j in enumerate(done_img):
 73         # 分析爬取的链接，前面缺少‘https:’,使用字符串拼接
 74         j =‘https:‘ + j
 75         # 通过urllib.request.urlopen()下载图片
 76         try:
 77             img_data = urllib.request.urlopen(j).read()
 78             path_real = path + str(i+1)
 79             with open(path_real, ‘wb‘) as f:
 80                 f.write(img_data)
 81         except:
 82             continue
 83     print(‘图片存储完成‘)
 84
 85
 86 def main():
 87     url = ‘https://www.qiushibaike.com/imgrank/page/‘
 88     depth = 20
 89     raw_html_text = list()
 90     done_img = list()
 91     Raw_html_text = get_html_text(url, raw_html_text, depth)
 92     Done_img = parser_html_text(Raw_html_text, done_img)
 93     gevent.joinall([
 94         gevent.spawn(get_html_text,url,raw_html_text,depth),
 95         gevent.spawn(parser_html_text,Raw_html_text,done_img),
 96         gevent.spawn(save_crawler_data,Done_img)
 97         ])
 98
 99     save_crawler_data(done_img)
100
101
102 if __name__ == ‘__main__‘:
103     main()

原文地址：https://www.cnblogs.com/summer1019/p/10398688.html

时间： 2024-12-10 06:32:56

python—多协程爬取糗事百科热图的相关文章

芝麻HTTP：Python爬虫实战之爬取糗事百科段子

首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的情况,是因为正则表达式没有匹配到的缘故. 现在,博主已经对程序进行了重新修改,代码亲测可用,包括截图和说明,之前一直在忙所以没有及时更新,望大家海涵! 更新时间:2015/8/2 糗事百科又又又又改版了,博主已经没心再去一次次匹配它了,如果大家遇到长时间运行不出结果也不报错的情况,请大家参考最新的评

python beautifulsoup bs4爬虫爬取糗事百科

声明:仅用于学习语法,请勿用于非法用途 import urllib.request import re from bs4 import BeautifulSoup # -*- coding:utf-8 -*- url = 'http://www.qiushibaike.com/hot/' user_agent='Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' headers={'User-Agent':user_agent} request = u

使用Python爬取糗事百科热门文章

默认情况下取糗事百科热门文章只有35页,每页20条,根据下面代码可以一次性输出所有的文章,也可以选择一次输出一条信息,回车继续.不支持图片内容的显示,显示内容包括作者,热度(觉得好笑的人越多,热度越高),内容.从热度最高开始显示到最低.实现代码如下: #!/usr/bin/python #coding:utf8 """ 爬取糗事百科热门文章 """ import urllib2 import re #模拟浏览器访问,否则无法访问 user_age

python爬取糗事百科段子

初步爬取糗事百科第一页段子(发布人,发布内容,好笑数和评论数) 1 #-*-coding:utf-8-*- 2 import urllib 3 import urllib2 4 import re 5 page = 1 6 url ='http://www.qiushibaike.com/hot/page/'+str(page) #第一页URL 7 headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/

爬取糗事百科的图片

小编,最近写了个单线程的爬虫,主要是爬取糗事百科的图片之类的,下面是源代码,小伙伴们可以拿去参照,学习 #!/usr/bin/env python# -*- coding:utf-8 -*-import requests,jsonimport requests,re,os,timeimport urllib.requestimport urllib.parseimport sslimport unittestfrom selenium import webdriver headers = {"U

多线程爬取糗事百科热门段子 (改写前天的博客)

利用多线程爬取,除了先前用到的几个模块之外,还需用到threading模块和queue模块: 为每一件事情开启一个线程:构造url_list.发送请求.提取数据.保存数据 __init__方法添加三个实例属性队列分别存放:url.响应内容.处理后的数据改写原先每一个方法里的代码,需要的东西直接从队列中取出,此时方法都无需多余参数了每当从一个队列取出数据,记得执行task_done()方法,使计数减一 run()方法里把yaozhixing的事情都开启一个线程,比较慢的事情,比如网络请求,可以

PHP爬取糗事百科首页糗事

突然想获取一些网上的数据来玩玩,因为有SAE的MySql数据库,让它在那呆着没有什么卵用!于是就开始用PHP编写一个爬取糗事百科首页糗事的小程序,数据都保存在MySql中,岂不是很好玩! 说干就干!首先确定思路获取HTML源码--->解析HTML--->保存到数据库没有什么难的 1.创建PHP文件"getDataToDB.php", 2.获取指定URL的HTML源码这里我用的是curl函数,详细内容参见PHP手册代码为 <span style="fo

python3 爬虫之爬取糗事百科

闲着没事爬个糗事百科的笑话看看 python3中用urllib.request.urlopen()打开糗事百科链接会提示以下错误 http.client.RemoteDisconnected: Remote end closed connection without response 但是打开别的链接就正常,很奇怪不知道为什么,没办法改用第三方模块requests,也可以用urllib3模块,还有一个第三方模块就是bs4(beautifulsoup4) requests模块安装和使用,这里就不说

爬虫实战爬取糗事百科

偶然看到了一些项目,有爬取糗事百科的,我去看了下,也没什么难的首先,先去糗事百科的https://www.qiushibaike.com/text/看一下, 先检查一下网页代码, 就会发现,需要爬取的笑话内容在一个span标签里,而且父标签是class为content的div里,那就很简单了,用select方法,先找到该文件,然获取下来并保存在txt文件里.比较枯燥. 直接贴代码吧 from bs4 import BeautifulSoup import lxml import request