python3 爬“斗图啦”

接触了一个多月的python，终于可以小小露一手了。手法之拙略就不得不恭维了，哈哈，

环境win7系统，Python3.6，Pycharm2017社区版，还有Google浏览器（官网均可下载）

http://www.doutula.com

需要的模块requests, lxml, BeautifulSoup,

import requests
import lxml
from bs4 import BeautifulSoup

说明一下，下载很多网站都有了反爬机制，所以道高一尺，魔高一丈了，我们模拟浏览器去访问网站，

也就是获得

User-Agent:

Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.81 Safari/537.36

方法：随便打开网页 F12 --Network --F5 --Headers -- User-Agent

代码来了

start_url = "http://www.doutula.com/arcticle/list/?page=1"
headers = {‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36‘}

start_html = requests.get(url=url, headers=headers).content
#print(start_html)

soup = BeautifulSoup(start_html,‘lxml‘)  ##lxml 解析网页的
all_a = soup.find_all(‘a‘,attrs={‘class‘:‘list-group-item‘})

for a in all_a:
    #title = a.h4.get_text()
    url = a[‘href‘]
    #print(title,url)

每一套“斗图”对应一个 a 标签，所以直接find_all(‘a‘,attrs={‘class‘:‘list-group-item‘})，谢谢站长布局如此规律。

注意这是上面代码的继续，所以注意缩进

img_html = requests.get(url,headers=header).text
img_soup = lxml.etree.HTML(img_html)  ##打印源码，自动修正html
img_items = img_soup.xpath(‘//div[@class="artile_des"]‘)
for item in img_items:
    imgurl_list = item.xpath(‘table/tbody/tr/td/a/img/@src‘)[0]  ##[0]取list的第一个元素
    print("正在下载"+imgurl_list)
    imgcontent = requests.get(imgurl_list).content ##换成text会报错no ‘str‘
    with open(‘doutu/%s‘ % imgurl_list.split(‘/‘)[-1],‘wb‘) as f:  ##doutu是文件夹，需要自己提前创建
        f.write(imgcontent)

然后就有你要的图了，一个一个，据说还可以多线程下载，当然需要另一个模块（threading）了的，

下次见

时间： 2024-10-22 11:32:04

python3 爬“斗图啦”的相关文章

深夜，我用python爬取了整个斗图网站，不服来斗

深夜,我用python爬取了整个斗图网站,不服来斗 QQ.微信斗图总是斗不过,索性直接来爬斗图网,我有整个网站的图,不服来斗. 废话不多说,选取的网站为斗图啦,我们先简单来看一下网站的结构网页信息从上面这张图我们可以看出,一页有多套图,这个时候我们就要想怎么把每一套图分开存放(后边具体解释) 通过分析,所有信息在页面中都可以拿到,我们就不考虑异步加载,那么要考虑的就是分页问题了,通过点击不同的页面,很容易看清楚分页规则很容易明白分页URL的构造,图片链接都在源码中,就不做具体说明了明白了这

【Python3 爬虫】U28_多线程爬取斗图啦的表情包

目录 1.需求描述 2.实战代码 2.1 单线程爬取 2.2 多线程版 1.需求描述爬取斗图啦网站,地址为:https://www.doutula.com/photo/list/[Python3 爬虫]U28_多线程爬取斗图啦的表情包原文地址:https://www.cnblogs.com/OliverQin/p/12636681.html

scrapy爬取斗图表情

用scrapy爬取斗图表情,其实呀,我是运用别人的博客写的,里面的东西改了改就好了,推存链接" http://www.cnblogs.com/jiaoyu121/p/6992587.html " 首先建立项目:scrapy startproject doutu 在scrapy框架里先写自己要爬取的是什么,在item里面写. import scrapyclass DoutuItem(scrapy.Item): # define the fields for your item here

Python爬虫入门教程 13-100 斗图啦表情包多线程爬取

写在前面今天在CSDN博客,发现好多人写爬虫都在爬取一个叫做斗图啦的网站,里面很多表情包,然后瞅了瞅,各种实现方式都有,今天我给你实现一个多线程版本的.关键技术点 aiohttp ,你可以看一下我前面的文章,然后在学习一下. 网站就不分析了,无非就是找到规律,拼接URL,匹配关键点,然后爬取. 撸代码首先快速的导入我们需要的模块,和其他文章不同,我把相同的表情都放在了同一个文件夹下面,所以需要导入os模块 import asyncio import aiohttp from lxml imp

spider_爬取斗图啦所有表情包（图片保存）

"""爬取斗图吧里面的所有表情包知识点总结: 一.使用requests库进行爬取,随机请求头(网站反爬措施少.挂个请求头足矣) 二.具体思路: 1.先爬取所有的图片url,放在列表里 2.循环遍历url请求这些图片, 3.将图片进行分类保存三.分类保存用到一个知识点,endwith(以***结尾) 使用这个函数,将jpg,gif,png等不同类型的图片分开四.演示案例中,只爬取了前20页.五.各个定义的数字变量意思为: n=1 网页页数 num=1 保存图片数注:该案例主

python 斗图图片爬虫

捣鼓了三小时,有一些小Bug,望大佬指导废话不说,直接上代码: #!/usr/bin/python3 # -*- coding:UTF-8 -*- import os,re,requests from urllib import request,parse class Doutu_api(object): def __init__(self): self.api_html = r'http://www.doutula.com/search?keyword=%s' self.headers =

python多线程爬虫+批量下载斗图啦图片项目（关注、持续更新）

python多线程爬虫项目() 爬取目标:斗图啦(起始url:http://www.doutula.com/photo/list/?page=1) 爬取内容:斗图啦全网图片使用工具:requests库实现发送请求.获取响应. xpath实现数据解析.提取和清洗 threading模块实现多线程爬虫爬取结果: 思路:由于该爬虫存在网络密集IO和磁盘密集IO,存在大量等待时间,遂采用多线程方式爬取. 设计:本文采用多为结构化代码的面向对象封装设计思路,使用生产消费者模型,完成多线程的调度.爬取.

Python3爬取今日头条有关《人民的名义》文章

Python3爬取今日头条有关<人民的名义>文章最近一直在看Python的基础语法知识,五一假期手痒痒想练练,正好<人民的名义>刚结束,于是决定扒一下头条上面的人名的名义文章,试试技术同时可以集中看一下大家的脑洞也是极好的. 首先,我们先打开头条的网页版,在右上角搜索框输入关键词,通过chrome调试工具,我们定位到头条的search栏调用的的API为: http://www.toutiao.com/search_content/?offset=0&format=json

至广大斗图群众，发现神器一枚，海量斗图直接搜

废话不多说,直接百度搜索图斗罗或者复制打开http://www.tudouluo.com/ 超多斗图还有套图,更重要的是支持搜索,想要什么内容直接关键字搜就行了存贴保存. 还支持手机访问