python多任务抓取虎牙妹子图片

import re
import urllib.request
import gevent

def download(image_download, images_path,i):
    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"}
    req = urllib.request.Request(url=images_path, headers=headers)
    image = urllib.request.urlopen(req)
    image_content = image.read()

    image_name = image_download + "/" + str(i) + ".jpg"
    file = open(image_name, "wb")
    file.write(image_content)
    file.close()

def main():
    with open("douyu.html", "r", encoding="utf-8") as f:
        messages = f.read()
    images_path = re.findall(r"https://.*?\.jpg", messages)
    directory = "images_douyu"
    i = 0
    gevent_list = list()
    for image_path in images_path:
        i += 1
        gevent_list.append(gevent.spawn(download,directory, image_path, i))

    gevent.joinall(gevent_list)

if __name__ == "__main__":
    main()

原文地址：https://www.cnblogs.com/Lclog/p/9657927.html

时间： 2024-10-16 00:03:09

python多任务抓取虎牙妹子图片的相关文章

Python爬虫抓取糗百的图片，并存储在本地文件夹

思路: 1.观察网页,找到img标签 2.通过requests和BS库来提取网页中的img标签 3.抓取img标签后,再把里面的src给提取出来,接下来就可以下载图片了 4.通过urllib的urllib.urlretrieve来下载图片并且放进文件夹里面(第一之前的准备工作就是获取当前路径然后新建一个文件夹) 5.如果有多张图片,不断的重复3-4 由于爬虫写得少,通过自己的调试,终于写了出来了下面直接上代码: 1 #coding = 'utf-8' 2 import requests 3 f

Python爬虫抓取网页图片

本文通过python 来实现这样一个简单的爬虫功能,把我们想要的图片爬取到本地. 下面就看看如何使用python来实现这样一个功能. # -*- coding: utf-8 -*- import urllib import re import time import os #显示下载进度 def schedule(a,b,c): ''''' a:已经下载的数据块 b:数据块的大小 c:远程文件的大小 ''' per = 100.0 * a * b / c if per > 100 : per =

python 爬虫抓取心得

quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quote('要编码的字符串') query = urllib.quote(singername) url = 'http://music.baidu.com/search?key='+query response = urllib.urlopen(url) text = response.read()

python 爬虫抓取心得分享

/** author: insun title:python 爬虫抓取心得分享 blog:http://yxmhero1989.blog.163.com/blog/static/112157956201311821444664/ **/ 0x1.urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quote('要编码的字符串') query = urllib.quote(singername) url = 'h

使用wget工具抓取网页和图片成功尝试

使用wget工具抓取网页和图片发表于1年前(2014-12-17 11:29) 阅读(2471) | 评论(14) 85人收藏此文章, 我要收藏赞7 wget 网页抓取图片抓取目录[-] 奇怪的需求 wget概述 wget尝试 wget正解奇怪的需求公司需要将服务器的网页缓存到路由器,用户在访问该网页时就直接取路由器上的缓存即可.虽然我不知道这个需求有什么意义,但还是尽力去实现吧. wget概述 wget是unix和类unix下的一个网页抓取工具,待我熟悉它后,发现它的功能远不止

一个极其简洁的Python网页抓取程序

paip. 混合编程的实现resin4 (自带Quercus ) 配置 php 环境 #---混合编程的类型 1.代码inline 方式 2.使用库/api 解析方式. #----配置resin 支持php resin4默认自动支持php.. 也能手动配置了.web.xml加php的servlet解析..参考Quercus让你的PHP开心在Servlet容器奔跑 #----配置 php.ini路线运行t.php,,看见 Configuration File (php.ini) Path =>

python爬虫抓取站长之家IP库，仅供练习用！

python爬虫抓取站长之家IP库,单线程的,仅供练习,IP库数据有43亿条,如果按此种方法抓取至少得数年,所以谨以此作为练手,新手代码很糙,请大家见谅. #!/usr/bin/python #coding=UTF-8 import urllib2 import re import os import csv import codecs user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' headers = { 'User-

使用wget工具抓取网页和图片

使用wget工具抓取网页和图片: 包括css\js\html\图片文件 wget -e robots=off -w 1 -xq -np -nH -pk -m -t 1 -P "$PATH" "$URL" 这里robots=off是因为wget默认会根据网站的robots.txt进行操作,如果robots.txt里是User-agent: * Disallow: /的话,wget是做不了镜像或者下载目录的 -e 用来执行额外的.wgetrc命令,会在.wgetrc中所

python 处理抓取网页乱码

python 处理抓取网页乱码问题一招鲜相信用python的人一定在抓取网页时,被编码问题弄晕过一阵前几天写了一个测试网页的小脚本,并查找是否包含指定的信息. 在html = urllib2.open(url).read() 时,打印到控制台始终出现乱码. 一般的解决办法就是html.decode('utf-8').encode('gb2312'),不过这个即使用了,也没能解决我的问题这里有两个问题,第一个你要知道网页的编码格式是utf-8 第二你得确定你的系统是gb2312的,