使用requests + beautifulsoup 写一个简单的漫画爬虫

from bs4 import BeautifulSoupimport requestsimport osfrom time import sleep

class get_img(object):    def get_url(self):        self.new_url = []        url = "http://www.gumua.com/Manhua/28307.html"          #首页网址        headers = {‘User-Agent‘: ‘Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:22.0) Gecko/20100101 Firefox/22.0‘}        res = requests.get(url=url,headers=headers)             #获取网页信息        soup = BeautifulSoup(res.content,"lxml")                #通过bs4对网页进行解析        divs =soup.find(class_="d_menu")                        #查找body        lis = divs.select("li > a")                             #查找li下的a标签        for i in lis:            link = i.get("href")            self.new_url.append("http://www.gumua.com"+link)   #获取漫画的所有网址            num=i.string                                       #漫画集数        self.new_url.reverse()                                 #倒叙输出所有地址        return self.new_url    def img(self):        self.get_url()        imgs = []        headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"}        url = self.new_url        for link in url:            res = requests.get(url=link,headers=headers)        #获取所有网址的内容            soup = BeautifulSoup(res.content,"lxml")            #通过bs4对网页进行解析            #print(soup)            body = soup.find("div",class_="r_img ")             #查找属性            srcs = body.select("img")                           #查找图片            for link in srcs:                imgs.append(link.get("src"))                    #查找图片链接地址，追加到list中

for i in range(len(imgs)):            root = "/Users/caojialin/work2018/木乃伊新娘/"         #本地目录            path = root + str(i)+".jpg"                          #路径和名称            try:                if not os.path.exists(root):                    os.mkdir(root)                if not os.path.exists(path):                    r = requests.get(imgs[i])                    r.raise_for_status()                    sleep(0.1)                    # 使用with语句可以不用自己手动关闭已经打开的文件流                    with open(path, "wb") as f:  # 开始写文件，wb代表写二进制文件                        f.write(r.content)                    print("爬取完成")                else:                    print("文件已存在")            except Exception as e:                print("爬取失败:" + str(e))

原文地址：https://www.cnblogs.com/paoye/p/9767194.html

时间： 2024-10-09 21:05:29

使用requests + beautifulsoup 写一个简单的漫画爬虫的相关文章

也写一个简单的网络爬虫

引子在cnblogs也混了许久,不过碍于平日工作太忙,一篇随笔也没有写过.最近经常感觉到自己曾经积累过的经验逐步的丢失,于是开通了博客,主要是记录一下自己在业余时间里玩的一些东西. 缘起言归正传.某次在在某高校网站闲逛,看到了一些有趣的东西想要保存起来,但是却分散在各个页面,难以下手.使用baidu,google却有无法避免的搜索到此站点之外的内容.于是就想如果有一个爬虫,可以抓取指定域名的某些感兴趣的内容,不是很好.在网上简单搜索了一下,简单的都不满意,功能强大的又太复杂,就想自己写一个.

linux设备驱动第三篇：写一个简单的字符设备驱动

在linux设备驱动第一篇:设备驱动程序简介中简单介绍了字符驱动,本篇简单介绍如何写一个简单的字符设备驱动.本篇借鉴LDD中的源码,实现一个与硬件设备无关的字符设备驱动,仅仅操作从内核中分配的一些内存. 下面就开始学习如何写一个简单的字符设备驱动.首先我们来分解一下字符设备驱动都有那些结构或者方法组成,也就是说实现一个可以使用的字符设备驱动我们必须做些什么工作. 1.主设备号和次设备号对于字符设备的访问是通过文件系统中的设备名称进行的.他们通常位于/dev目录下.如下: [plain] vie

（2）自己写一个简单的servle容器

自己写一个简单的servlet,能够跑一个简单的servlet,说明一下逻辑. 首先是写一个简单的servlet,这就关联到javax.servlet和javax.servlet.http这两个包的类,其中一个比较重要的接口就是:javax.servlet.Servlet,所有的servlet必须实现实现或者继承实现该接口的类. Servlet接口有五个方法: public void init(ServletConfig config) throws ServletException publi

分享：计算机图形学期末作业！！利用WebGL的第三方库three.js写一个简单的网页版“我的世界小游戏”

这几天一直在忙着期末考试,所以一直没有更新我的博客,今天刚把我的期末作业完成了,心情澎湃,所以晚上不管怎么样,我也要写一篇博客纪念一下我上课都没有听,还是通过强大的度娘完成了我的作业的经历.(当然作业不是百度来的,我只是百度了一些示例代码的意思,怎么用!算了,越解释万一越黑呢!哈哈O(∩_∩)O哈哈~) ----------------------------------------------------------------分界线------------------------------

Java写一个简单学生管理系统

其实作为一名Java的程序猿,无论你是初学也好,大神也罢,学生管理系统一直都是一个非常好的例子,初学者主要是用数组.List等等来写出一个简易的学生管理系统,二.牛逼一点的大神则用数据库+swing来做一个有界面的学生管理系统.其实都并不会太难. 今天我就先写一个简单的用List来实现学生管理系统: 首先,管理系统是针对学生对象的,所以我们先把学生对象就写出来: package bean; public class Student { String name; String studentId;

DuiVision开发教程(2)-如何写一个简单的界面程序

基于DuiVision界面库开发的界面程序主要包括如下几部分内容: 1.资源定义,包括图片资源.各个窗口界面的xml定义文件 2.事件处理类代码,用于处理界面响应消息 3.其他业务逻辑代码下面举例说明如何写一个简单的界面程序. 第一步:使用VC向导创建一个有两个tab页面的DuiVision工程向导生成的解决方案文件如下: 默认有两个工程,分别是DuiVision库和应用程序工程.自动生成的代码目录中bin目录下的内容那个如下,bkimg目录存放窗口背景图片,skins目录存放图片资源,xm

linux设备驱动第三篇：如何写一个简单的字符设备驱动？

利用servlet和html写一个简单的登录

写一个简单的html登录页面,然后利用servlet来进行验证账号密码. html代码: <!DOCTYPE html> <html> <title>登陆页面</title> <head> <meta charset="UTF-8"> <title>Insert title here</title> </head> <body> <form action = &

如何用PHP/MySQL为 iOS App 写一个简单的web服务器（译） PART1

原文:http://www.raywenderlich.com/2941/how-to-write-a-simple-phpmysql-web-service-for-an-ios-app 作为一个iPhone/iPad开发者,能够自己写一个简单的web服务器将是很有用的. 例如,你可能希望在软件启动时显示一些来自服务器的更新,或者在服务器端保存一些用户数据.除了你的想象力,没有什么能限制你了. 在第一篇中,我们将会一步一步的建立一个web服务器,基于promo code system(促销码系