网络爬虫的主要目的就是用来抓妹子图,而“妹子图”网站没有烦人的反爬虫机制,是我选择用来寄生的好网站,而且自从我写出来这个代码,我瘦了两斤我会到处乱说?
实验目标:从5200页爬虫爬到5205页,抓取图片。(5200页是偶家小美人武田玲奈!!)
from bs4 import BeautifulSoup #本次实验的主要捕获方式是用bs4#
import requests
import re
i=0
for a in range(5200,5206): #设定从5200页翻到5205页#
url="http://www.meizitu.com/a/"+str(a)+".html" #比较直白的翻页方式#
html=requests.get(url)
A=‘<p><div id="picture">‘
content=html.text.partition(A)[2]
B=‘<div class="boxinfo">‘
body=content.partition(B)[0]
#源代码里的img节点里的title不全相同,采用了partition方式切块,但是这样的情况用Xpath更好#
soup=BeautifulSoup(body,"html.parser")
pictures=soup.find_all("img")
for picture in pictures:
# print(picture["src"])
print("Now Downloading:"+str(i))
pic=requests.get(picture["src"])
fp=open("e:/pythonaaa/b/Study & test/"+str(i)+".jpg","wb")
fp.write(pic.content) #wb二进制写入搭配content将整个文件抓下来#
i=i+1