糗图-图片爬取
主要思路
1.来到首页,查看主页有用图片存在html的规律
2.编写re提取图片路径
3.右键图片查看请求图片的具体路径
4.拼接图片请求路径
5.查看下一页界面的路径,找到界面请求路径规律
6.work,多界面爬取指定图片爬虫
import requests
import re
import os
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
}
def get_page(page_size):
for i in range(1,page_size+1):
url = f"https://www.qiushibaike.com/pic/page/{i}/?s=5222080"
res=requests.get(url=url,headers=headers)
#解析图片路径
pic_list=re.findall('<div class="thumb">[\s\S]*?<img src="(.*?)" alt',res.text,re.S)
for i in pic_list:
i='https:'+i
pic_res=requests.get(url=i,headers=headers).content
file_name=i.split("/")[-1]
#图片数据写入本地文件夹
with open(f'pic/{file_name}',"wb")as fw:
fw.write(pic_res)
print(file_name+"写入成功")
if __name__ == '__main__':
if not os.path.exists("./pic"):
os.mkdir("./pic")
#自定义爬取界面页数
get_page(3)
原文地址:https://www.cnblogs.com/zx125/p/11404564.html
时间: 2024-09-30 22:29:38