爬取校花网大学校花代码

import re
import os
import requests
count = 0
for i in range(10):
url = f"http://www.xiaohuar.com/list-1-{count}.html"
response = requests.get(url)
data = response.text

result_list = re.findall('src="(.*?)" /></a>',data)
# print(type(result_list))

for result in result_list:
    # print(result,type(result))
    if not result.startswith('http'): # 取出
        res = f"http://www.xiaohuar.com/{result}"  # 拼接图片网址
        print(res)  # 打印拼接好的图片路径
        img_response = requests.get(res)  # 获取图片
        img_name = res.split('/')[-1]  # 文件名字
        img_data = img_response.content  #将图片转化为二进制

        BASE_PATH = os.path.dirname(__file__)
        img_path = os.path.join(BASE_PATH,'datas',f'{img_name}')

        with open(img_path,'ab') as fw:
            fw.write(img_data)
            fw.flush()

count += 1
print(f'爬取了{count}页')

"""

http://www.xiaohuar.com/hua/
http://www.xiaohuar.com/list-1-1.html
http://www.xiaohuar.com/list-1-0.html
http://www.xiaohuar.com/list-1-1.html
http://www.xiaohuar.com/list-1-2.html

src="/d/file/20190726/small6880259bcb61b80ce246e497a448185c1564117785.jpg"

"""

原文地址：https://www.cnblogs.com/zuihoudebieli/p/11331768.html

时间： 2024-10-13 19:37:33

爬取校花网大学校花代码的相关文章

爬虫----爬取校花网视频

import requests import re import time import hashlib def get_page(url): print('GET %s' %url) try: response=requests.get(url) if response.status_code == 200: return response.content except Exception: pass def parse_index(res): obj=re.compile('class="i

【Python3 爬虫】U11_爬取中国天气网

目录 1.网页分析 2.代码实现 1.网页分析庚子年初,各种大事件不期而至,又赶上最近气温突变,所以写个爬虫来爬取下中国天气网,并通过图表反映气温最低的前20个城市. 中国天气网:http://www.weather.com.cn/textFC/hb.shtml 打开后如下图: 从图中可以看到所有城市按照地区划分了,并且每个城市都有最低气温和最高气温,通过chrome查看Elements,如下: 从上图可以看到展示当天的数据,那么<div class='conMidtab'>..这个标签则没

零基础爬取堆糖网图片（一）

零基础爬取堆糖网图片(一) 全文介绍: 首先堆糖网是一个美图壁纸兴趣社区,有大量的美女图片今天我们实现搜索关键字爬取堆糖网上相关的美图. 当然我们还可以实现多线程爬虫,加快爬虫爬取速度涉及内容: 爬虫基本流程 requests库基本使用 urllib.parse模块 json包 jsonpath库图例说明: 请求与响应 sequenceDiagram 浏览器->>服务器: 请求服务器-->>浏览器: 响应爬虫基本流程 graph TD A[目标网站] -->|分析网

第一篇博客（python爬取小故事网并写入mysql）

前言: 这是一篇来自整理EVERNOTE的笔记所产生的小博客,实现功能主要为用广度优先算法爬取小故事网,爬满100个链接并写入mysql,虽然CS作为双学位已经修习了三年多了,但不仅理论知识一般,动手能力也很差,在学习的空余时间前前后后DEBUG了很多次,下面给出源代码及所遇到的BUG. 本博客参照代码及PROJECT来源:http://kexue.fm/archives/4385/ 源代码: 1 import requests as rq 2 import re 3 import codecs

利用Scrapy爬取1905电影网

本文将从以下几个方面讲解Scrapy爬虫的基本操作 Scrapy爬虫介绍 Scrapy安装 Scrapy实例--爬取1905电影网相关资料 Scrapy 爬虫介绍 Scrapy是Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试. Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改.它也提供了多种类型爬虫的基类,如BaseSpider.sitemap爬虫等,最

爬虫实例——爬取煎蛋网OOXX频道（反反爬虫——伪装成浏览器）

煎蛋网在反爬虫方面做了不少工作,无法通过正常的方式爬取,比如用下面这段代码爬取无法得到我们想要的源代码. import requests url = 'http://jandan.net/ooxx' print requests.get(url).text 执行上述代码,你得到的结果应该跟我一样: 煎蛋网应该是通过检测headers来判断是否爬虫,要想获取正常的源代码,需要伪装成浏览器. # -*- coding: utf-8 -*- import re import requests from

Python爬取中国天气网天气

Python爬取中国天气网天气基于requests库制作的爬虫. 使用方法:打开终端输入 "python3 weather.py 北京(或你所在的城市)" 程序正常运行需要在同文件夹下加入一个"data.csv"文件,内容请参考链接:https://www.cnblogs.com/Rhythm-/p/9255190.html 运行效果: 源码: import sys import re import requests import webbrowser from

python爬虫入门练习，使用正则表达式和requests爬取LOL官网皮肤

刚刚python入门,学会了requests模块爬取简单网页,然后写了个爬取LOL官网皮肤的爬虫,代码奉上 #获取json文件#获取英雄ID列表#拼接URL#下载皮肤 #导入re requests模块 import requestsimport reimport time def Download_LOL_Skin(): #英雄信息Json文件地址:https://lol.qq.com/biz/hero/champion.js #获取英雄信息列表 json_url = "https://lol.

简单爬取微医网

一.利用request和xpath爬取微医网 #!/usr/bin/env python # -*- coding: utf-8 -*- #author tom import requests from lxml import etree import pymongo #爬取微医网类 class DoctorSpider(): #初始化应该具有的一些属性 def __init__(self): self.headers={'User-Agent': 'Mozilla/5.0 (Windows N