爬虫案例

爬虫案例

  • 爬取汽车之家,指定页面的图片url

1.爬取汽车之家,指定页面的图片url

import requests
from bs4 import BeautifulSoup

# 获取页面数据
r1 = requests.get(
    url='https://www.autohome.com.cn/news/201801/912472.html#pvareaid=102624',
    headers={
        'Host':'www.autohome.com.cn',
        'Referer':"https://www.autohome.com.cn/",
        "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
    }
)

soup = BeautifulSoup(r1.text, "lxml")

# 定位标签
id_articlewrap = soup.find(name="div", id="articlewrap")
id_articleContent = soup.find(name="div", id="articleContent")

# 标题
h1 = (id_articlewrap.find(name="h1").text).strip()

# 获取id_articleContent下 p 标签,并且为 center 属性 []
pp = id_articleContent.find_all(name="p", attrs={"align": "center"})
for i in pp:
    img = i.find(name="img")
    # 判断是否有 img 标签
    if img:
        # 获取 src 地址

        img_url = "https:" + img.get("src")
        print(img_url)
        # 获取 图片的 bytes 内容
        img_response = requests.get(img_url).content

        # 截取url图片名称
        file_name = img_url.rsplit('/', maxsplit=1)[1]
        with open(file_name, 'wb') as f:
            # 写入文件中
            f.write(img_response)

原文地址:https://www.cnblogs.com/baolin2200/p/8378771.html

时间: 2024-10-10 21:24:25

爬虫案例的相关文章

爬虫案例—中基协数据爬取

因为工作原因,需要爬取相关网站的数据,包括中基协网站和天眼查部分数据. 一.中基协网站 爬取思路: 1.查看目标页:http://gs.amac.org.cn/amac-infodisc/api/pof/manager?rand=0.9775162173180119&page=%s&size=50 发现有随机数字串(刷新反爬措施),以及页码和每页信息条数,可以用来拼接爬取url 用一个循环爬取所有展示页面,用到requests库以及random函数生成随机数 返回的是json数据,直接用r

Golang - 爬虫案例实践

目录 Golang - 爬虫案例实践 1. 爬虫步骤 2. 正则表达式 3. 并发爬取美图 Golang - 爬虫案例实践 1. 爬虫步骤 明确目标(确定在哪个网址搜索) 爬(爬下数据) 取(去掉没用的数据) 处理数据(按具体业务去使用数据) 2. 正则表达式 文档:https://studygolang.com/pkgdoc API re := regexp.MustCompile(reStr):传入正则表达式,得到正则表达式对象 ret := re.FindAllStringSubmatch

URL编码与解码(使用 Python3 urllib.parse) 与 贴吧小爬虫案例

一.parse.urlencode() 与parse.unquote() urllib 和urllib.request都是接受URL请求的相关模块,但是提供了不同的功能.两个最显著的不同如下: 1.urllib 仅可以接受URL,不能创建 设置了headers 的Request 类实例: 2.但是 urllib 提供 urlencode 方法用来GET查询字符串的产生,而urllib.request 则没有.(这是 urllib 和urllib.request 经常一起使用的主要原因) 3.编码

Python 简单爬虫案例

Python 简单爬虫案例 import requests url = "https://www.sogou.com/web" # 封装参数 wd = input('enter a word') param = { 'query':wd } response = requests.get(url=url,params=param) page_text = response.content fileName = wd+'.html' with open(fileName,'wb') as

第5课-中国天气网爬虫案例

一.中国天气网爬虫案例 #中国天气网爬虫 import requests from pyecharts.charts import Bar from bs4 import BeautifulSoup import copy import html5lib datas = [] data = { "city":None, "day":None, "higher_temp":None, "lower_temp":None } HE

scrapy爬虫案例

一个简单的爬虫案例 from scrapy_redis.spiders import RedisSpider import os,urllib.request,time class XiaohuaSpider(scrapy.Spider): name = 'xiaohua' allowed_domains = ['90xiaohua.com'] start_urls = ['http://90xiaohua.com//'] file_path = r'D:\python_code\spider\

多线程爬虫案例

多线程糗事百科案例 案例要求参考上一个糗事百科单进程案例 Queue(队列对象) Queue是python中的标准库,可以直接import Queue引用;队列是线程间最常用的交换数据的形式 python下多线程的思考 对于资源,加锁是个重要的环节.因为python原生的list,dict等,都是not thread safe的.而Queue,是线程安全的,因此在满足使用条件下,建议使用队列 初始化: class Queue.Queue(maxsize) FIFO 先进先出 包中的常用方法: Q

java爬虫案例学习

最近几天很无聊,学习了一下java的爬虫,写一些自己在做这个案例的过程中遇到的问题和一些体会1.学习目标         练习爬取京东的数据,图片+价格+标题等等 2.学习过程 1·开发工具           JDK1.8           IntelliJ IDEA           IDEA自带的Maven 2.使用技术           Spring Boot+Spring Data JPA       3.数据库准备 CREATE TABLE `jd_item` ( `id` b

顶级Python商业级爬虫案例部署实战视频教程

如果对商业级爬虫开发感兴趣的朋友不能错过这次Python的技术盛宴.课程为我们讲解了非常有参考意义和商业价值的Python案例实战案例,能够提供给我们一个非常清晰和高纬度的Python爬虫思路,包括帮助我们进行工程项目指导,如何完成Pyhon工业化爬虫框架,以及Pyhon商业爬虫的上线部署. ===============课程目录=============== (1)\0.准备工作:(2)\1. 编程常识:├─1.pdf├─2.pdf├─直播与现场练习:编程常识~1.mp4├─autobro.p