网页爬取

1、图片爬取代码

import requests
import os

root = "H:/美图/"
url = "https://k.zol-img.com.cn/sjbbs/7692/a7691501_s.jpg"
path = root + url.split("/")[-1]
try:
    if not os.path.exists(root):
        os.mkdir(root)
    if not os.path.exists(path):
        r = requests.get(url)
        r.raise_for_status()
        with open(path, "wb") as f:
            f.write(r.content)
            f.close()
            print("文件保存成功")
    else:
        print("文件已经存在")
except:
    print("爬取失败")

原文地址：https://www.cnblogs.com/nxrs/p/11031017.html

时间： 2024-10-05 05:50:22

网页爬取的相关文章

动态网页爬取例子（WebCollector+selenium+phantomjs）

目标:动态网页爬取说明:这里的动态网页指几种可能:1)需要用户交互,如常见的登录操作:2)网页通过JS / AJAX动态生成,如一个html里有<div id="test"></div>,通过JS生成<div id="test"><span>aaa</span></div>. 这里用了WebCollector 2进行爬虫,这东东也方便,不过要支持动态关键还是要靠另外一个API -- selen

WebFetch 是无依赖极简网页爬取组件

WebFetch 是无依赖极简网页爬取组件,能在移动设备上运行的微型爬虫. WebFetch 要达到的目标: 没有第三方依赖jar包减少内存使用提高CPU利用率加快网络爬取速度简洁明了的api接口能在Android设备上稳定运行小巧灵活可以方便集成的网页抓取组件使用文档 WebFetch的使用非常简单,让小白用户快速上手,WebFetch为用户配置默认页面处理方法,默认将抓取到的页面信息使用System.out.print输出到控制台(通过配置PageHandler修改默认操作).

python动态网页爬取——四六级成绩爬取

需求: 四六级成绩查询网站我所知道的有两个:学信网(http://www.chsi.com.cn/cet/)和99宿舍(http://cet.99sushe.com/),这两个网站采用的都是动态网页.我使用的是学信网,好了,网站截图如下: 网站的代码如下: 1 <form method="get" name="form1" id="form1" action="/cet/query"> 2 3 <table

动态网页爬取

四六级成绩查询网站我所知道的有两个:学信网(http://www.chsi.com.cn/cet/)和99宿舍(http://cet.99sushe.com/),这两个网站采用的都是动态网页.我使用的是学信网,好了,网站截图如下: 网站的代码如下: 1 <form method="get" name="form1" id="form1" action="/cet/query"> 2 3 <table bord

用python进行网页爬取，数据插入数据库

用python进行网页信息的爬取还是很简单的,而且现在进行爬取的在爬取之前,确定好自己的网页,然后用F12(查看网页源代码,然后确定网页的),这里就以一个简单的,页面布局简单的页面进行讲解:http://jbk.39.net/yyz/jbzs/ 先来看下页面的布局,以及我们想要进行页面的信息: 就这个页面,我们想要从这里面将页面中的疾病的名称,还有就是疾病的介绍,以及疾病的基本信息(是否属于医保.别名.发病部位.传染性...) 代码很简单: #!/usr/bin/env python # co

妹子图数网页爬取

任务:将妹子图首页展示的200多页数据全部爬取下来在爬取的过程中,需要用到requests库来获取网页使用bs库来解析网页随后将图片以图集的形式保存到文件汇总首先是获取所有图集url的函数 import requests from bs4 import BeautifulSoup as bs import threading import time import os def get_base_url(): """ 获取妹子图的所有图集url,并返回url组成的列表

7-13爬虫入门之BeautifulSoup对网页爬取内容的解析

通过beautifulsoup对json爬取的文件进行元素审查,获取是否含有p标签 # -*- coding:utf-8 -*- from lxml import html import requests import json import re import scrapy from bs4 import BeautifulSoup #通过beautifulsoup解析文档 def bs4analysis(html_doc): soup = BeautifulSoup(html_doc,"lx

Python静态网页爬取：批量获取高清壁纸

前言在设计爬虫项目的时候,首先要在脑内明确人工浏览页面获得图片时的步骤一般地,我们去网上批量打开壁纸的时候一般操作如下: 1.打开壁纸网页 2.单击壁纸图(打开指定壁纸的页面) 3.选择分辨率(我们要下载高清的图) 4.保存图片实际操作时,我们实现了如下几步网页地址的访问:打开了壁纸的网页→单击壁纸图打开指定页面→选择分辨率,点击后打开最终保存目标图片网页→保存图片在爬虫的过程中我们就尝试通过模拟浏览器打开网页的操作,一步步获得.访问网页.最后获得目标图片的下载地址,对图片进行下载保存到

python 网页爬取数据生成文字云图

1. 需要的三个包: from wordcloud import WordCloud #词云库 import matplotlib.pyplot as plt #数学绘图库 import jieba; 2. 定义变量(将对于的变量到一个全局的文件中): import re; pdurl_first='https://movie.douban.com/subject/26363254/comments?start=0' head={'User-Agent':'Mozilla/5.0 (X11; L