最简单的网络图片的爬取 --Pyhon网络爬虫与信息获取

1、本次要爬取的图片url

http://www.nxl123.cn/static/imgs/php.jpg

2、代码部分

import requestsimport osurl = "http://www.nxl123.cn/static/imgs/php.jpg"root = "C:/Users/Niuxi/Desktop/pic/"#注意最后“/”带上path = root+url.split(‘/‘)[-1]try:    if not os.path.exists(root):        os.makedirs(root)    if not os.path.exists(path):        r = requests.get(url)        # print(r.status_code)        with open(path,‘wb‘) as f:            f.write(r.content)            f.close()            print("文件保存成功")    else:        print("文件已经存在");except:    print("爬取失败!")

3、打印结果

桌面上自动新建的文件夹:

原文地址:https://www.cnblogs.com/qikeyishu/p/9354868.html

时间: 2024-10-08 22:57:03

最简单的网络图片的爬取 --Pyhon网络爬虫与信息获取的相关文章

Python编写网页爬虫爬取oj上的代码信息

OJ升级,代码可能会丢失. 所以要事先备份. 一开始傻傻的复制粘贴, 后来实在不能忍, 得益于大潇的启发和聪神的原始代码, 网页爬虫走起! 已经有段时间没看Python, 这次网页爬虫的原始代码是 python2.7版本, 试了一下修改到3.0版本, 要做很多包的更替,感觉比较烦,所以索性就在这个2.7版本上完善了. 首先观赏一下原始代码,我给加了一些注释: # -*- coding: cp936 -*- import urllib2 import urllib import re import

Python爬虫入门 | 5 爬取小猪短租租房信息

小猪短租是一个租房网站,上面有很多优质的民宿出租信息,下面我们以成都地区的租房信息为例,来尝试爬取这些数据. 小猪短租(成都)页面:http://cd.xiaozhu.com/1.爬取租房标题 按照惯例,先来爬下标题试试水,找到标题,复制xpath.多复制几个房屋的标题 xpath 进行对比: //[@id="page_list"]/ul/li[1]/div[2]/div/a/span//[@id="page_list"]/ul/li[2]/div[2]/div/a

第三百三十四节,web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息

第三百三十四节,web爬虫讲解2-Scrapy框架爬虫-Scrapy爬取百度新闻,爬取Ajax动态生成的信息 crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻标题和rul地址 有多网站,当你浏览器访问时看到的信息,在html源文件里却找不到,由得信息还是滚动条滚动到对应的位置后才显示信息,那么这种一般都是 js 的 Ajax 动态请求生成的信息 我们以百度新闻为列: 1.分析网站 首先我们浏览器打开百度新闻,在网页中间部分找一条新闻信息 然后查看源码,看看在源码里是否有

11、 按照提示输入歌手名字,爬取该歌手所有歌曲信息

1 #11 按照提示输入歌手名字,爬取该歌手所有歌曲信息 2 3 import requests 4 from bs4 import BeautifulSoup 5 from urllib.request import quote 6 7 w_name = input('请输入你喜欢的歌手名字: ') 8 w_code = quote(w_name) 9 10 res = requests.get('https://c.y.qq.com/soso/fcgi-bin/client_search_c

爬虫练手,爬取新浪双色彩,信息并进行分析

爬虫练手,爬取新浪双色彩,信息并进行分析 import requests from lxml.html import etree url = 'http://zst.aicai.com/ssq/betOrder/' response = requests.get(url) response_html = etree.HTML(response.text) text_path = '/html/body/div[7]/form/div[2]/table/tbody/tr/td/text()' da

爬虫 爬取天猫商品的封面信息

# 爬取搜索字段的封面信息 ''' q : 搜索的类型 可以识别中文 天猫控制登录字段: sort: 排序 s:起始第几个商品 问题1: 把s删除以后,虽说可以跳过登陆,但是只能访问第一页了,何解? 解决: 多次点击页面后发现,淘宝测试不完全,在点击跳转页面后,将其的url后的参数只保留 q totalPage jumpto 三个字段后,就可以通过修改jumpto字段的值 来跳转到其他的页面 问题2: 解决登陆问题后,发现无法提前知道totalpage的总页数 解决:只要页面有显示,那我们就能拿

web爬虫讲解—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息

crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址 有多网站,当你浏览器访问时看到的信息,在html源文件里却找不到,由得信息还是滚动条滚动到对应的位置后才显示信息,那么这种一般都是 js 的 Ajax 动态请求生成的信息 我们以百度新闻为列: 1.分析网站 首先我们浏览器打开百度新闻,在网页中间部分找一条新闻信息 然后查看源码,看看在源码里是否有这条新闻,可以看到源文件里没有这条信息,这种情况爬虫是无法爬取到信息的 那么我们就需要抓包分析了,启动抓包软件和抓包

如何爬取了知乎用户信息,并做了简单的分析

爬虫:python27 +requests+json+bs4+time 分析工具: ELK套件 开发工具:pycharm 1.性别分布 0 绿色代表的是男性 ^ . ^ 1 代表的是女性 -1 性别不确定 可见知乎的用户男性颇多. 2.粉丝最多的top30 粉丝最多的前三十名:依次是张佳玮.李开复.黄继新等等,去知乎上查这些人,也差不多这个排名,说明爬取的数据具有一定的说服力. 3.写文章最多的top30 爬虫架构图如下: 说明: 选择一个活跃的用户(比如李开复)的url作为入口url.并将已爬

Python爬虫从入门到放弃(十九)之 Scrapy爬取所有知乎用户信息(下)

在上一篇文章中主要写了关于爬虫过程的分析,下面是代码的实现,完整代码在:https://github.com/pythonsite/spider items中的代码主要是我们要爬取的字段的定义 class UserItem(scrapy.Item): id = Field() name = Field() account_status = Field() allow_message= Field() answer_count = Field() articles_count = Field()