第一次爬虫练习

在交互平台打印贴吧内的图片的链接地址

 1 #coding:utf-8
 2
 3 import re
 4 import urllib  //导入库
 5
 6 def gethtml(url):
 7     page=urllib.urlopen(url)  //打开链接的页面
 8     html=page.read()  //读取链接的源码
 9     return html
10
11 def getimg(html):
12     reg=r‘src="(.*?\.jpg)" size‘ //正则
13     imgreg=re.compile(reg)  //编译正则
14     imglist=re.findall(reg,html)  //在源码中查找正则相对应的资源
15     return imglist  //返回
16
17 html=gethtml("https://tieba.baidu.com/p/5001345607?red_tag=1020337473")
18 print getimg(html) //打印图片的链接地址

正则解释:

reg=r‘src="(.*?\.jpg)" size‘1.是匹配除换行符\n外的字符2*是匹配前一个字符0次或n次3+或*后跟?表示非贪婪匹配,即尽可能少的匹配,如*?重复任意次,但尽可能少重复4.*? 表示匹配任意数量的重复,但是在能使整个匹配成功的前提下使用最少的重复

下载贴吧内的图片

 1 #coding:utf-8
 2 import re
 3 import urllib
 4
 5 def geturl(url):
 6     page=urllib.urlopen(url)
 7     html=page.read()
 8     return html
 9
10 def getimg(html):
11     r1=r‘src="(.*?\.jpg)"size‘
12     imgr1=re.compile(r1)
13     imglist=re.findall(imgr1,html)
14     x=0
15     for i in imglist:
16         urllib.urlretrieve(i,‘%s .jpg‘% x) //下载imglist中的图片,并命名为X.jpg
17         x=x+1
18
19 html=geturl("https://tieba.baidu.com/p/5000970745?red_tag=2784248253")
20 getimg(html)
时间: 2024-11-05 18:27:08

第一次爬虫练习的相关文章

第一次爬虫实例

第一次爬虫实例 1.这是我第一次写的爬虫实例,写的不好请见谅,最后发现爬取的次数多了,被网站拉黑了,还是需要代理才行,代理还不太清楚怎么弄就先这样了 后面请大神可以帮忙改下怎么使用代理爬取. 第一次爬取网站的所有电影信息(仅供参考) 具体思路就是先获取第一页上的信息 然后根据翻页上的页数来确定爬取多少页 #下一步就是要写怎么爬取这些电影的种子并且下载到本地,等有时间了在写 下面是具体代码: import requests from bs4 import BeautifulSoup from co

爬虫,记录第一次爬虫

爬虫四步曲# -指定url# -发起请求# -获取响应数据# -持久化存储 #植入requests模块import requests#指定urlurl='https://www.sogou.com/'#发起请求response=requests.get(url=url)#获取响应数据page_text=response.text#持久化存储with open('sogou.html','w',encoding='UTF-8') as write_page: write_page.write(pa

爬虫第一步遇到的坑

最近,跟着一个视频来学习,视频上爬取36kr这个网站,我也跟着写了,感觉挺简单的,使用Jsoup很快就拿到页面上的文字.谁知再分析网页获得自己需要的数据的时候,只能获得一个根标签,里面什么也没有,第一次爬虫遇到这样的问题,顿时懵逼了.问了几个人之后,自己明白了这是因为我要抓取的页面数据,它是使用react来实现的,也就是通过javaScript的库渲染完成的.到此我基本知道了原因和接下来怎么抓取. Jsoup不支持解析javaScript动态渲染的页面,在这里选取了HtmlUnit来解析. 首先

python爬取网页图片

在Python中使用正则表达式,一个小小的爬虫,抓取百科词条网页的jpg图片.下面就是我的代码,作为参考: #coding=utf-8 # __author__ = 'Hinfa' import re import os from urllib import request as req url='https://baike.baidu.com/item/%E5%B9%BF%E5%B7%9E/72101?fr=aladdin' path='Test//百科广州图片2' os.mkdir(path

第一次写,python爬虫图片,操作excel。

第一次写博客,其实老早就注册博客园了,有写博客的想法,就是没有行动,总是学了忘,忘了丢,最后啥都没有,电脑里零零散散,东找找,西看看,今天认识到写博客的重要性. 最近闲着看了潭州教育的在线直播课程,颇受老师讲课实用有感.只作为自己笔记学习,我们都知道学习一门编程都是先照抄,在创作.这里完全按照老师讲解,照抄作为学习. 一.Python抓取豆瓣妹子图. 工具:python3.6.0;bs4.6.0;xlwt(1.2.0)需要版本对应,之前就安装了bs4但是运行的时候提示版本不对应.可以在线升级:p

第一次写python爬虫

花了4天终于把写完了把国内的几个漏洞平台爬完了,第一次写py,之前一直都在说学习,然后这周任务是把国内的漏洞信息爬取一下.花了1天学PY,剩下的1天一个.期间学习到了很多.总结如下: ==================================================================== =========================================================================================

爬小说(第一次编写爬虫)

1 import requests 2 import re 3 html = 'http://www.jingcaiyuedu.com/book/317834.html' 4 response = requests.get(html) 5 '''while(str(response)!="<Response [200]>"): 6 response = requests.get(html) 7 print(response) 8 ''' 9 response.encodin

玩Python第一次见到这种反爬虫? 咋办? 盘它!

今天在工作中,碰到了第一次碰见的反爬虫机制,感觉很有意思,在这里记录一下,希望对大家有帮助. 今天用到的库: requests [请求]lzstring [解压数据]pyexecjs [执行JS] 简单粗暴,直接上网站部分源代码,因为这个网站应该不太希望别人来爬,所以就不上网站了.为什么这么说,因为刚开始请求的时候,老是给我返回GO TO HELL ,哈哈. 这个网站点击鼠标右键审查元素,查看网页源代码是无法用的,但是这个好像只能防住小白啊,简单的按F12审查元素,CTRL+u 直接查看源代码(

定时网络刷博器爬虫(第一次粘合)

import webbrowser as webimport timeimport osimport sysimport winsounda=time.ctime()print("****************亲现在的时间是",a,"*********************")hour1=int(input("*****************亲,请输入您想要设置爬虫运行的小时(例如10):"))minutes=int(input("