第一次爬虫练习

在交互平台打印贴吧内的图片的链接地址

 1 #coding:utf-8
 2
 3 import re
 4 import urllib  //导入库
 5
 6 def gethtml(url):
 7     page=urllib.urlopen(url)  //打开链接的页面
 8     html=page.read()　　//读取链接的源码
 9     return html
10
11 def getimg(html):
12     reg=r‘src="(.*?\.jpg)" size‘ //正则
13     imgreg=re.compile(reg)　　//编译正则
14     imglist=re.findall(reg,html)　　//在源码中查找正则相对应的资源
15     return imglist　　//返回
16
17 html=gethtml("https://tieba.baidu.com/p/5001345607?red_tag=1020337473")
18 print getimg(html) //打印图片的链接地址

正则解释：

reg=r‘src="(.*?\.jpg)" size‘1.是匹配除换行符\n外的字符2*是匹配前一个字符0次或n次3+或*后跟？表示非贪婪匹配，即尽可能少的匹配，如*？重复任意次，但尽可能少重复4.*? 表示匹配任意数量的重复，但是在能使整个匹配成功的前提下使用最少的重复

下载贴吧内的图片

 1 #coding:utf-8
 2 import re
 3 import urllib
 4
 5 def geturl(url):
 6     page=urllib.urlopen(url)
 7     html=page.read()
 8     return html
 9
10 def getimg(html):
11     r1=r‘src="(.*?\.jpg)"size‘
12     imgr1=re.compile(r1)
13     imglist=re.findall(imgr1,html)
14     x=0
15     for i in imglist:
16         urllib.urlretrieve(i,‘%s .jpg‘% x) //下载imglist中的图片，并命名为X.jpg
17         x=x+1
18
19 html=geturl("https://tieba.baidu.com/p/5000970745?red_tag=2784248253")
20 getimg(html)

时间： 2025-01-12 06:20:27

第一次爬虫练习的相关文章

第一次爬虫实例

第一次爬虫实例 1.这是我第一次写的爬虫实例,写的不好请见谅,最后发现爬取的次数多了,被网站拉黑了,还是需要代理才行,代理还不太清楚怎么弄就先这样了后面请大神可以帮忙改下怎么使用代理爬取. 第一次爬取网站的所有电影信息(仅供参考) 具体思路就是先获取第一页上的信息然后根据翻页上的页数来确定爬取多少页 #下一步就是要写怎么爬取这些电影的种子并且下载到本地,等有时间了在写下面是具体代码: import requests from bs4 import BeautifulSoup from co

爬虫，记录第一次爬虫

爬虫四步曲# -指定url# -发起请求# -获取响应数据# -持久化存储 #植入requests模块import requests#指定urlurl='https://www.sogou.com/'#发起请求response=requests.get(url=url)#获取响应数据page_text=response.text#持久化存储with open('sogou.html','w',encoding='UTF-8') as write_page: write_page.write(pa

爬虫第一步遇到的坑

最近,跟着一个视频来学习,视频上爬取36kr这个网站,我也跟着写了,感觉挺简单的,使用Jsoup很快就拿到页面上的文字.谁知再分析网页获得自己需要的数据的时候,只能获得一个根标签,里面什么也没有,第一次爬虫遇到这样的问题,顿时懵逼了.问了几个人之后,自己明白了这是因为我要抓取的页面数据,它是使用react来实现的,也就是通过javaScript的库渲染完成的.到此我基本知道了原因和接下来怎么抓取. Jsoup不支持解析javaScript动态渲染的页面,在这里选取了HtmlUnit来解析. 首先

python爬取网页图片

在Python中使用正则表达式,一个小小的爬虫,抓取百科词条网页的jpg图片.下面就是我的代码,作为参考: #coding=utf-8 # __author__ = 'Hinfa' import re import os from urllib import request as req url='https://baike.baidu.com/item/%E5%B9%BF%E5%B7%9E/72101?fr=aladdin' path='Test//百科广州图片2' os.mkdir(path

第一次写，python爬虫图片，操作excel。

第一次写博客,其实老早就注册博客园了,有写博客的想法,就是没有行动,总是学了忘,忘了丢,最后啥都没有,电脑里零零散散,东找找,西看看,今天认识到写博客的重要性. 最近闲着看了潭州教育的在线直播课程,颇受老师讲课实用有感.只作为自己笔记学习,我们都知道学习一门编程都是先照抄,在创作.这里完全按照老师讲解,照抄作为学习. 一.Python抓取豆瓣妹子图. 工具:python3.6.0;bs4.6.0;xlwt(1.2.0)需要版本对应,之前就安装了bs4但是运行的时候提示版本不对应.可以在线升级:p

第一次写python爬虫

花了4天终于把写完了把国内的几个漏洞平台爬完了,第一次写py,之前一直都在说学习,然后这周任务是把国内的漏洞信息爬取一下.花了1天学PY,剩下的1天一个.期间学习到了很多.总结如下: ==================================================================== =========================================================================================

爬小说（第一次编写爬虫）

1 import requests 2 import re 3 html = 'http://www.jingcaiyuedu.com/book/317834.html' 4 response = requests.get(html) 5 '''while(str(response)!="<Response [200]>"): 6 response = requests.get(html) 7 print(response) 8 ''' 9 response.encodin

玩Python第一次见到这种反爬虫? 咋办? 盘它!

今天在工作中,碰到了第一次碰见的反爬虫机制,感觉很有意思,在这里记录一下,希望对大家有帮助. 今天用到的库: requests [请求]lzstring [解压数据]pyexecjs [执行JS] 简单粗暴,直接上网站部分源代码,因为这个网站应该不太希望别人来爬,所以就不上网站了.为什么这么说,因为刚开始请求的时候,老是给我返回GO TO HELL ,哈哈. 这个网站点击鼠标右键审查元素,查看网页源代码是无法用的,但是这个好像只能防住小白啊,简单的按F12审查元素,CTRL+u 直接查看源代码(

定时网络刷博器爬虫（第一次粘合）

import webbrowser as webimport timeimport osimport sysimport winsounda=time.ctime()print("****************亲现在的时间是",a,"*********************")hour1=int(input("*****************亲,请输入您想要设置爬虫运行的小时(例如10):"))minutes=int(input("