网络爬虫,我们可以把它理解为在网络上面爬行的一只蜘蛛,互联网就比如一张大网,而爬虫就像一只蜘蛛在这上面爬来爬去, 遇到资源它就可以把它抓取下来。
在浏览器中输入一个网址,即打开一个网页后,我们可以看到这个页面上有好多文字、图片等,这个过程其实就是用户输入一个网址后,向服务器发出了一个请求,服务器经过解析后,发送给浏览器HTML、JS、CSS等文件,浏览器解析后,就出现了许许多多的文字、图片等。因此,我们看到的网页实质是由HTML代码构成的,只不过经过浏览器的解释后,将这些代码隐藏起来了;爬虫要爬的就是这些内容,通过分析和过滤这些HTML代码,实现对文字、图片等资源的获取。
爬虫爬取数据时必须要有一个明确的URL才可以获取数据,URL即统一资源定位符,就是我们常说的网址。爬虫爬取网页,其实就是根据URL来获取它的网页信息。对于静态网页,下面有两种简单的方法可以实现网页信息的抓取。
1. 调用urillib2库里面的urlopen方法,传入一个URL(即网址),执行urlopen方法后,返回一个response对象,返回信息便被保存在这里面,通过response对象的read方法,返回获取到的网页内容,代码如下:
1 import urllib2 2 3 response = urllib2.urlopen("http://www.cnblogs.com/mix88/") 4 print response.read()
2. 通过构造一个request对象,urlopen方法传入一个request请求来实现网页的抓取,代码如下:
1 import urllib2 2 3 request = urllib2.Request("http://www.cnblogs.com/mix88/") 4 response = urllib2.urlopen(request) 5 print response.read()
时间: 2024-10-03 20:35:39