目标:爬取网页,获得自己需要的信息
步骤:
1. 导入需要的模块
2. 利用request向目标网站获得网页信息
3. 用BeautifulSoup解析所获得的网页
3. 获得需要的信息所在的标签内容
4. 精简标签获得关键信息
5. 获得关键信息之后,再处理(比如比大小)
1、导入需要的模块
BeautifulSoup模块:
BeautifulSoup:是一个可以从HTML和XML中读取数据的库。库也叫模块,在笨办法学Python中叫做特征,是其他程序员开发好的一些代码,可以拿来导入(import),然后调用。
from bs4 import BeautifulSoup
request模块:
request库:是Python中的一个HTTP网络请求库,用来简化网络请求!能够让你的Python程序向服务器发送HTTP请求,获得网页数据的库。
import requests
time库:
如果我们太频繁的向服务器发送请求,服务器会察觉拒绝服务,导致IP被封,这个时候就需要time库控制时间。
import time
2、利用request向目标网站获得网页信息
客户端(用户)如果想浏览某个网页首先是向目标URL发送requests请求。
然后服务器在收到请求之后,返回一个response回应,如Response [200]表示收到,Response[404]表示服务器无法回应。如果返回的是200,则加载请求网页的信息。
如果目标网页是登录之后的网页,就需要用headers包含User-Agent和cookie等信息,一起requests过去,才能获得所需网页信息。
1 url = ‘www.example.com‘ #目标网站url 2 headers = { 3 ‘User-Agent‘:‘****‘, #包含的浏览器信息 4 ‘Cookie‘:‘***‘ 5 } 6 7 wb_data = requests.get(url,headers = headers)
3、用BeautifulSoup解析所获得的网页
获得网页信息之后,再用BeautifulSoup解析网页。
1 soup = BeautifulSoup(wb_data.text,‘lxml‘)
4、获得需要的信息所在的标签内容
解析网页之后,就需要定位所需信息所在的标签,这也是第一周的难点,也就是如何定位所需的信息的位置。
一般方法是在Chrome中检查网页,然后copy selector,会获得元素标签的selector路径。如果获得的信息是同一类型,那么就需要对多条selector进行对比,然后找出最优的selector路径,这些路径需要测试看获得的信息对不对。
例子代码:
1 images = Soup.select(‘body > div.main-content > ul > li > img‘) 2 titles = Soup.select(‘body > div.main-content > ul > li > div.article-info > h3 > a‘) 3 descs = Soup.select(‘body > div.main-content > ul > li > div.article-info > p.description‘) 4 rates = Soup.select(‘body > div.main-content > ul > li > div.rate > span‘) 5 cates = Soup.select(‘body > div.main-content > ul > li > div.article-info > p.meta-info‘)
5、精简标签获得关键信息
获得标签之后,还需要去掉其他没用的信息,得到关键信息。可以利用for... in...遍历信息,然后获得关键信息,装入一个序列或者字典中待用。
例子代码:
1 info = [] 2 3 4 #code 5 6 7 for title,image,desc,rate,cate in zip(titles,images,descs,rates,cates): 8 data = { 9 ‘title‘: title.get_text(), # get_text()去除html标签,获得文本信息。 10 ‘rate‘: rate.get_text(), 11 ‘desc‘: desc.get_text(), 12 ‘cate‘: list(cate.stripped_strings), # stripped_strings获得一个父级标签下所有子标签的文本信息 13 ‘image‘: image.get(‘src‘), # get()获得某个标签的属性 14 } 15 info.append(data) #append在列表末尾添加新的对象
6、获得关键信息之后,再处理
最后再从上一步中待用的序列或者字典中,取出信息,操作,可以是比大小或者打印出来。也就是我们要爬取这些信息的目的。
7、注意:
如果将以上代码封装进一个函数里面,然后在利用此函数爬取不同网页的时候,需要在requests网页之后,再加入一个等待时间,就是time模块的用处。
代码:
1 wb_data = requests.get(url,headers = headers) 2 time.sleep(5)
5代表5秒,这样操作主要是为了防止服务器接受requests请求太频繁,拒绝服务,甚至封掉IP,是一个保护措施。
课时(9-17)总结
原文地址:https://www.cnblogs.com/wall9527/p/9936855.html