第一周、学会爬取网页信息总结

目标:爬取网页,获得自己需要的信息

步骤:

1. 导入需要的模块
2. 利用request向目标网站获得网页信息
3. 用BeautifulSoup解析所获得的网页
3. 获得需要的信息所在的标签内容
4. 精简标签获得关键信息
5. 获得关键信息之后,再处理(比如比大小)

1、导入需要的模块

BeautifulSoup模块:

BeautifulSoup:是一个可以从HTML和XML中读取数据的库。库也叫模块,在笨办法学Python中叫做特征,是其他程序员开发好的一些代码,可以拿来导入(import),然后调用。

from bs4 import BeautifulSoup

request模块:
request库:是Python中的一个HTTP网络请求库,用来简化网络请求!能够让你的Python程序向服务器发送HTTP请求,获得网页数据的库。

import requests

time库:
如果我们太频繁的向服务器发送请求,服务器会察觉拒绝服务,导致IP被封,这个时候就需要time库控制时间。

import time

2、利用request向目标网站获得网页信息

客户端(用户)如果想浏览某个网页首先是向目标URL发送requests请求。

然后服务器在收到请求之后,返回一个response回应,如Response [200]表示收到,Response[404]表示服务器无法回应。如果返回的是200,则加载请求网页的信息。

如果目标网页是登录之后的网页,就需要用headers包含User-Agent和cookie等信息,一起requests过去,才能获得所需网页信息。

1 url = ‘www.example.com‘ #目标网站url
2 headers = {
3     ‘User-Agent‘:‘****‘,    #包含的浏览器信息
4     ‘Cookie‘:‘***‘
5     }
6
7 wb_data = requests.get(url,headers = headers)

3、用BeautifulSoup解析所获得的网页

获得网页信息之后,再用BeautifulSoup解析网页。

1 soup = BeautifulSoup(wb_data.text,‘lxml‘)

4、获得需要的信息所在的标签内容

解析网页之后,就需要定位所需信息所在的标签,这也是第一周的难点,也就是如何定位所需的信息的位置。

一般方法是在Chrome中检查网页,然后copy selector,会获得元素标签的selector路径。如果获得的信息是同一类型,那么就需要对多条selector进行对比,然后找出最优的selector路径,这些路径需要测试看获得的信息对不对。

例子代码:

1 images = Soup.select(‘body > div.main-content > ul > li > img‘)
2 titles = Soup.select(‘body > div.main-content > ul > li > div.article-info > h3 > a‘)
3 descs = Soup.select(‘body > div.main-content > ul > li > div.article-info > p.description‘)
4 rates = Soup.select(‘body > div.main-content > ul > li > div.rate > span‘)
5 cates = Soup.select(‘body > div.main-content > ul > li > div.article-info > p.meta-info‘)

5、精简标签获得关键信息

获得标签之后,还需要去掉其他没用的信息,得到关键信息。可以利用for... in...遍历信息,然后获得关键信息,装入一个序列或者字典中待用。

例子代码:

 1 info = []
 2
 3
 4 #code
 5
 6
 7 for title,image,desc,rate,cate in zip(titles,images,descs,rates,cates):
 8     data = {
 9         ‘title‘: title.get_text(),      # get_text()去除html标签,获得文本信息。
10         ‘rate‘: rate.get_text(),
11         ‘desc‘: desc.get_text(),
12         ‘cate‘: list(cate.stripped_strings),        # stripped_strings获得一个父级标签下所有子标签的文本信息
13         ‘image‘: image.get(‘src‘),      # get()获得某个标签的属性
14     }
15     info.append(data)   #append在列表末尾添加新的对象

6、获得关键信息之后,再处理

最后再从上一步中待用的序列或者字典中,取出信息,操作,可以是比大小或者打印出来。也就是我们要爬取这些信息的目的。

7、注意:

如果将以上代码封装进一个函数里面,然后在利用此函数爬取不同网页的时候,需要在requests网页之后,再加入一个等待时间,就是time模块的用处。

代码:

1 wb_data = requests.get(url,headers = headers)
2 time.sleep(5)

5代表5秒,这样操作主要是为了防止服务器接受requests请求太频繁,拒绝服务,甚至封掉IP,是一个保护措施。

课时(9-17)总结

原文地址:https://www.cnblogs.com/wall9527/p/9936855.html

时间: 2024-08-02 09:00:05

第一周、学会爬取网页信息总结的相关文章

[python] 常用正则表达式爬取网页信息及分析HTML标签总结【转】

[python] 常用正则表达式爬取网页信息及分析HTML标签总结 转http://blog.csdn.net/Eastmount/article/details/51082253 标签: pythonpython爬虫正则表达式html知识总结 2016-04-07 06:13 3615人阅读 评论(4) 收藏 举报  分类: Python爬虫(23)  Python基础知识(17)  版权声明:本文为博主原创文章,转载请注明CSDN博客源地址!共同学习,一起进步~ 这篇文章主要是介绍Pytho

常用正则表达式爬取网页信息及HTML分析总结

Python爬取网页信息时,经常使用的正则表达式及方法. 1.获取<tr></tr>标签之间内容 2.获取<a href..></a>超链接之间内容 3.获取URL最后一个参数命名图片或传递参数 4.爬取网页中所有URL链接 5.爬取网页标题title两种方法 6.定位table位置并爬取属性-属性值 7.过滤<span></span>等标签 8.获取<script></script>等标签内容 1). 获取&

python学习之——爬取网页信息

爬取网页信息 说明:正则表达式有待学习,之后完善此功能 #encoding=utf-8 import urllib import re import os #获取网络数据到指定文件 def getHtml(url,fname): #fname = 'C:\\Users\cuiliting\\Desktop\\weather_forecast.txt' data =[] page = urllib.urlopen(url) html = page.read() data.append(html)

Python爬取网页信息

Python爬取网页信息的步骤 以爬取英文名字网站(https://nameberry.com/)中每个名字的评论内容,包括英文名,用户名,评论的时间和评论的内容为例. 1.确认网址 在浏览器中输入初始网址,逐层查找链接,直到找到需要获取的内容. 在打开的界面中,点击鼠标右键,在弹出的对话框中,选择“检查”,则在界面会显示该网页的源代码,在具体内容处点击查找,可以定位到需要查找的内容的源码. 注意:代码显示的方式与浏览器有关,有些浏览器不支持显示源代码功能(360浏览器,谷歌浏览器,火狐浏览器等

生成器的应用,爬取网页信息

#需求:生成器的应用 #然后每次g.send(url),打印页面内容,利用g可以无限send 1 from urllib.request import urlopen #导入爬虫模块 2 def get(): 3 while True: 4 url = yield #将函数改成协程函数 5 print(urlopen(url).read()) #打印爬取网页的结果 6 7 g = get() #将函数改成生成器 8 next(g) #初始化生成器 9 g.send("http://www.bai

python 嵌套爬取网页信息

当需要的信息要经过两个链接才能打开的时候,就需要用到嵌套爬取. 比如要爬取起点中文网排行榜的小说简介,找到榜单网址:https://www.qidian.com/all?orderId=&style=1&pageSize=20&siteid=1&pubflag=0&hiddenField=0&page=1 将榜单上的小说链接爬出来,在从小说链接里面爬小说简介 import pymysql import requests from hashlib import

R爬取网页信息

#爬取电影票房信息 library(stringr) library(XML) library(maps) #htmlParse()用来interpreting HTML #创建一个object movie_parsed<-htmlParse("http://58921.com/boxoffice/wangpiao/20161004", encoding = "UTF-8") #the next step:extract tables/data #readHT

HtmlUnit、httpclient、jsoup爬取网页信息并解析

HtmlUnit(底层也是采用httpclient)和jsoup  API package com.yuanhai.test; import java.io.IOException; import java.net.MalformedURLException; import org.jsoup.Connection; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; i

爬取商品信息、写入数据库操作

爬取商品信息并写入数据库操作 本次爬取当当网图书程序设计类书籍,爬取信息包括书名.链接和评论,并写入mysql. 1.首先修改items.py title存储书名.link存储商品链接.comment存储评论数 2.其次修改dd.py 首先要用xpath提取商品的信息,其次还需要构造程序设计类书籍每一页的链接.通过分析网页的组成,构造下一页的网页来提取更多的商品信息,如上图循环url所示. 需要提取上图三个红框中的内容,就需要设置xpath提取式.第一个红框是书名,设置xpath为:‘//a[@