一、正则表达式提取网页内容
解析效率:正则表达式>lxml>beautifulsoup
代码:
import re import urllist html = num = print print |
二、BeautifulSoup方法提取网页内容
代码如下:
from bs4 import BeautifulSoup import urllist html = #把html格式进行确定和纠正 soup = #找出tr标签中id属性为places_area__row的内容,如果把find改成findall函数则会把匹配所#有的内容显示出来,find函数只匹配第一次匹配的内容。 tr = td = #取出标签内容 area = print |
三、lxml
lxml库功能和使用类似BeautifulSoup库,不过lxml解析速度比beautifulsoup快。
代码:
import lxml.html import urllist w/United-Kingdom-239‘ html = tree = td = area = print |