Tidy 和 HTML 解析
Beautiful Soup
屏幕抓取:是通过程序下载网页并从中提取信息的过程。
简单来见:下载数据并对其进行分析
思路:可使用urllib来获取网页的HTML代码,再使用正则表达式从中提取信息。
例如:假设要从python Job Board(http://python.org/jobs)提取招聘单位的名称和网站。
通过查看该网站的源代码,可发现类似于下面的链接中找到名称和URL:
<a href="/jobs/1970/">Python Engineer</a>
如下:简单的屏幕抓取程序
from urllib.request import urlopen import re p = re.compile(‘<a href="(/jobs/\\d+)/">(.*?)</a>‘) text = urlopen(‘http://python.org/jobs‘).read().decode() for url,name in p.findall(text): print(‘{}({})‘.format(name,url))
待补充~
原文地址:https://www.cnblogs.com/FlameLuo/p/9699444.html
时间: 2024-10-21 23:10:10