每次遇到爬虫,总会听到python,php等等词,其实什么语言无所谓,只要会用就行了。当然,有些人听到爬虫,就会觉得很高级,还在写网站的时候就在想反扒技术什么的,搞得爬虫变成了一个神秘莫测的东西。然而,我想告诉你的是爬虫真的很简单,几分钟搞定它的基本架构,下面请跟我来。
首先,爬虫要做的事情是将获取网页信息,并且将信息保存在一个地方等待被调用。因此爬虫的架构宏观上就有三部分:
网页---》爬虫处理---》保存;
只要将这三个部分处理好了,爬虫也就会了。(基于python语言)
然而,从网页上获取数据,以及对数据进行处理,然后将数据进行存储,这些都是需要爬虫这部分要做的。下面我将对工具进行介绍:
1. 对网页结构要有足够的理解-----熟悉HTML语言
2.获取网页信息工具:requests包(python包)
import requests
variable = requests.get(url)
3.处理网页信息工具:BeautifulSoup(python包)
from bs4 import beautifulsoup
soup = beautifulsoup(variable)
待续。。。
4.信息存储工具(待续)
5.代码编辑器(pycharm)
原文地址:https://www.cnblogs.com/cittysteven/p/10421222.html
时间: 2024-10-11 10:56:16