爬虫开坑之路(一)

什么是爬虫

　　网络爬虫(web crawler)，也叫网络蜘蛛(spider)，是一种用来自动浏览万维网的网络机器人(bots)。爬虫是通过网页的链接地址来寻找网页，从网站某一个页面开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到按照某种条件把互联网上所有的网页都抓取完为止的技术。

　　　　　　　　　　　　　某爬虫的结构

爬虫的工作原理

　　简单来说就是从给定的入口进入然后按逻辑获取需要的信息资源。原理主要是通过http或者其他协议，发送请求到目标接口，然后解析返回的内容成结构化数据存储到本地。

URL(爬虫的开始)

　　URL(A Uniform Resource Locator)，即统一资源定位符，也就是我们说的网址，统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置以及浏览器应该怎么处理它。

　　而爬虫就是根据预先设定的一个或若干初始种子URL开始，以此获得初始网页上的URL列表，在爬行过程中不断从URL队列中获一个的URL，进而访问并下载该页面。页面下载后页面解析器去掉页面上的HTML标记后得到页面内容，将摘要、URL等信息保存到Web数据库中，同时抽取当前页面上新的URL，保存到URL队列，直到满足所设定停止条件。

　　URL 的格式由三部分组成：

　　　第一部分是协议(或称为服务方式)。(http)

　　　　第二部分是存有该资源的主机IP地址(有时也包括端口号)。(www.example.com)

　　　　第三部分是主机资源的具体地址，如目录和文件名等。(index.html)

　　这样就是一个基本的URL：http://www.example.com/index.html

环境配置

　　本鶸的爬虫开坑之路都是基于Ubuntu + Python3.6.5 + Pycharm的，在Linux下还是Jetbrains.的IDE比较好用。代码编辑器可以选择Sublime Text 3，VS code或者notepad++，这个就看自己的喜好了，下部分正式开坑...

原文地址：https://www.cnblogs.com/rivervan/p/9093557.html

时间： 2024-11-15 00:44:15

爬虫开坑之路(一)

爬虫的工作原理

环境配置

爬虫开坑之路(一)的相关文章

开坑，Unix环境高级编程，转行之路又得缓缓了

webpack踩坑之路 (2)——图片的路径与打包

重新开坑：开始自学Android编程

一名Android开发者的微信小程序填坑之路(2)

VPS 入坑之路

开坑!JavaScript AMD模块的设计与实现

梦游战纪开坑~业余

多线程爬坑之路-Thread和Runable源码解析之基本方法的运用实例

CozyRSS开发记录0-RSS阅读器开坑