小白必看的Python爬虫流程

定义:

网络爬虫(Web Spider),又被称为网页蜘蛛,是一种按照一定的规则,自动地抓取网站信息的程序或者脚本。

简介:

网络蜘蛛是一个很形象的名字。如果把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从 网站某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。

爬虫整体流程:

①先由urllib的request打开Url得到网页html文档

②浏览器打开网页源代码分析元素节点

③通过Beautiful Soup或则正则表达式提取想要的数据

④存储数据到本地磁盘或数据库(抓取,分析,存储)

详细步骤

第一步:抓取网页

搜索引擎网络爬虫的基本工作流程如下:

首先选取一部分的种子URL,将这些URL放入待抓取URL队列;

取出待抓取URL,解析DNS得到主机的IP,并将URL对应的网页下载下来,存储进已下载网页库中,并且将这些URL放进已抓取URL队列。

分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环

第二步:数据存储

搜索引擎通过爬虫爬取到的网页,将数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。

搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到访问权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行。

第三步:预处理

搜索引擎将爬虫抓取回来的页面,进行各种步骤的预处理。

提取文字

中文分词

消除噪音(比如版权声明文字、导航条、广告等……)

索引处理

链接关系计算

特殊文件处理

最后将数据存储起来以备使用。

本文转载于https://www.py.cn/jishu/spider/10790.html

原文地址:https://www.cnblogs.com/jsdd/p/11558630.html

时间: 2024-11-06 07:10:01

小白必看的Python爬虫流程的相关文章

java新手小白必看的学习路线图,快速入门!

要学习Java,你首先得了解一下什么是java: java新手小白必看的学习路线图,快速入门!Javaweb是用Java技术来解决相关web互联网领域的技术总和.说的简单的就是写网站的一种语言.一般分为前端和后端两种方向,前端所做的东西就像幕前表演的演员,所做的就是让网页看起来顺眼,用起来顺心,而后端则属于处理数据,让程序处理速度.能力不断优化,属于幕后.前后端的配合才能是一个网站正式投入使用.最后,如果大家如果在自学遇到困难,想找一个java的学习环境,可以加入我们的java学习圈,点击我加入

超实用面试必看,Python工程师面试题

面试是公司挑选职工的一种重要方法.它给公司和应招者提供了进行双向交流的机会,能使公司和应招者之间相互了解,从而双方都可更准确做出聘用与否.受聘与否的决定.Python后端工程师面试题目有哪些? 1.推荐一本看过最好的python书籍? 2.python适合的场景有哪些?当遇到计算密集型任务怎么办? 3.tcp/udp的区别?tcp粘包是怎么回事,如何处理?udp有粘包吗? 4.time_wait是什么情况?出现过多的close_wait可能是什么原因? 3.epoll,select的区别?边缘触

Python自学从入门到就业之函数基础(小白必看)

函数介绍 <1>什么是函数 请看如下代码: print(" _ooOoo_ ") print(" o8888888o ") print(" 88 . 88 ") print(" (| -_- |) ") print(" O\\ = /O ") print(" ____/`---'\\____ ") print(" . ' \\| |// `. ") pri

小白必看:测试人有必要参考的软件测试工作规范

为了规范测试工作.减少开发与测试之前的沟通成本.保证项目进度.提高软件质量,测试人员有必要参考这份软件测试工作规范. 1.1. 编码规范 软件程序开发需要遵守编码规范,一是可以减少代码的维护成本,提高开发工作效率:二是有利于开发工作的延续.传承,减小项目风险. 1.1.1. 合理的注释量 好的代码应该是自描述的,让人费解的地方加上注释. 1.1.2. 规范的命名格式 规范很多,要让别人和一个月的自己看得懂. 1.2. 测试与测试结果 1.2.1. 单元测试与报告 单元测试一定要做.深入理解" t

全网最详细的新手入门Mysql命令和基础,小白必看!

MySQL简介 什么是数据库 ? 数据库(Database)是按照数据结构来组织.存储和管理数据的仓库,它产生于距今六十多年前,随着信息技术和市场的发展,特别是二十世纪九十年代以后,数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式.数据库有很多种类型,从最简单的存储有各种数据的表格到能够进行海量数据存储的大型数据库系统都在各个方面得到了广泛的应用. 主流的数据库有:sqlserver,mysql,Oracle.SQLite.Access.MS SQL Server等,本文

小说免费看!python爬虫框架scrapy 爬取纵横网

前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 风,又奈何 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http://t.cn/A6Zvjdun 准备 python3 scrapy 项目创建: cmd命令行切换到工作目录创建scrapy项目 两条命令 scarpy startproject与scrapy genspider 然后用pycharm打开项目 D:\pythonwork>scra

C#小白必看:《第17章节QQ管理系统》

QQ用户信息管理系统 首先看效果图: 01.首先进入进入到登录界面: 创建DengLu()登录方法,进行对用户录入的数据进行对比: 对比完后进行判断: 进入Welcome()方法中进行编写欢迎界面: 让用户输入,对用户输入的数据进行选择: 欢迎界面使用do-while循环,可重复查看 02.显示用户清单: 进入if选择结构判断判断等级大小: 小提示:输入完后记得关闭数据库连接Colse(); 03.更新用户在线天数: 首先创建一个U()方法,来充当SQL语句的增,删,改: 然后返回到Update

「新手必看」Python+Opencv实现摄像头调用RGB图像并转换成HSV模型

在ROS机器人的应用开发中,调用摄像头进行机器视觉处理是比较常见的方法,现在把利用opencv和python语言实现摄像头调用并转换成HSV模型的方法分享出来,希望能对学习ROS机器人的新手们一点帮助.至于为什么转换成HSV模型,因为在机器视觉方面用HSV模型进行图像处理是比较方便的,实现的方法和效果相对于其他模型都较为突出. 接下来是完整步骤: 1.打开一个终端,用vim编辑器新建并打开一个后缀为.py的文件 1 $ vim a.py 2.在打开的文件里按"a"进入编辑模式,然后输入

JAVA的环境安装部署——小白必看

初识JAVA Java是一门面向对象编程语言,不仅吸收了C++语言的各种优点,还摒弃了C++里难以理解的多继承.指针等概念,因此Java语言具有功能强大和简单易用两个特征.Java语言作为静态面向对象编程语言的代表,极好地实现了面向对象理论,允许程序员以优雅的思维方式进行复杂的编程. 程序与JAVA JAVA技术平台 安装JAVA语言开发工具包JDK JDK压缩包链接:https://pan.baidu.com/s/1yyPlSS2Gu7O-RV3oZsY-Yw提取码:e22q首先拷贝压缩包,给