爬虫----初级概念的架构

每次遇到爬虫,总会听到python,php等等词,其实什么语言无所谓,只要会用就行了。当然,有些人听到爬虫,就会觉得很高级,还在写网站的时候就在想反扒技术什么的,搞得爬虫变成了一个神秘莫测的东西。然而,我想告诉你的是爬虫真的很简单,几分钟搞定它的基本架构,下面请跟我来。

首先,爬虫要做的事情是将获取网页信息,并且将信息保存在一个地方等待被调用。因此爬虫的架构宏观上就有三部分:

网页---》爬虫处理---》保存;

只要将这三个部分处理好了,爬虫也就会了。(基于python语言)

然而,从网页上获取数据,以及对数据进行处理,然后将数据进行存储,这些都是需要爬虫这部分要做的。下面我将对工具进行介绍:

1. 对网页结构要有足够的理解-----熟悉HTML语言

2.获取网页信息工具:requests包(python包)

import requests

variable = requests.get(url)

3.处理网页信息工具:BeautifulSoup(python包)

from bs4 import beautifulsoup

soup = beautifulsoup(variable)

待续。。。

4.信息存储工具(待续)

5.代码编辑器(pycharm)

原文地址:https://www.cnblogs.com/cittysteven/p/10421222.html

时间: 2024-10-11 10:56:16

爬虫----初级概念的架构的相关文章

InnoDB主要特性、概念和架构

Innodb的主要特性 DML操作遵循ACID模型,事务支持commit,rollback和crash recovery,从而保护用户数据 基于行锁以及类似oracle的一致性读,提升了多用户的并发和性能 基于主键对查询进行优化 为了维护数据的完整性,InnoDB也支持外键.如果使用了外键,insert,update以及delete操作都会得到检查,以确保不会导致多表之间的数据不一致. 可以将InnoDB的表和Mysql其它存储引擎的表混合使用,甚至在同一个sql语句当中.比如:可以使用join

【Pyhton】 网络爬虫初级

[本文原创于Paul的博客园技术博客.] [本文欢迎转载,转载请以链接形式注明出处.] [本博客所有文章都经博主精心整理,请尊重我的劳动成果.] [Pyhton]  网络爬虫初级 首先,我们来看一个Python抓取网页的库:urllib或urllib2. 那么urllib与urllib2有什么区别呢? 可以把urllib2当作urllib的扩增,比较明显的优势是urllib2.urlopen()可以接受Request对象作为参数,从而可以控制HTTP Request的header部. 做HTTP

爬虫的概念和作用

目录 01  爬虫的概念 02  爬虫的流程 03  HTTP协议 04  WEBSOCKET 爬虫的概念 爬虫的概念 爬虫更官方点的名字叫数据采集,英文一般称作spider,就是通过编程来全自动的从互联网上采集数据. 比如说搜索引擎就是一种爬虫. 爬虫需要做的就是模拟正常的网络请求,比如你在网站上点击一个网址,就是一次网络请求. 爬虫的作用 现如今大数据时代已经到来,网络爬虫技术成为这个时代不可或缺的一部分,企业需要数据来分析用户行为,来分析自己产品的不足之处,来分析竞争对手的信息等等,但是这

MySQL 主从复制与读写分离概念及架构分析

1.MySQL主从复制入门 首先,我们看一个图: 影响MySQL-A数据库的操作,在数据库执行后,都会写入本地的日志系统A中 假设,实时的将变化了的日志系统中的数据库事件操作,在MYSQL-A的3306端口,通过网络发给MYSQL-B. MYSQL-B收到后,写入本地日志系统B,然后一条条的将数据库事件在数据库中完成. 那么,MYSQL-A的变化,MYSQL-B也会变化,这样就是所谓的MYSQL的复制,即MYSQL replication. 在上面的模型中,MYSQL-A就是主服务器,即mast

[转载] 对象存储(2):OpenStack Swift——概念、架构与规模部署

原文: http://www.testlab.com.cn/Index/article/id/1085.html#rd?sukey=fc78a68049a14bb228cb2742bdec2b9498806815fcb59399eee501874bb9e9086bce3050baf1438179330d72d2508871 摘要:开源的最大魅力,是能够满足人们的探索欲和求知欲,让我们可以很深入地了解一个系统,如果我们发现它的设计或者实现中有任何不合理的或者错误的地方,我们可以提出自己的想法并且实

Impala概念与架构

下面的内容介绍Cloudera Impala的背景资料及特性,以便你更高效的使用它.Where appropriate, the explanations include context to help understand how aspects of Impala relate to other technologies you might already be familiar with, such as relational database management systems and

一篇文章带你了解网络爬虫的概念及其工作原理

众所周知,随着计算机.互联网.物联网.云计算等网络技术的风起云涌,网络上的信息呈爆炸式增长.毋庸置疑,互联网上的信息几乎囊括了社会.文化.政治.经济.娱乐等所有话题.使用传统数据收集机制(如问卷调查法.访谈法)进行捕获和采集数据,往往会受经费和地域范围所限,而且还会因其样本容量小.信度低等因素导致收集的数据往往与客观事实有所偏颇,有着较大的局限性. 网络爬虫通过统一资源定位符URL (Uniform ResourceLocator)来查找目标网页,将用户所关注的数据内容直接返回给用户,并不需要用

web service概念、架构及相关知识

一.WebService的定义 WebService有好几种定义: W3C组织对其定义:WebService是一个软件系统,为了支持跨网络的机器间互操作交互而设计. WebService通常被定义为一组模块化的API,我们能够通过网络进行调用,来运行远程系统的请求服务. WebService就是暴露给外部使用的,可通过web调用的一组API. WebService是一种跨编程语言和跨操作系统平台的远程调用技术. Web Service = XML+XSD,SOAP和WSDL 事实上这多种定义仅仅

Sahara的基本概念和架构

声明: 本博客欢迎转载,但请保留原作者信息,并请注明出处! 作者:郭德清 团队:华为杭州OpenStack团队 Sahara旨在为用户提供简单部署Hadoop集群的能力,比如通过简单的配置:Hadoop版本.集群结构.节点硬件信息等.在用户提供了这些参数后,Sahara迅速把Hadoop集群部署起来.同时也支持集群的扩容和减容. 其应用场景包括: 1)  提供在OpenStack上快速配置和部署Hadoop集群的能力. 2)  充分利用OpenStack Iaas层的计算能力. 3)  提供分析