学习爬虫看着篇(基础篇)

1.爬虫的定义

网络爬虫(又称网络蜘蛛)模拟客户端发送网络请求,接收请求响应,自动的进行抓取网络数据的程度。

注意: 网络爬虫在进行抓取数据的时候并不能进行辨别信息真伪(比如某直播平台直播房间显示在线观看人数100w,在这个数量上会有一些是运营商加上去的数据,比如真正在线人数80w运营商再加上去20w,网络爬虫抓取的就是100w和用户在浏览器中看到的一样)网络爬虫仅仅是可以爬到用户在浏览器可以看到的。

2.爬虫的目的

1.建立网站 进行数据展示 (某新闻网)

? 某新闻网,并不是做新闻的公司,用户点击新闻会跳转到其他真正的新闻网站,那么该网站就是通过抓取其他网站上的信息进行在自己的网站上进行展示。

2.建立音乐播放器(主要为了推送广告)

如果我们后续想要做一个和网易云音乐类似的音乐网站会先在免费的网站上(如:You Tube等)通过抓取音乐信息或者视频信息(只提取音乐部分)放在自己的播放器上进行播放,然后通过投放广告赚取商业利润。

3.进行数据分析 (为大数据和人工智能做准备)

? 通过在网上抓取海量数据,进行数据分析,挖掘出想得到的特定的目的。

3.爬虫的分类

网站排名影响因素:PageRank算法、点击量、相关度、引用量(像文献的影响因子)

通用爬虫(流程)

聚焦爬虫(流程)

? URL循环为了拿到响应数据的详情页 或者多页爬虫的时候

4.爬虫的内容

URL地址请求的响应 (不包括HTML、 js、 css、 图片等)

5.Robots协议

Robots协议:网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,但它仅仅是道德层面上的约束。

上图是一个网站的robots协议,道德层面的协议,同一个网站对不同的搜索引擎具有不同的协议要求(竞争力、准备进入相关市场)。

原文地址:https://www.cnblogs.com/aydenwang/p/9393497.html

时间: 2024-10-28 23:58:18

学习爬虫看着篇(基础篇)的相关文章

MongoDB 学习笔记(一)基础篇

1.MongoDB 特点 面向集合存储,存储对象类型的数据方便 模式自由,不需要定义任何模式(schma) 动态查询 完全索引,包含内部对象 复制和故障恢复方便 高效的二进制数据存储 支持c# 平台驱动 2.体系结构 一台服务器可以创建多个Server 实例和数据库,(推荐一天server 机器创建一个实例), 数据库:MongoDB 中的一系列与磁盘有关的物理文件(数据文件,日志文件等). 数据逻辑结构:文档 (documnet) 集合(collection) 数据库(database). d

2-STM32+W5500+GPRS物联网开发基础篇-基础篇学习的内容

https://www.cnblogs.com/yangfengwu/p/10936553.html 这次的基础篇为公开篇,将公开所有基础篇的资料和源码 现在说一下基础篇准备公开的内容:(大部分哈,要是有的我研究不出来.....我也没有法子了) 一,W5500:(会详细介绍移植和使用过程),会配套上位机(C#)相关的代码 1,TCP 客户端 2,TCP服务器 3,UDP 4,DHCP 5,DNS 6,HTTP_Server 7,HTTP_Client 8,Web 9,网页 10,MQTT 二,G

python学习笔记三之上(基础篇)

深浅copy以及赋值 对于字符串和数字而言,赋值.浅拷贝和深拷贝无意义,因为其永远指向同一个内存地址. import copy n1 = 10242048 #n1 = 'hahahaha' #赋值n2 = n1#浅copy n3 = copy.copy(n1) #深copyn4 = copy.deepcopy(n1)print(id(i),id(i1)) #打印内存地址5787536 5787536print(id(i),id(i2))5787536 5787536print(id(i),id(

python学习笔记三之中(基础篇)

函数 内置函数 常用的内建函数: type()  列出指定对象的类型 help()  能够提供详细的帮助信息 dir()    将对象的所有特性列出 vars()  列出当前模块的所有变量 file,doc,name __file__  列出文件位置 __doc__  文档字符串 __name__ 被执行的脚本,name == __main__ if __name__ == "__main__": print("hello") int() abs() max() m

python学习笔记三之下(基础篇)

文件操作 打开文件 open(name[,mode[,buffering]])   open函数使用一个文件名作为强制参数,然后返回一个文件对象.python 3.5 把file()删除掉 with open(somefile.txt,'r') as files: do_something(files) with 语句打开文件并把值赋值到变量,之后可以对文件操作.文件在语句结束之后会自动关闭,即使异常引起也会退出. 文件模式 r   #只读模式(默认) w(>) #写模式 a (>>) 

Python开发第一篇 基础篇

开发: 操作系统就是个软件 计算机诞生: 计算机硬件的组合 只对操作系统级别的开发工作: 由微软,或者其他开发系统的团队做 开发 语言: 高级语言:Python,  Java ,  PHP,  c#      ,Go      ,ruby     ,C++ ....... 低级语言:C,汇编 区别,高级语言之间,制定的规则不同 机器码和字节码: 机器码:计算机能直接识别的东西(低级语言) 字节码:高级语言通过转换成低级语言能识别的字节码--->机器码(节省转换流程,加速效率) 语言之间的对比:

Python开发第一篇 基础篇(下)

一.python种类 1.1 Cpython python官方版本,使用c语言实现,运行机制:先编译,py(源码文件)->pyc(字节码文件),最终执行时先将字节码转换成机器码,然后交给cpu执行: 如果再次运行时,会优先寻找字节码文件,若源码文件被修改,则会再次编译成字节码 1.2 Jython Python语言的Java实现,不仅提供Python的库,同时也提供所有的Java类.能运行在任何可兼容的Java1.1或更高的Java虚拟机平台上. 运行机制:py(源文件)->动态编译成字节码(

SpringBoot图文教程「概念+案例 思维导图」「基础篇上」

有天上飞的概念,就要有落地的实现 概念+代码实现是本文的特点,教程将涵盖完整的图文教程,代码案例 每个知识点配套自测面试题,学完技术自我测试 本文初学向,所以希望文中所有的代码案例都能敲一遍 大哥大姐新年好,点赞转发不要少 **文本已收录至GitHub开源仓库 Lu_JavaNodes 码云仓库地址Lu_JavaNodes ,**包含教程涉及所有思维导图,案例代码和后续讲解视频,欢迎Star增砖添瓦. 前言 庚子鼠年,封村儿,在试过了睡觉,打麻将,做凉皮,做蛋糕之后,我不由的陷入了对人生和社会的

【ShaderToy】基础篇之谈谈点、线的绘制

写在前面 写前面一篇的时候,发现还是不够基础.因此打算增加几篇基础篇,从点线面开始,希望可以更好理解. 其实用Pixel Shader的过程很像在纸上绘画的过程.屏幕上的每一个像素对应了纸上的一个方格,如果你愿意,你甚至可以一个个判断像素的位置,从而画出任何你想画的图像,也的确有爱好者这么做过.但往往,我们需要的是一个动态的效果,这个效果往往依赖于数学公式的约束.我们可以说是,用数学去绘画.我们用数学去约束,哪些点应该用什么颜色去绘制. 这篇,我们从基本的点和线开始,看一下如何在Pixel Sh