爬虫介绍及环境

爬虫

  • 什么是爬虫

    • 就是通过编写程序模拟浏览器上网,让其去互联网中抓取数据的过程。
  • 爬虫的分类:
    • 通用爬虫:爬取一整张页面源码数据。
    • 聚焦爬虫:爬取页面中局部的数据。一定是在通用爬虫的基础上实现。
      • 数据解析
    • 增量式爬虫:用来监测网站数据更新的情况。以便于爬取最新更新出来的数据!
  • 爬虫合法性探究:
    • 爬虫的风险体现:

      • 爬虫干扰了被访问网站的正常运营;
      • 爬虫抓取了受到法律保护的特定类型的数据或信息。
    • 如何规避风险:
      • 严格遵守网站设置的robots协议;
      • 在规避反爬虫措施的同时,需要优化自己的代码,避免干扰被访问网站的正常运行;
      • 在使用、传播抓取到的信息时,应审查所抓取的内容,如发现属于用户的个人信息、隐私或者他人的商业秘密的,应及时停止并删除。
  • 反爬机制
    • robots协议:存在于服务器端的一个纯文本的协议。

      • User-Agent:就是请求载体的身份标识。
      • 特点:防君子不放小人
  • 反反爬策略
  • http的头信息
    • User-Agent
    • Connection:‘close’
    • content-type

anaconda软件介绍

  • 什么是anaconda

    • 是一个基于数据分析+机器学习的集成环境。
  • 什么是jupyter(超级终端)
    • 是anaconda中的一个基于浏览器可视化的编码工具
  • 在指定目录下启动终端:录入jupyter notebook指令开辟指定的服务。
  • cell的两种模式:cell必须要经过执行才可看到效果
    • MarkDown:编写笔记。兼容markdown的语法和html标签
    • Code:编写代码。

快捷键

  • 插入cell:a,b
  • 删除cell:x
  • 执行cell:shift+enter
  • tab:自动补全
  • 切换cell的模式:y,m
  • 打开帮助文档:shift+tab

原文地址:https://www.cnblogs.com/zhuzhizheng/p/11971406.html

时间: 2024-10-22 22:54:19

爬虫介绍及环境的相关文章

python 网络爬虫介绍

一.网络爬虫相关概念 网络爬虫介绍 我们都知道,当前我们所处的时代是大数据的时代,在大数据时代,要进行数据分析,首先要有数据源,而学习爬虫,可以让我们获取更多的数据源,并且这些数据源可以按我们的目的进行采集. 优酷推出的火星情报局就是基于网络爬虫和数据分析制作完成的.其中每期的节目话题都是从相关热门的互动平台中进行相关数据的爬取,然后对爬取到的数据进行数据分析而得来的.另一方面,优酷根据用户实时观看视频时的前进,后退等行为数据,能够推测计算出观众的兴趣点和爱好点,这样有助于节目的剪辑和后期的节目

使用WIF实现单点登录Part I——Windows Identity Foundation介绍及环境搭建

首先先说一下什么是WIF(Windows Identity Foundation).由于各种历史原因,身份验证和标识的管理一般都比较无规律可循.在软件里加入"身份验证"功能意味着要在你的代码里混进处理底层任务(如验证用户名和密码,与X509证书或类似的证书打交道等)的代码.这样一来就得对基础架构相当依赖,程序很难移植,除非大范围重写.要改变这种情况,使用基于声明的标识(claims-based identity)可以很好的解决这个问题.这个"基于声明的标识"是神马东

【美妙的Python之中的一个】Python简单介绍及环境搭建

美妙的Python之Python简单介绍及安装         简而言之: Python 是能你无限惊喜的语言,与众不同.             1.Python:          Python英文意思为蟒蛇,故又称为蟒蛇语言,在图标设计上有所体现,贵铎·范·罗萨姆(Guido van Rossum)于1989年创立.Python的特质,简单,优雅,健壮,继承传统编程语言的强大性与通用性,同一时候兼具简单脚本的简单性.         Python的哲学:仅仅用一种方法,最好是仅仅有一种方法

(转)Scrapy安装介绍 windows环境下---

一. Scrapy简介 Scrapy is a fast high-level screen scraping and web crawling framework, used to crawl websites and extract structured data from their pages. It can be used for a wide range of purposes, from data mining to monitoring and automated testing

JVM虚拟机的介绍 和 环境变量的配置

java001 JVM 在安装的时候,有几个小的插曲,什么呢? 1.在安装JDK后会再要求你重新安装JRE,其实这是没有必要的,因为JDK中已经包含JRE. 你可以通过查看JDK的JRE目录你会发现这个两个目录的包含的目录是一样的. 2.其实JDK的安装就是一个解压和复制的过程,所以可以把安装的文件目录拷到别的机器上运行,唯一的区别在于: 自己安装的同时会在系统注册表中注册相关的信息,假如产品有更新会提示更新,而直接拷贝的是不这样的. 3.bin目录下的.exe文件是由java写的所以他也是依赖

Python 爬虫介绍

1.Python 爬虫介绍 一.什么是爬虫 爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息. 二.Python爬虫架构 Python 爬虫架构主要由五个部分组成,分别是调度器.URL管理器.网页下载器.网页解析器.应用程序(爬取的有价值数据). 调度器:相当于一台电脑的CPU,主要负责调度URL管理器.下载器.解析器之间的协调工作. URL管理器:包括待爬取的URL地址和已爬取的URL地址,防止重复抓取URL和循环抓取URL,实现URL管理器主要用三种方式,通过内存.数据

[springboot 开发单体web shop] 1. 前言介绍和环境搭建

前言介绍和环境搭建 简述 springboot 本身是为了做服务化用的,我们为什么要反其道使用它来开发一份单体web应用呢? 在我们现实的开发工作中,还有大量的业务系统使用的是单体应用,特别是对于中小型团队来说,在项目开发之初选择服务化开发是得不偿失的,因为对于此类团队,势必所有的工作都是需要我们开发人员来做的,例如: 技术选型 业务需求分析 业务需求设计 大量的测试 运行部署 运营健康监控 ... 小团队或小公司如果开发人员把大规模的精力放在除业务之外的工作中,那么我们的开发效率势必会特别低下

App自动化测试-1.App自动化介绍和环境搭建

*:first-child { margin-top: 0 !important; } body>*:last-child { margin-bottom: 0 !important; } /* BLOCKS =============================================================================*/ p, blockquote, ul, ol, dl, table, pre { margin: 15px 0; } /* HEAD

pytorch介绍和环境配置

pytorch介绍和环境配置 pytorch 1.介绍 动态图 方便cuda调用 求导方便 2.配置 cuda和cudnn pytorch安装 pycham建立pytorch工程 1.介绍 动态图 可以动态的构建图 TensorFlow是静态的构建一张图后就不能修改 方便cuda调用 device=torch.device('cuda') a=a.to(device) b=b.to(device) to=time.time() c=torch.matmul(a,b) t2=time.time()