python爬虫从入门到精通-系列教程

开始爬虫之旅

引言

我经常会看到有人在知乎上提问如何入门 Python 爬虫?Python 爬虫进阶?利用爬虫技术能做到哪些很酷很有趣很有用的事情?等这一些问题,我写这一系列的文章的目的就是把我的经验告诉大家。

什么是爬虫?

引用自维基百科

网络蜘蛛(Web spider)也叫网络爬虫(Web crawler),蚂蚁(ant),自动检索工具(automatic indexer),或者(在FOAF软件概念中)网络疾走(WEB scutter),是一种“自动化浏览网络”的程序,或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容,以供搜索引擎做进一步处理(分检整理下载的页面),而使得用户能更快的检索到他们需要的信息。

我的理解就是可以自动的抓取数据

爬虫能做什么?

  • 可以创建搜索引擎(Google,百度)
  • 可以用来抢火车票
  • 带逛
  • 简单来讲只要浏览器能打开的,都可以用爬虫实现

可以参考以下链接,还有很多好玩的~

利用爬虫技术能做到哪些很酷很有趣很有用的事情?

爬虫的本质是什么?

简单来讲就是模仿浏览器来打开网页

那我们应该如何模仿浏览器呢?

我们首先应该要知道"浏览器是怎么打开网页?"

一旦我们知道浏览器是怎么打开网页的,那么我们可以通过同样的手段来模拟浏览器

大家有兴趣的话可以看看如下文章

在浏览器地址栏输入一个URL后回车,背后会进行哪些技术步骤?

从输入 URL 到页面加载完成的过程中都发生了什么事情?

原文地址:https://www.cnblogs.com/qq865581497/p/11567276.html

时间: 2024-10-25 00:07:29

python爬虫从入门到精通-系列教程的相关文章

Part 7:自定义admin站点--Django从入门到精通系列教程

该系列教程系个人原创,并完整发布在个人官网刘江的博客和教程 所有转载本文者,需在顶部显著位置注明原作者及www.liujiangblog.com官网地址. Python及Django学习QQ群:453131687 本节我们主要介绍在第二部分提到过的admin后台管理站点. Django的admin站点是自动生成的.高度可定制的,它是Django相较其它Web框架独有的内容,广受欢迎.如果你觉得它不够美观,还有第三方美化版xadmin.请一定不要忽略它,相信我,它值得拥有! 一.定制模型表单 在前

第一章:模型层model layer -- Django从入门到精通系列教程

该系列教程系个人原创,并完整发布在个人官网刘江的博客和教程 所有转载本文者,需在顶部显著位置注明原作者及www.liujiangblog.com官网地址. Python及Django学习QQ群:453131687 题外话: Django的教程写到这里,就进入了整体的第二部分,也是最关键的部分.此时有一个问题必须想清楚,那就是,以项目带动内容还是以参考书目的方式展开?为此,我考虑了很久. 我在开始学习Django的时候,也看过许多教程和博客,有的专述某个细节,虽然比较深入,但不够全面:有的比较泛泛

Django简介--Django从入门到精通系列教程

该系列教程系个人原创,并完整发布在个人官网刘江的博客和教程 所有转载本文者,需在顶部显著位置注明原作者及www.liujiangblog.com官网地址. Python及Django学习QQ群:453131687 教程环境:Win7/10 + Python3.6 + pip + Pycharm + Django1.11 引言 我们都知道,Django是一种基于Python的Web开发框架. 那么,什么是Web开发?Web开发指的是开发基于B/S架构,通过前后端的配合,将后台服务器的数据在浏览器上

模型的元数据Meta -- Django从入门到精通系列教程

该系列教程系个人原创,并完整发布在个人官网刘江的博客和教程 所有转载本文者,需在顶部显著位置注明原作者及www.liujiangblog.com官网地址. Python及Django学习QQ群:453131687 模型的元数据,指的是"除了字段外的所有内容",例如排序方式.数据库表名.人类可读的单数或者复数名等等.所有的这些都是非必须的,甚至元数据本身对模型也是非必须的.但是,我要说但是,有些元数据选项能给予你极大的帮助,在实际使用中具有重要的作用,是实际应用的'必须'. 想在模型中增

查询集API -- Django从入门到精通系列教程

该系列教程系个人原创,并完整发布在个人官网刘江的博客和教程 所有转载本文者,需在顶部显著位置注明原作者及www.liujiangblog.com官网地址. Python及Django学习QQ群:453131687 本节将详细介绍查询集的API,它建立在下面的模型基础上,与上一节的模型相同: from django.db import models class Blog(models.Model): name = models.CharField(max_length=100) tagline =

python学习从入门到精通要多久?

Python是近几年来的新秀语言.在编程语言的排行榜上异军突起.在目前科技的最前沿,人工智能(AI)领域也占据了一席之地.于是,追逐潮流的同学们也加入了学习Python的大军中.python学习从入门到精通要多久?按理说,Python学习什么时候才能精通,是没有具体时间的.原因很简单,每个人的学习能力,每个人的学习强度也都不一样.另外,大家的要求也不尽一致啊.何谓"精通"?每个人都有自己的标准.Python在2018年的发展可谓是大红大紫,如今虽然接近年尾,但是各大企业对Python开

python爬虫小小白入门

python爬虫小小白入门 学习目标: 爬虫基本思想 python爬虫常用包,官方文档,用途,安装方法,常用方法. 简单爬虫实例--从W3Cschool爬取C语言教程文本 python环境:: Anaconda3, spyder, windows10 一.基本思想 爬虫就是从网页上抓取你想要的内容,主要分为三个步骤.首先需要仔细分析目标页面内容,知道你想要的内容:文字,图片,视频在HTML中的哪个标签里,然后通过爬虫代码向服务器发起请求,得到HTML页面内容,最后把目标内容解析出来. 分析目标页

Selenium 入门到精通系列:五

Selenium 入门到精通系列 PS:显式等待.隐式等待.强制等待方法 例子 #!/usr/bin/env python # -*- coding: utf-8 -*- # @Date : 2019-04-23 16:12:33 # @Author : BenLam # @Link : https://www.cnblogs.com/BenLam/ from selenium import webdriver from selenium.webdriver.common.by import B

Jenkins pipeline 入门到精通系列文章

Jenkins2 入门到精通系列文章. Jenkins2 下载与启动jenkins2 插件安装jenkins2 hellopipelinejenkins2 pipeline介绍jenkins2 javahelloworldjenkins2 groovy入门jenkins2 pipeline入门jenkins2 pipeline高级jenkins2 Jenkinsfilejenkins2 multibranchjenkins2 Jenkinsfile和loadjenkins2 groovy脚本参考