爬虫基础知识

1.安装 requests scrapy 豆瓣源         pip install -i 豆瓣源 包名 

2.新建虚拟环境时使用 -p 参数指定 Python的版本目录 virtualenv -p pythonpath envXXX

3.网页分类

  静态网页

  动态网页

  webservice

4.爬虫的应用

  搜索引擎

  推荐引擎

  机器学习的数据样本

  金融等数据分析

  等。。。

5.正则表达式

  ^:(限定开头)       

  .:(一个字符)     

  * + {n}:(限定词)           

  |:()       

  ():括号用于提取子字符串   

  [ a-z ]:指定字符为中括号中任意一个       1[58347][0-9]{9}: 电话号码验证 1开头 第二位只能是58347中的一位 最后剩下九位只能再0-9之间选择                                                         

  &:(限定结尾) 

  ^a : 以字母a开头

  ^a.: 以字母a开头后面任意一个字符

  ^a.*: 以字母a开头并且后面任意字符

  ^a.*3$: 以字母a开头并且后面任意字符3$以3结尾 *限定词 0-多次

  ^a.+3$: 加号用于限定前面的字符至少出现一次 aX3 aXX3 ...  +限定词 1-多次

  ^a.{2}3$: 加号用于限定前面的字符出现两次 aXX3   {1},{1,3},{1,}限定词 指定n-m次

import re
str = ‘wlc123‘
zhengze = ‘^w.*‘
if re.match(zhengze, str):
    print(True) 
import re
#用于解释贪婪匹配此案例输出结果为cc 而不是clllllllllc
#因此需要添加问号?使得匹配从左往右进行就可以得到clllllllllc了
#只在左边添加?结果会变成cllllllllcc后边还是会贪婪匹配 因此在后边的c之前也要加上?
str = ‘wwlcllllllllllcc123‘
zhengze = ‘.*(c.*c).*‘
#zhengze = ‘.*?(c.*?c).*‘
result = re.match(zhengze, str)
print (result.group(1))

  

6.深度广度优先遍历算法

7.url去重的常见策略

 待续 

时间: 2024-08-14 21:06:51

爬虫基础知识的相关文章

Python网络爬虫基础知识学习

对Python有一些简单了解的朋友都知识Python编程语言有个很强大的功能,那就是Python网络爬虫(http://www.maiziedu.com/course/python/645-9570/),一提到Python,就会想到相关的Python爬虫和scrapy等等,今天就来简单认识学习Python爬虫的基础知识,有了一定的相关爬虫知识,以后学习scrapy.urllib等等知识时,会相对轻松些. 爬虫: 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组

Python爬虫基础知识及前期准备

学习爬虫有一小段时间了,于是决定把自己学爬虫时所学的,写过的代码以及看过的文档记录下来,权当小结.第一次写这些,如果有错误,请多指教. 首先我们需要了解一下什么是爬虫. 根据百度百科上给出的定义," 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本."简单来说,爬虫类似手动下载网页信息,比如小说.歌曲.说到这,或许会有疑问,既然这样,干嘛还去敲代码,直接人工处理不好吗?话是这么说,但如果下载的

【VB6】使用VB6创建和访问Dom树【爬虫基础知识 】

使用VB6创建和访问Dom树 关键字:VB,DOM,HTML,爬虫,IHTMLDocument 我们知道,在VB中一般大家会用WebBrowser来获取和操作dom对象. 但是,有这样一种情形,却让我们纠结不已: 我们需要做爬虫,然后爬虫不需要太高的效率,但是我们被复杂的正则表达式给弄的头晕眼花. 不知道何去何从. 今天,下定决心研究下html的解析,终于掌握了对IHTMLDocument等接口对象的使用. 源代码放在:http://www.extencent.com 具体的文章将会放在博客园以

Python爬虫基础知识入门一

一.什么是爬虫,爬虫能做什么 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来.比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据. 爬虫可以抓取的某个网站或者某个应用的内容,提取有用的价值.也可以模拟用户在浏览器或者App应用上的操作,实现自动化的程序.以下行为都可以用爬虫实现: 咨询报告(咨询服务行业) 抢票神器 投票神器 预测(

自学Python之四 爬虫基础知识储备

首先,推荐两个关于python爬虫不错的博客:Python爬虫入门教程专栏   和 Python爬虫学习系列教程 .写的都非常不错,我学习到了很多东西!在此,我就我看到的学到的进行总结一下! 爬虫就是一个不断的去抓去网页的程序,根据我们的需要得到我们想要的结果!但我们又要让服务器感觉是我们人在通过浏览器浏览不是程序所为!归根到底就是我们通过程序访问网站得到html代码,然后分析html代码获取有效内容的过程.下面让我们从最简单的爬虫开始: 爬取一个页面源代码 在python中,抓取网页的库是ur

python 爬虫基础知识(继续补充)

学了这么久爬虫,今天整理一下相关知识点,还会继续更新 HTTP和HTTPS HTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法. HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HTTP下加入SSL层. SSL(Secure Sockets Layer 安全套接层)主要用于Web的安全传输协议,在传输层对网络连接进行加密,保障

第三章:爬虫基础知识回顾

第一节:技术选型,爬虫能做什么技术选型scrapy vs requests + beautifulsoup1. requests + beautifulsoup都是库,scrapy是框架2.scrapy框架中可以加入requests + beautifulsoup3.scrapy基于twisted,性能是最大的优势4.scrapy方便扩展,提供了很多内置的功能5.scrapy内置的css和xpath selector非常方便,beautifulsoup最大的缺点就是慢 网页分类常见类型的服务1.

爬虫基础知识一

认识HTTP.HTTPS 1.http:超文本传输协议 以明文的形式传输 效率更高,但是不安全 2.https:http+ssl(安全套接字层) 传输之前数据先加密,之后解密获取内容 效率低,但是安全 3.get请求和post请求的区别 get请求没有请求体,post有,get请求把数据放到url地址中: post请求常用于登录注册,保密: post请求携带的数据比get请求大.多,常用于传输大文本的时候. 4.http协议之请求 1.请求行 GET /8hr/page/1/ HTTP/1.1

爬虫基础知识五

数据提取方法一 利用json 数据交换格式,看起来像python类型(列表,字典)的字符串 使用json之前需要导入 import  json 哪里会返回json的数据 浏览器切换到手机版 抓包app json.loads 把json字符串转换为python类型 json.loads(json字符串) json.dumps 把python类型转化为json字符串(用于保存数据到文本中) json.dumps({}) json.dumps(ret,ensure_ascii=False,indent