所谓的python web爬虫基础

import re

正则表达式:

常用的符号:点号 问号 星号 和小括号
.:匹配任意字符,换行符\n除外
——点号可以理解为占位符,一个点号匹配一个字符。
*:匹配前一个字符0次或无限次
?:匹配前一个字符0次或者1次
.*:贪心算法(尽可能多的匹配到数据)
.*?:非贪心算法(尽可能多的找到满足条件的组合)
():括号内的数据将会作为结果返回。

常用的方法:findall,Search,Sub
findall:匹配所有符合规律的内容
Search:匹配并提出第一个符合规律的内容,返回一个正则表达式对象
Sub:替换符合规律的内容,返回替换后的值

万能表达式:
(.*?)

多行表达式的匹配
re.S

s=‘‘‘sdfhajkdxxluhuanxx
   lsdhfxxwangpiaoxxsjdkf‘‘‘
sub=re,findall(‘xx(.*?)xx‘,s,re.S)

//findall和search的区别
sub= re.search(‘xx(.*?)xxdsfaxx(.*?)xx‘,s,re.S).group(1)
sub= re.findall(‘xx(.*?)xxdsfaxx(.*?)xx‘,s,re.S)
print sub[0][1]  //在字符串中存在多行满足匹配规则。

小贴士:
匹配数字
a=sdfasd123415ksadfj2345kdsafj
b=re.findall(‘(\d+)‘,a)

匹配原则:
findall 和search匹配使用
先抓大再抓小

时间: 2024-08-28 21:03:39

所谓的python web爬虫基础的相关文章

Python网络爬虫基础知识学习

对Python有一些简单了解的朋友都知识Python编程语言有个很强大的功能,那就是Python网络爬虫(http://www.maiziedu.com/course/python/645-9570/),一提到Python,就会想到相关的Python爬虫和scrapy等等,今天就来简单认识学习Python爬虫的基础知识,有了一定的相关爬虫知识,以后学习scrapy.urllib等等知识时,会相对轻松些. 爬虫: 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组

第十七章:Python の Web开发基础(四) MVC与Django

本課主題 MVC 介绍 Django 介紹 MVC 介绍 controllers 处理用户请求 views 放置HTML模版 models 操作数据库 MVC框架就是目录的归类 MVC 是一种软件开发的方法,它把代码的定义和数据访问的方法(模型)与请求逻辑 (控制器)还有用户接口(视图)分开来 Django 介紹 Django开发的一般流程包括模型设计.URL设计.视图编码.模板设计,搭建Django应用的一种典型流程是:先设计好模型,然后就尽快把admin 运行起来,以便你的员工.客户可以尽快

第十四章:Python の Web开发基础(一)

本課主題 HTML 介绍 CSS 介绍 HTML 介绍 HTML 的头部份,重点: 定义HTML 的编码:<meta charset="UTF-8"/> 定义标题: <title name="'janice">s1</title> 定义标题旁边的图片:<link rel="shortcut icon" href="mikasa.icon" />  <head> <

自学Python之四 爬虫基础知识储备

首先,推荐两个关于python爬虫不错的博客:Python爬虫入门教程专栏   和 Python爬虫学习系列教程 .写的都非常不错,我学习到了很多东西!在此,我就我看到的学到的进行总结一下! 爬虫就是一个不断的去抓去网页的程序,根据我们的需要得到我们想要的结果!但我们又要让服务器感觉是我们人在通过浏览器浏览不是程序所为!归根到底就是我们通过程序访问网站得到html代码,然后分析html代码获取有效内容的过程.下面让我们从最简单的爬虫开始: 爬取一个页面源代码 在python中,抓取网页的库是ur

第十五章:Python の Web开发基础(二)

本課主題 JavaScript 介绍 DOM 介绍 jQuery 介绍 JavaScript 介绍 JavaScript 是一门编程语言,它可以让网页动起来的,JavaScript 的变量有两种,一个是局部变量:一个是全区变量.怎么分啦? a = 123; // 全区变量 var a = 123; // 局部变量 JavaScript 的数据类型 JavaScript 的数字类型 parseInt: y = "111" "111" r2 = parseInt(y)

Selenium基于Python web自动化基础二 -- 免登录、等待及unittest单元测试框架

一.免登录在进行测试的过程中难免会遇到登录的情况,给测试工作添加了工作量,本文仅提供一些思路供参考解决方式:手动请求中添加cookies.火狐的profile文件记录信息实现.人工介入.万能验证码.去掉验证码 1.手动在请求中添加cookies信息 1 url = "http://www.baidu.com" 2 driver = webdriver.Firefox() 3 driver.get(url) 4 time.sleep(3) 5 #添加cookies的方式 6 7 c1 =

运维学python之爬虫高级篇(六)scrapy模拟登陆

上一篇介绍了如何爬取豆瓣TOP250的相关内容,今天我们来模拟登陆GitHub. 1 环境配置 语言:Python 3.6.1 IDE: Pycharm 浏览器:firefox 抓包工具:fiddler 爬虫框架:Scrapy 1.5.0 操作系统:Windows 10 家庭中文版 2 爬取前分析 分析登陆提交信息分析登陆信息我使用的是fiddler,fiddler的使用方法就不作介绍了,大家可以自行搜索,首先我们打开github的登陆页面,输入用户名密码,提交查看fiddler获取的信息,我这

零基础学习Python web开发、Python爬虫、Python数据分析,从基础到项目实战!

随着大数据和人工智能的发展,目前Python语言的上升趋势比较明显,而且由于Python语言简单易学,所以不少初学者往往也会选择Python作为入门语言. Python语言目前是IT行业内应用最为广泛的编程语言之一,尤其是近几年来随着大数据和人工智能(机器学习.自然语言处理.计算机视觉等)的发展,Python也得到了越来越广泛的应用,另外Python在Web开发.后端开发和嵌入式开发领域也有广泛的应用. 小编推荐一个学Python的学习裙,九三七六六七 五零九,无论你是大牛还是小白,是想转行还是

python学习八十四天:爬虫基础

爬虫基础 爬虫相关概念简介 什么是爬虫 爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程. 哪些语言可以实现爬虫 1.php:可以实现爬虫.php被号称是全世界最优美的语言(当然是其自己号称的,就是王婆卖瓜的意思),但是php在实现爬虫中支持多线程和多进程方面做的不好. 2.java:可以实现爬虫.java可以非常好的处理和实现爬虫,是唯一可以与python并驾齐驱且是python的头号劲敌.但是java实现爬虫代码较为臃肿,重构成本较大. 3.c.c++:可以实现爬虫.但是