Python爬虫——网页上的字符按照我的想法输出

最近学习Python爬虫，"明明是按照步骤做，怎么我会出现好多的问题？"

引言：在网页之中，将爬取的内容输出展示出来，但是往往会出现很多的格式的问题，

如 s = “\n\n\n\n\n\n\n\n 正经的内容\n\n\n\ 又是内容 \n 不要的 \n”

如何将上面不要的字符删除或者提取出需要的呢？

1、提取出需要正经的内容\n\n\n\ 又是内容 \n 不要的：

s.text[8:-2]; 就是取出第8个字符，到倒数第二个字符。

2、删除左边的 \n

s.rstrip(‘\n‘);

3、删除右边的字符

s.lstrip(‘\n‘)

4、删除两边的字符

s.strip(‘\n‘).strip(‘ ‘); 删除两边的换行以及空格

5、删除特定的字符

s.replace(‘不要的‘, ‘a‘)；将“不要的”部分内容，用a代替

import re

# 去除\r\n不要的字符

re.sub(‘[\r\n不要的字符]‘, ‘‘, s)

原文地址：https://www.cnblogs.com/sherlocksweet/p/12579486.html

时间： 2024-08-01 10:43:47

Python爬虫——网页上的字符按照我的想法输出的相关文章

python爬虫---->github上python的项目

这里面通过爬虫github上的一些start比较高的python项目来学习一下BeautifulSoup和pymysql的使用.我一直以为山是水的故事,云是风的故事,你是我的故事,可是却不知道,我是不是你的故事. github的python爬虫爬虫的需求:爬取github上有关python的优质项目,以下是测试用例,并没有爬取很多数据. 一.实现基础功能的爬虫版本这个案例可以学习到关于pymysql的批量插入.使用BeautifulSoup解析html数据以及requests库的get请求数

Python爬虫网页图片

一概述参考http://www.cnblogs.com/abelsu/p/4540711.html 弄了个Python捉取单一网页的图片,但是Python已经升到3+版本了.参考的已经失效,基本用不上.修改了下,重新实现网页图片捉取. 二代码 #coding=utf-8 #urllib模块提供了读取Web页面数据的接口 import urllib #re模块主要包含了正则表达式 import re import urllib.parse import urllib.request #定义一

Python 爬虫网页抓图保存

网站选择桌面壁纸网站的汽车主题: 下面的两个print在调试时打开 #print tag #print attrs #!/usr/bin/env python import re import urllib2 import HTMLParser base = "http://desk.zol.com.cn" path = '/home/mk/cars/' star = '' def get_url(html): parser = parse(False) request = urlli

python爬虫（下）--模拟登录与Captcha识别

前言之前在 python爬虫(上)–请求--关于模拟浏览器方法,中我挖了一个坑,时隔一个多月,趁着最近有点空,我想是时候填填坑了,总结总结了,不然真的就忘了验证码虽然之前挖坑的那篇已经说了一些,现在还是稍微说一说. 在模拟登录中,其实让写爬虫的人疼头就是验证码,只要能破掉验证码,那么登录不是问题. 验证码(Chaptcha)内容从英文字符和数字识别,到数字加减乘除,再到汉字的出现,后面还有12306的看图识别,到现在的新型的基于人的行为的谷歌的reCaptcha,验证码也是经历了很长时间的

【Python爬虫】批量抓取网页上的视频

1.为何学python 编程语言方面,本科这几年一直都用C/C++,因为研究生方向与机器学习相关,所以最近大部分时间在学机器学习,看了<机器学习实战>这本书,里面的实例都是用python来写,并且目前来说,对机器学习算法支持得比较多的语言是python,matlab/octave当然也很适合用于机器学习,但是毕竟是学术工具,速度等方面肯定不如python,工业开发还是用python.c++. 总之对于学习机器学习,python以及NumPy库要熟悉. 所以这两天决定学一下python,就找了个

Python编写网页爬虫爬取oj上的代码信息

OJ升级,代码可能会丢失. 所以要事先备份. 一开始傻傻的复制粘贴, 后来实在不能忍, 得益于大潇的启发和聪神的原始代码, 网页爬虫走起! 已经有段时间没看Python, 这次网页爬虫的原始代码是 python2.7版本, 试了一下修改到3.0版本, 要做很多包的更替,感觉比较烦,所以索性就在这个2.7版本上完善了. 首先观赏一下原始代码,我给加了一些注释: # -*- coding: cp936 -*- import urllib2 import urllib import re import

python爬虫抓网页的总结

python爬虫抓网页的总结更多 python 爬虫学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛中自动登录自动发贴的脚本,写过自动收邮件的脚本,写过简单的验证码识别的脚本,本来想写google music的抓取脚本的,结果有了强大的gmbox,也就不用写了. 这些脚本有一个共性,都是和web相关的,总要用到获取链接的一些方法,再加上simplecd这个半爬虫半网站的项目,累积不少爬虫抓站的经验,在此总结一下,那么以后做东西也就不

Python爬虫之路——简单网页抓图升级版（增加多线程支持）

转载自我的博客:http://www.mylonly.com/archives/1418.html 经过两个晚上的奋斗,将上一篇文章介绍的爬虫稍微改进了下(Python爬虫之路--简单网页抓图),主要是将获取图片链接任务和下载图片任务用线程分开来处理了,而且这次的爬虫不仅仅可以爬第一页的图片链接的,整个http://desk.zol.com.cn/meinv/下面的图片都会被爬到,而且提供了多种分辨率图片的文件下载,具体设置方法代码注释里面有介绍. 这次的代码仍然有点不足,Ctrl-C无法终止程

Python爬虫之路——简单网页抓图升级版（添加多线程支持）

转载自我的博客:http://www.mylonly.com/archives/1418.html 经过两个晚上的奋斗.将上一篇文章介绍的爬虫略微改进了下(Python爬虫之路--简单网页抓图),主要是将获取图片链接任务和下载图片任务用线程分开来处理了,并且这次的爬虫不只能够爬第一页的图片链接的,整个http://desk.zol.com.cn/meinv/以下的图片都会被爬到,并且提供了多种分辨率图片的文件下载,详细设置方法代码凝视里面有介绍. 这次的代码仍然有点不足,Ctrl-C无法终止程序