爬取CVPR 2018过程中遇到的坑

爬取 CVPR 2018 过程中遇到的坑

使用语言及模块

  • 语言: Python 3.6.6
  • 模块: re requests lxml bs4

过程

一开始都挺顺利的,先获取到所有文章的链接再逐个爬取获取内容,

中间有一部分的是用正则进行匹配出想要的内容,写完了就想全部跑一遍试试吧。

爬到一半出错了,看了一下是这篇出问题了。

好吧,那就f12看看什么情况。

emmmmm....

跟之前的差不多啊...

直接复制下来匹配试试

。。。都能匹配到啊。。。

直到....emmmm....看看不print出来的是啥玩意...

\xa0 ??? 大哥你谁啊,怎么跑进来了呢???

\xa0

\xa0是什么?

最后

最后修改了一下正则...

嗯..解决了

原文地址:https://www.cnblogs.com/darkexisted/p/9692894.html

时间: 2024-11-08 06:09:21

爬取CVPR 2018过程中遇到的坑的相关文章

ubuntu 换源过程中遇到的坑(一):Could not resolve 'mirrors.aliyun.com'

执行更新数据(sudo apt-get update)提示: Err http://mirrors.aliyun.com trusty Release.gpg Could not resolve 'mirrors.aliyun.com' Err http://mirrors.aliyun.com trusty-updates Release.gpg Could not resolve 'mirrors.aliyun.com' Err http://mirrors.aliyun.com trust

java爬虫爬取的html内容中空格( )变为问号“?”的解决方法

用java编写的爬虫,使用xpath爬取内容后,发现网页源码中的 全部显示为?(问号),但是使用字符串的replace("?", ""),并不能替换,网上找了一下,大概意思是显示的这个问号其实并不是问号,是乱码,主要是由于编码的问题导致的. 解决方法如下: //替换抓取内容中“ ”变为问号的问题 try { intro = new String(intro.getBytes(),"GBK").replace('?', ' ').replace('

java爬虫问题二: 使用jsoup爬取数据class选择器中空格多选择怎么解决

问题描述: 在使用jsoup爬取其他网站数据的时候,发现class是带空格的多选择,如果直接使用doc.getElementsByClass("class的值"),这种方法获取不到想要的数据. 爬取网站页面结构如下: 其中文章列表的div为:<div class="am-cf inner_li inner_li_abtest"></div> 我们可以看到其class的值为:am-cf inner_li inner_li_abtest.带空格的

Oracle RAC安装过程中碰到的“坑”和关键点(二)

(1) 依赖包的安装 Linux下安装Oracle,除了系统配置参数,我觉得依赖包的安装是另一个比较琐碎的操作. 本次安装碰到了几个包的问题: (a) rpm -Uvh gcc-4*提示: 02. error: Failed dependencies: 03.    cloog-ppl >= 0.15 is needed by gcc-4.4.7-4.el6.x86_64 04.    cpp = 4.4.7-4.el6 is needed by gcc-4.4.7-4.el6.x86_64 不

谈 Kylin1.6 streaming kafka cube build 成功过程中遇到的坑

坑太多    --写在片首语 看着Kylin官网(http://kylin.apache.org/docs16/tutorial/cube_streaming.html)里的轻描淡写,似乎只要一步步按着它的步骤来做,就可以很快跑通并得到期待的果子 .但,然并卵...这次的实践让我很清醒地了解到, 在开源的世界里,真的是版本太多,bug太多,坑太多... 如果仅仅是阅读了文档一百遍,而并未去实践,那么也许仅仅阅读理解水平会提高不少.为了走完这一遍操作,得到期待的结果,居然cost 10 days!

Native项目迁入React-Native过程中遇到的坑(0.4x版本)

转载请注明出处王亟亟的大牛之路 最近都在忙着搭架子,找框架,谈需求和开会.甚至都没有时间好好装逼,昨天帮安卓的小伙把项目从安卓整体迁移到了RN的项目下面,过程中遇到很多不可描述的坑,这里给大家分享下经验 先安利,安卓收纳库:https://github.com/ddwhan0123/Useful-Open-Source-Android React-Native收纳库:https://github.com/ddwhan0123/Useful-Open-Source-React-Native 由来

Hive通过查询语句向表中插入数据过程中发现的坑

前言 最近在学习使用Hive(版本0.13.1)的过程中,发现了一些坑,它们或许是Hive提倡的比关系数据库更加自由的体现(同时引来一些问题),或许是一些bug.总而言之,这些都需要使用Hive的开发人员额外注意.本文旨在列举我发现的2个通过查询语句向表中插入数据过程中的问题,希望大家注意. 数据准备 为了验证接下来出现的问题,需要先准备两张表employees和staged_employees,并准备好测试数据.首先使用以下语句创建表employees: create table employ

同前端联调过程中遇到的坑

最近在和前端联调的过程中,发现有个数据他们老是传不到后台,于是在网上查了一下资料后发现原来是disable属性在作乱,更改后解决问题,记录下来备忘. 参考:http://www.3lian.com/edu/2013/06-22/75978.html 1.<inputtype="text" name="name" value="xxx"disabled="true"/> 2.<input type="

【Angular JS】网站使用社会化评论插件,以及过程中碰到的坑

目前正在开发自己的网站,技术上使用Angular JS + Express JS + Mongo DB.由于网站会有文章发布,因此需要有评论功能.评论功能也可以自己开发,但由于现在社会化评论插件很多,因此没有必要多花精力,使用专业的就好. 1. 什么是社会化评论插件?都有哪些常用的插件? 社会化评论插件,指的就是无需自己开发评论功能,在自己网页上使用第三方的评论框,发出的评论将被保存在第三方的服务器上.使用时要在插件提供方官网上注册,注册好之后可获取实现功能的JS代码,以及将来可在官网上管理自己