爬取 CVPR 2018 过程中遇到的坑
使用语言及模块
- 语言: Python 3.6.6
- 模块: re requests lxml bs4
过程
一开始都挺顺利的,先获取到所有文章的链接再逐个爬取获取内容,
中间有一部分的是用正则进行匹配出想要的内容,写完了就想全部跑一遍试试吧。
爬到一半出错了,看了一下是这篇出问题了。
好吧,那就f12看看什么情况。
emmmmm....
跟之前的差不多啊...
直接复制下来匹配试试
。。。都能匹配到啊。。。
直到....emmmm....看看不print出来的是啥玩意...
\xa0 ??? 大哥你谁啊,怎么跑进来了呢???
\xa0
\xa0是什么?
最后
最后修改了一下正则...
嗯..解决了
原文地址:https://www.cnblogs.com/darkexisted/p/9692894.html
时间: 2024-11-08 06:09:21