Python爬虫实战（1）：爬取Drupal论坛帖子列表

1，引言

在《Python即时网络爬虫项目: 内容提取器的定义》一文我们定义了一个通用的python网络爬虫类，期望通过这个项目节省程序员一半以上的时间。本文将用一个实例讲解怎样使用这个爬虫类。我们将爬集搜客老版论坛，是一个用Drupal做的论坛。

2，技术要点

我们在多个文章都在说：节省程序员的时间。关键是省去编写提取规则的时间，尤其是调试规则的正确性很花时间。在《1分钟快速生成用于网页内容提取的xslt》演示了怎样快速生成提取规则，接下来我们再通过GooSeeker的api接口实时获得提取规则，对网页进行抓取。本示例主要有如下两个技术要点：

通过GooSeeker API实时获取用于页面提取的xslt
使用GooSeeker提取器gsExtractor从网页上一次提取多个字段内容。

3，python源代码

源代码下载位置请看文章末尾的GitHub源。

4，抓取结果

运行上节的代码，即可在控制台打印出提取结果，是一个xml文件，如果加上换行缩进，内容如下图：

5，相关文档
1， Python即时网络爬虫项目: 内容提取器的定义

6，集搜客GooSeeker开源代码下载源
1， GooSeeker开源Python网络爬虫GitHub源

7，文档修改历史
1，2016-06-07：V1.0
2，2016-06-07：V2.0
3，2016-06-07：V2.1，增加GitHub下载源

时间： 2024-10-05 15:55:16

Python爬虫实战（1）：爬取Drupal论坛帖子列表的相关文章

python爬虫实战(一)----------爬取京东商品信息

本文章的例子仅用于学习之用,如涉及版权隐私信息,请联系本人删除,谢谢. 最近一直在练习使用python爬取不同网站的信息,最终目的是实现一个分布式的网络爬虫框架,可以灵活适用不同的爬取需求. 项目github地址: https://github.com/happyAnger6/anger6Spider 在学习的过程中遇到不少问题,在这里做一下总结,并分享出来,希望有兴趣的朋友批评指正,共同学习共同进步. 本着实用至上的目的,不准备过多讲实现细节和原理,直接通过项目需求来边实战边学习,因此本系列文

Python爬虫实战：爬取腾讯视频的评论

前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 易某某 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 http://note.youdao.com/noteshare?id=3054cce4add8a909e784ad934f956cef 一.前提条件安装了Fiddler了(用于抓包分析) 谷歌或火狐浏览器如果是谷歌浏览器,还需要给谷歌浏览器安装一个SwitchyOmega插件,用于

python爬虫实战,多线程爬取京东jd html页面：无需登录的网站的爬虫实战

[前言] # 本脚本用来爬取jd的页面:http://list.jd.com/list.html?cat=737,794,870到 # ......http://list.jd.com/list.html?cat=737,794,870&page=11&JL=6_0_0的所有html的内容和图片. # 本脚本仅用于技术交流,请勿用于其他用途 # by River # qq : 179621252 # Date : 2014-12-02 19:00:00 [需求说明] 以京东为示例,爬取页面

芝麻HTTP：Python爬虫实战之爬取糗事百科段子

首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的情况,是因为正则表达式没有匹配到的缘故. 现在,博主已经对程序进行了重新修改,代码亲测可用,包括截图和说明,之前一直在忙所以没有及时更新,望大家海涵! 更新时间:2015/8/2 糗事百科又又又又改版了,博主已经没心再去一次次匹配它了,如果大家遇到长时间运行不出结果也不报错的情况,请大家参考最新的评

python 爬虫实战4 爬取淘宝MM照片

本篇目标抓取淘宝MM的姓名,头像,年龄抓取每一个MM的资料简介以及写真图片把每一个MM的写真图片按照文件夹保存到本地熟悉文件保存的过程 1.URL的格式在这里我们用到的URL是 http://mm.taobao.com/json/request_top_list.htm?page=1,问号前面是基地址,后面的参数page是代表第几页,可以随意更换地址.点击开之后,会发现有一些淘宝MM的简介,并附有超链接链接到个人详情页面. 我们需要抓取本页面的头像地址,MM姓名,MM年龄,MM居住地,

芝麻HTTP:Python爬虫实战之爬取百度贴吧帖子

本篇目标 1.对百度贴吧的任意帖子进行抓取 2.指定是否只抓取楼主发帖内容 3.将抓取到的内容分析并保存到文件 1.URL格式的确定首先,我们先观察一下百度贴吧的任意一个帖子. 比如:http://tieba.baidu.com/p/3138733512?see_lz=1&pn=1 ? http:// 代表资源传输使用http协议 tieba.baidu.com 是百度的二级域名,指向百度贴吧的服务器. /p/3138733512 是服务器某个资源,即这个帖子的地址定位符 see_lz和pn是

【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试. Scrapy吸引人的地方在于它是一个框架,任何人都可

教你分分钟学会用python爬虫框架Scrapy爬取你想要的内容

教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神 python爬虫学习课程,下载地址:https://pan.baidu.com/s/1v6ik6YKhmqrqTCICmuceug 课程代码原件:课程视频: 原文地址:http://blog.51cto.com/aino007/2123341

Python 爬虫入门之爬取妹子图

Python 爬虫入门之爬取妹子图来源:李英杰链接: https://segmentfault.com/a/1190000015798452 听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. GitHub 地址: https://github.com/injetlee/Python/blob/master/%E7%88%AC%E8%99%AB%E9%9B%86%E5%90%88/meizitu.py 爬虫成果当你运行代码后,文件夹就会越来越多,如果爬完的话会有2

猜你喜欢

两个链表的第一个公共节点

已知有两个链表,他们可能相交于某一点,求出该点. 方法1.对于第一个链表,每访问一个节点,对该节点做标记.访问第二个链表,如果该元素已经访问,则第一个这样的元素就是所求点. 由于两个链表都访问了一遍, ...

linux 命令cut用法

cut命令 cut [OPTION]... [FILE]... -d DELIMITER: 指明分隔符 -f FILEDS: ...

九度OJ1004 Median

题目描述: Given an increasing sequence S of N integers, the median is the number at the middle position. ...

打篮球 ( pass ) 图论

[题目描述] 信息组的同学是比较喜欢打篮球的. 喜欢打篮球的同学很容易发现传球在篮球运动中是非常重要的,球传的好也就意味着球打的顺.经常传球虽然不一定保证 100% 概率进球,但是总归是使球场气氛更 ...

Java_隐式类型转换

1.大转小,丢失精度报错 int a=100; byte b=50; b=a+b; 如果,强制类型转换,结果就是错误答案 int a=100; byte b=50; b=(byte) (a+b);-- ...

1.一个".java"源文件中是否可以包括多个类(不是内部类)?有什么限制? 答:可以包括多个类:限制:一个文件只能有一个public类,且与文件名同名. 2.Java有没有got ...

HTML5 Canvas入门

HTML5的canvas(画布)元素使用JavaScript在网页上绘制图像.下面以一个简单例子及其效果图(图1)开始: <!DOCTYPE HTML> <html> < ...

Laravel创建Model

它已被用于CI框架.最近学习使用Laravel框架,要总结一些遇到的问题是一个创纪录,供以后调用.此外,我希望能够碰到同样的问题的朋友的帮助. 在Laravel数据库表是根据Laravel写好的程序去 ...

find a way to escape--hdu1593

题目链接 : http://acm.hdu.edu.cn/showproblem.php?pid=1593 找到二者角速度相等时水中人的R,在此之前二者保持在一条直线上,之后水中的人沿直线到岸边S点匀 ...

16.同步和异步有何异同,在什么情况下分别使用他们?举例说明.如果数据将在线程间共享.例如正在写的数据以后可能被另一个线程读到,或者正在读的数据可能已经被另一个线程写过了,那么这些数据就是共享数据,必 ...

OpenCV: OpenCv移植到ARM-Linux

安装opencv2.0 解压OpenCV-2.0.0.tar.bz2 tar xvf OpenCV-2.0.0.tar.bz2 配置 ./configure --host=arm-linux \ -- ...

从编译器源代码中提取ARMv8的指令编码

2012年11月份的资料,之前ARMv8手冊还没公布,我想办法从编译器的binutils中提取出了全部ARMv8指令的二进制编码,之前不能随便发,如今相当于解禁了^_^. 问题1:提取ARMv8的指令 ...

FragmentStatePagerAdapter和FragmentPagerAdapter区别

1.如果ViewPager中加载的是Fragment,则提供的Adpater可以继承于具体的:FragmentStatePagerAdapter或FragmentPagerAdapter 2.Frag ...

(转载)Java之外观模式（Facade Pattern）

1.概念为子系统中的一组接口提供一个统一接口.Facade模式定义了一个高层接口,这个接口使得这子系统更容易使用. 2.UML 3.代码下面是一个具体案例的代码: 1 package facade ...

2015北京网络赛 Couple Trees 倍增算法

2015北京网络赛 Couple Trees 题意:两棵树,求不同树上两个节点的最近公共祖先思路:比赛时看过的队伍不是很多,没有仔细想.今天补题才发现有个倍增算法,自己竟然不知道. 解法来自 q ...

#!/bin/bash # if [ -f $1 ];then echo "file already exist" && exit else touch $1 ...

Aspose.Words for .NET基本介绍以及功能介绍

闲暇之下,跑去官网把Aspose.Words for .NET给翻译了,因为这个功能比较强大,要是翻译错了,多多包含,希望对各位还是有点用处 Aspose.Words for .NET是一个先进的 ...

Ubuntu14.10安装jdk8

ubuntu 14.10 安装 JDK http://www.cnblogs.com/0616--ataozhijia/p/4122121.html http://jingyan.baidu.com/ ...

c#交换变量的几种方法（笔试之一）

大家很熟悉知道,交换变量经常的使用的一种方法是使用第三个变量,也符合正常人的思维逻辑,但是还有其他的一些方法来实现,但是有点“偏门”,记住就好了.下面就列举这几种方法. 第一种方法,会用到参数的方法再 ...

salt jinja模板中变量使用pillar的几种方法

先转载下jinja模板中使用变量的方法,后文主要讲解pillar的变量使用方法一.jinja模版的使用方法: 1.file状态使用template参数 - template:jinja 2.模版文件 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.