我是一只百度贴吧的小爬虫

总体功能:查看特定帖子楼主的发言(不包含图片)

前段时间大概看了python的语法,但是确实第一次用python来写东西。很久之前就想学python,学爬虫了,现在终于开始了!谢了自己的第一个爬虫,很开心O(∩_∩)O 觉得学东西兴趣很重要,爬虫真的好玩!

整个功能的实现含有两个类,一个是工具类Tool,另一个是百度贴吧的爬虫类BaiduTieba,提取网页的内容主要还是正则表达式。代码如下:

# -*- coding:utf-8 -*-
import urllib
import urllib2
import re

#工具类,用于去除一些链接之类的特殊标签
class Tool:
    #去除图片链接
    removeImage = re.compile(‘<img class="BDE_Image".*?>‘)
    #去除<br>
    removeBR = re.compile(‘<br>‘)
    #去除超链接
    removeHref = re.compile(‘<a href=.*?</a>‘)

    def replaceStrange(self,x):
        x = re.sub(self.removeImage,"",x)
        x = re.sub(self.removeBR,"\n",x)
        x = re.sub(self.removeHref,"",x)
        return x.strip()

#百度贴吧爬虫类
class BaiduTieba:
    def __init__(self,baseUrl,seeLZ):
        #帖子基址
        self.baseUrl = baseUrl
        #只看楼主seeLZ=1
        self.seeLZ = ‘?see_lz=‘+str(seeLZ)
        self.tool = Tool()

    def getPage(self,pageNum):
        try:
            url = self.baseUrl + self.seeLZ + ‘&pn=‘ + str(pageNum)
            request = urllib2.Request(url)
            response = urllib2.urlopen(request)
            #print response.read()
            return response.read().decode(‘utf-8‘)
        except urllib2.URLError,e:
            if hasattr(e,"reason"):
                print e.reason
                return None

    def getTitle(self):
        page = self.getPage(1)
        pattern = re.compile(‘<h1 class="core_title_txt.*?>(.*?)</h1>‘,re.S)
        result = re.search(pattern,page)
        if result:
            print "success!"
            print result.group()
        else:
            print "failed!"

    def getContent(self,page):
        #正则表达式匹配
        pattern = re.compile(‘<div id="post_content_.*?>(.*?)</div>‘,re.S)
        items = re.findall(pattern,page)
        floor = 1
        for item in items:
            print ‘\n‘,floor,u"楼-----------------------------------------------------------------------------------"
            print self.tool.replaceStrange(item)
            floor += 1

print u"请输入帖子编号:"
baseURL = ‘http://tieba.baidu.com/p/‘ + str(raw_input(u‘http://tieba.baidu.com/p/‘))
baidu = BaiduTieba(baseURL,1)
baidu.getContent(baidu.getPage(1))

效果如图(扒一扒这些年朋友之上恋人未满的逗逼):

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-12-28 08:14:30

我是一只百度贴吧的小爬虫的相关文章

抓取百度贴吧python小爬虫 (2015最新版)

网上好多抓取贴吧的小爬虫都失效了,原因是百度贴吧的编码格式变了,或者是html代码变了,像这种简单的读取源代码的爬虫,只要网页源代码改变之后就得重新修改. 请诸位大牛指点. # -*- coding:utf8 -*- """ 程序就是读取网页的源代码,如果想获取相应的内容就找到其特定的格式,再利用正则表达式来获取. """ import string import urllib2 import re class html_Tool: #为了提取文

对于《我是一只IT小小鸟》读后感

第一次听说<我是一只IT小小鸟>是在之前班级群里,同学转发的.当时对这个大文章没有起多大的兴趣.直到后来上的大学创业与指导老师多次提及这篇文章,并且是出于作业的原因去深入了解这篇文章. 在网上下载这本书之前还去百度了一下简介,关于IT专业大学生的创业中的酸甜苦辣,创业之前的努力和准备.关于学长学姐们创业经验的传授. 很多人说过这样一句话:姜还是老的辣.我想作者写篇文章的目的在于给我们这些后辈一些前车之鉴,让我们能少走弯路. 回归正题: 读<我是一只IT小小鸟>主要内容是:来自十几所

《我是一只IT小小鸟》读书笔记

大一进来的第一个学期 我对我所读的软件工程专业感到迷茫与不知.就这么昏昏沉沉的度过了一个学期,第二个学期一开始,在上第一节新增加的“大学生创业与指导”课程充满了好奇,在课上老师推荐的一本书<我是一只IT小小鸟>更是让我充满好奇,<我是一只IT小小鸟>的实书没买到,就上网看电子书了,一天就看完了,看得有点仓促,所以理解估计不深…… 这本书说到了大学里面的一些专业的选择与内容:社团活动:竞赛:实验室:实习:求职:出国:技术社区:人际交往:时间管理:压力管理……看看别人在里面如何学习,如

《我是一只IT小小鸟》读后感

作为一名普通的软件工程大学生,我也算是身处IT行业了.读过<我是一只IT小小鸟>这本书之后我发现,这个曾经火热的行业,虽然经历过一次次的人才补给,但是它和别的行业一样需要有新的血液补充.而我,就立志要成为这新的血液,而且是不一样的血液. 要成为新血液,就要先充实自己,充实自己最好的途径就是学习.最适合学习的地方就是大学. 学习之前,要先搞清楚自己的兴趣是什么.俗话说得好,想“兴趣是最好的老师.”有兴趣的自主学习往往比被迫的被动学习有效的多.兴趣不仅是学习的老师,也是在投入IT行业之后全身心工作

我是一只IT小小鸟读书笔记

春回大地.万物复苏,春天如期而至,而我内心的迷茫也从未消散.我害怕开学,开学意味着将漫无目的地学习自己本用不着的东西.但也在感慨时光似箭一去不返. 在大一这个懵懂的阶段中,许多大学生都不是很清楚自己将要面对的是什么,今后的方向,甚至现在该干些什么.一届又一届的学长学姐都告诫我们大一的新生不要虚度这四年的时光,青春太宝贵,千万别浪费.可我们又该做些什么呢?我们迷茫在学海中了.就当这时我们的职业生涯规划老师给迷茫中的我们推荐了一本名叫<我是一只IT小小鸟>的成长书籍.一开始我并不是太愿意去阅读这本

阅读《我是一只IT小小鸟有感》

 大学是一段人生的特殊旅程,时间总是在我们的不经意间悄悄的流逝,一转眼 所为的四年大学已经过了8分之1, 这还有多少个8分之1可以用来浪费. 而在这8分之1的大学生活里,我已经学到了什么? 又收获了什么,又浪费了多少的青春.我总是这样问着自己,可是每天都是不一样的答案.我喜欢代码,喜欢手敲击在键盘上的感觉,喜欢钻研同学问我的代码问题,哪怕我想到头不断的作痛也无所谓,我的朋友说我偏执,我无所谓,我觉得认真对待我喜欢的,再偏执又如何. 这些天在看这本<我是一只IT小小鸟>,书中学长学姐的经历,才让

《我是一只IT小小鸟》

书就是知识的海洋,<我是一只IT小小鸟>就是老师推荐给我们的,当然,在老师推荐之前我没有听说过这本书,听起来有点可悲,看完这本书我就来谈谈的看完的感受:    <我是一只IT小小鸟>讲的是十几所学校男生,或女生:或科班,或半路转行.分布在不同的公司,或外企,或国企,或民企,老板有土有洋.有失意,有快意:有泪水,有欢笑.在失望中追求希望,在迷茫中辨别方向.他们用自己的成长故事,告诉在校的师弟师妹们:青春太宝贵,千万别浪费:要想不浪费,万事早准备. 本书教会了我很多,无论做什么事情都要

我是一只IT小小鸟读后感(15软工5班-18号)

读了我是一只IT小小鸟后,我局的学习和进步才是大学的主题,荒废其中任何一个都不能让大学生活过的充实而完整. 初入大学校园的我们是一群嗷嗷待哺的雏鸟,处于这样的教育体系下.但相信,我们不是被环境改变,而是去改变自己所处的环境.迟早有一天,我们会是翱翔于IT行业的雄鹰.当然,这其中要付出颇多的努力:学会仰望,制定明确的目标:奠定足够扎实的基础,学会过“硬”的知识,并将它“软”化起来,并通过不断的实践,找出弱点,静下心来为自己的人生编写代码. 中国IT行业发展不到二十年,却是一个新兴行业,正如俗话所说

《我是一只IT小小鸟读后感》

在上大学之前,我对软件工程是一个什么专业根本了解不多,甚至有时感到很迷茫.在上完半学期之后还是对软件工程朦朦的,直至我读了<我是一只IT小小鸟>这本书,让我更深一步了解了IT行业. 让我体会很深的是以下几点: 一要有计划,并经常实践,二要多阅读有关专业的书籍,并常与他人交流经验,此外还有多做总结.三在面对困难时要独立解决,且冷静的.理智的分析原因.并能保持良好的心态去迎接新的挑战,这样才能走的更远.四要真正的并熟练的掌握基础知识.这样我们才有足够的墨水.五要时时关注新IT技术的更替,让我保持强