Python抓取段子的爬虫

1.需求

按下回车键，显示一个段子，要求显示段子的作者、点赞数、评论数、顶等信息。

2.段子网站

地址：http://www.qiushibaike.com/hot/page/1，更换后面的数字可以获取不同页的段子，每页有10多条段子吧，因此爬虫从读取该网页并解析就好了。

3.实现方式

这里使用的Python库都是系统自带的，所以不需要安装额外的第三方库，使用的库主要是urllib2--用于获取网页内容，re-正则表达式解析获取网页信息。

其中urllib2需要注意设置header和以request的方式请求网页，而最主要的则是re正则表达式的写法了，这个见仁见智，我正则表达式不是很熟，也就能写个能用的，所以……质量不能保证哈。

获取的每个段子的内容基本都是这样子的：

<div class="article block untagged mb15" id='qiushi_tag_106723566'>
<div class="author">

<a href="/users/14932928">

<img src="http://pic.qiushibaike.com/system/avtnew/1493/14932928/medium/20141225021149.jpg" alt="王小婕" />

</a>

<a href="/users/14932928">王小婕 </a>

</div>
<div class="content">
家里的哈士奇，训练捡东西一直没学会，直到有一天，兜里钱掉了，他丫叼着不撒口，从此学会捡钱了，有一天他和一个硬币较上劲了，叼不起来，丫的硬是用舌头舔回家……

<!--2015-05-22 23:56:08-->
</div>
<div class="stats">

<span class="stats-vote"><i class="number">16479</i> 好笑</span>

<span class="stats-comments">
<span class="dash"> · </span>

<a href="/article/106723566?list=hot&s=4774673" id="c-106723566" class="qiushi_comments" title="120条评论" target="_blank" onclick="_hmt.push(['_trackEvent', 'post', 'click', 'signlePost'])">

<i class="number">120</i> 回复

</a>
</span>

</div>

<div id="qiushi_counts_106723566" class="stats-buttons bar clearfix">

<ul class="clearfix">

<li id="vote-up-106723566" class="up">

<a href="javascript:voting(106723566,1)" class="voting" data-article="106723566" id="up-106723566" title="16904个顶">

<i class="iconfont" data-icon-actived="
				

				时间： 2024-12-19 06:20:56

Python抓取段子的爬虫的相关文章

我的第一个的python抓取单页面爬虫

爬取豆瓣推荐书籍页的图书的图片保存到本地 # -*- coding UTF-8 -*- import re import requests import os def getsite(url): website=requests.get(url) url="https://book.douban.com/tag/%E7%BC%96%E7%A8%8B" website=requests.get(url) links=re.findall("(https:\/\/img3.dou

基于Casperjs的网页抓取技术【抓取豆瓣信息网络爬虫实战示例】

CasperJS is a navigation scripting & testing utility for the PhantomJS (WebKit) and SlimerJS (Gecko) headless browsers, written in Javascript. PhantomJS是基于WebKit内核的headless browser SlimerJS则是基于Gecko内核的headless browser Headless browser: 无界面显示的浏览器,可以用于

Python抓取网页&批量下载文件方法初探（正则表达式+BeautifulSoup） (转)

Python抓取网页&批量下载文件方法初探(正则表达式+BeautifulSoup) 最近两周都在学习Python抓取网页方法,任务是批量下载网站上的文件.对于一个刚刚入门python的人来说,在很多细节上都有需要注意的地方,以下就分享一下我在初学python过程中遇到的问题及解决方法. 一.用Python抓取网页基本方法: [python] view plaincopyprint? import urllib2,urllib url = 'http://www.baidu.com' req

《一出好戏》讲述人性，使用Python抓取猫眼近10万条评论并分析，一起揭秘“这出好戏”到底如何？

黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至今已有10天,其主演阵容强大,相信许多观众也都是冲着明星们去的.目前<一出好戏>在猫眼上已经获得近60万个评价,评分为8.2分,票房已破10亿. 作者本人(汤小洋 )今天也走进了电影院,对这部电影做了亲身的观看,看完后的感觉是有些许失落的,本以为是喜剧片,结果发现笑点一般,从搞笑的角度来看,不如<西虹市首富>,影片更多的是反映人类本性的一部电影,不应当做喜剧片来看,影片中展现的人与人之间的关系倒是值得我们去深思.

房东要给我涨800房租，生气的我用Python抓取帝都几万套房源信息，我主动涨了1000。

老猫我在南五环租了一个80平两居室,租房合同马上到期,房东打电话问续租的事,想要加房租:我想现在国家正在也在抑制房价,房子价格没怎么涨,房租应该也不会涨,于是霸气拒绝了,以下是聊天记录:确认不续租之后,两三年没找过房的我上网搜索租房,没想到出来一坨自如,蛋壳,贝壳等中介网站:进去看看,各种房照非常漂亮,但是一看房租,想送给自己一首<凉凉>:附近房租居然比我当前房租高1000多RMB:自我安慰下,这些网站房源价格不是真实的,于是切换到我爱我家,链家等大中介平台,结果发现房租价格都差不多:心想这才

手把手教你使用Python抓取QQ音乐数据！

[一.项目目标] 通过手把手教你使用Python抓取QQ音乐数据(第一弹)我们实现了获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名.专辑名.播放链接. 通过手把手教你使用Python抓取QQ音乐数据(第二弹)我们实现了获取 QQ 音乐指定歌曲的歌词和指定歌曲首页热评. 通过手把手教你使用Python抓取QQ音乐数据(第三弹)我们实现了获取更多评论并生成词云图. 此次我们将将三个项目封装在一起,通过菜单控制爬取不同数据. [二.需要的库] 主要涉及的库有:requests.openpyxl.

Python抓取页面乱码问题的解决

import urllib2 response=urllib2.urlopen('http://house.focus.cn/') html=response.read() print html.decode('gbk') Python抓取页面乱码问题的解决,布布扣,bubuko.com

使用python抓取CSDN关注人的所有发布的文章

# -*- coding: utf-8 -*- """ @author: jiangfuqiang """ import re import urllib2 import cookielib import time def startParser(author,page=1): reg = r'<a href="/\w+/article/details/\d+">\s*\t*\n*\s*\t*\s*.*?\t*\n

运用python抓取博客园首页的所有数据，而且定时持续抓取新公布的内容存入mongodb中

原文地址:运用python抓取博客园首页的所有数据,而且定时持续抓取新公布的内容存入mongodb中依赖包: 1.jieba 2.pymongo 3.HTMLParser # -*- coding: utf-8 -*- """ @author: jiangfuqiang """ from HTMLParser import HTMLParser import re import time from datetime import date im