使用Python爬取糗事百科热门文章

默认情况下取糗事百科热门文章只有35页，每页20条，根据下面代码可以一次性输出所有的文章，也可以选择一次输出一条信息，回车继续。不支持图片内容的显示，显示内容包括作者，热度（觉得好笑的人越多，热度越高），内容。从热度最高开始显示到最低。实现代码如下：

#!/usr/bin/python
#coding:utf8
"""
爬取糗事百科热门文章
"""

import urllib2
import re

#模拟浏览器访问，否则无法访问
user_agent = r"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36"

#匹配作者，内容和认为段子好笑的人数
regex1 = re.compile(r‘<h2>(.*?)</h2>.*?<div class="content">.*?<span>(.*?)</span>.*?<div class="stats">.*?<i class="number">(.*?)</i>‘, re.S)

n = 1
for i in range(0,35):
    
    url = "https://www.qiushibaike.com/8hr/page/%s/" %(n)
    
    request = urllib2.Request(url, headers={"User-Agent":user_agent})
    response = urllib2.urlopen(request)
    response = response.read()
    
    paragraph = regex1.findall(response)
    
    for i in paragraph:
        author = i[0]
        text = re.sub(‘<br/>‘, ‘\n‘, i[1])
        count = i[2]
        print("作者：%s" %(author))
        print("好笑：%s" %(count))
        print("内容：%s" %(text))
        print("\n")
        #注释下面三行就一次性显示所有文章
        q = raw_input("退出请输入q/Q，继教看请直接回车：")
        if q == "q" or q == "Q":
            break
    if q == "q" or q == "Q":
            break
    n += 1

时间： 2024-08-06 23:54:21

使用Python爬取糗事百科热门文章的相关文章

多线程爬取糗事百科热门段子 (改写前天的博客)

利用多线程爬取,除了先前用到的几个模块之外,还需用到threading模块和queue模块: 为每一件事情开启一个线程:构造url_list.发送请求.提取数据.保存数据 __init__方法添加三个实例属性队列分别存放:url.响应内容.处理后的数据改写原先每一个方法里的代码,需要的东西直接从队列中取出,此时方法都无需多余参数了每当从一个队列取出数据,记得执行task_done()方法,使计数减一 run()方法里把yaozhixing的事情都开启一个线程,比较慢的事情,比如网络请求,可以

python爬取糗事百科段子

初步爬取糗事百科第一页段子(发布人,发布内容,好笑数和评论数) 1 #-*-coding:utf-8-*- 2 import urllib 3 import urllib2 4 import re 5 page = 1 6 url ='http://www.qiushibaike.com/hot/page/'+str(page) #第一页URL 7 headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/

python 爬取糗事百科 gui小程序

前言:有时候无聊看一些搞笑的段子,糗事百科还是个不错的网站,所以就想用Python来玩一下.也比较简单,就写出来分享一下.嘿嘿环境:Python 2.7 + win7 现在开始,打开糗事百科网站,先来分析.地址:https://www.qiushibaike.com 一般像这种都是文本的话,查看源代码就可以看到内容了. 已经可以看到都是在一个class 为content 的div里面,这样就很简单了,直接上正则表达式来匹配就好了. <div.*?class="content"&

[Python]爬取糗事百科

# coding=utf-8 import urllib2 import urllib import re class QiuShi: def _init_(self): self.page = 1 # 从网页获取糗事 def GetQiuShis(self,page): #网址 url = "http://www.qiushibaike.com/hot/page/"+page #伪装浏览器 user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5

爬虫爬取糗事百科热门板块的信息

分析: 1.先查看返回的内容是否与显示的内容一样 2.再看页数的变化,每次会加一,总共13页,因此可以一次性构造地址列表 3.因此可直接结合 chrome插件 xpath helper 与 elemetns显示的内容进行定位要爬取的内容用到的模块 requests+json+lxml+xpath 下面是代码: import requests import json from lxml import etree class QiubaiSpider: def __init__(self): se

Python爬取糗事百科示例代码

参考链接:http://python.jobbole.com/81351/#comment-93968 主要参考自伯乐在线的内容,但是该链接博客下的源码部分的正则表达式部分应该是有问题,试了好几次,没试成功.后来在下面的评论中看到有个使用BeautifulSoup的童鞋,试了试,感觉BeautifulSoup用起来确实很便捷. 1 # -*- coding:utf-8 -*- 2 3 ''' 4 Author:LeonWen 5 ''' 6 7 import urllib 8 import ur

Python 爬取糗事百科段子

直接上代码 #!/usr/bin/env python # -*- coding: utf-8 -*- import re import urllib.request def gettext(url,page): headers=("User-Agent","Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/53

Python爬虫实战-爬取糗事百科段子

1.本文的目的是练习Web爬虫目标: 1.爬去糗事百科热门段子 2.去除带图片的段子 3.获取段子的发布时间,发布人,段子内容,点赞数. 2.首先我们确定URL为http://www.qiushibaike.com/hot/page/10(可以随便自行选择),先构造看看能否成功构造代码: 1 # -*- coding:utf-8 -*- 2 import urllib 3 import urllib2 4 import re 5 6 page = 10 7 url = 'http://www

芝麻HTTP：Python爬虫实战之爬取糗事百科段子

首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的情况,是因为正则表达式没有匹配到的缘故. 现在,博主已经对程序进行了重新修改,代码亲测可用,包括截图和说明,之前一直在忙所以没有及时更新,望大家海涵! 更新时间:2015/8/2 糗事百科又又又又改版了,博主已经没心再去一次次匹配它了,如果大家遇到长时间运行不出结果也不报错的情况,请大家参考最新的评