爬虫实践-爬取糗事百科网段子信息

qiushibaike.py:

# 导入相应的库文件import requestsimport re

# 加入请求头headers = {    ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 ‘                  ‘(KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36‘}

# 初始化列表，用于装入爬虫信息info_lists = []

# 定义获取用户性别的函数def judgment_sex(class_name):    if class_name == ‘womenIcon‘:      return ‘女‘    else:      return  ‘男‘

def get_info(url):    res = requests.get(url)    ids = re.findall(‘<h2>(.*?)</h2>‘, res.text, re.S)    levels = re.findall(‘<div class="articleGender \D+Icon">(.*?)</div>‘, res.text, re.S)    sexes = re.findall(‘<div class="articleGender (.*?)">‘, res.text, re.S)    contents = re.findall(‘<div class="content">.*?<span>(.*?)</span>‘, res.text, re.S)    laughs = re.findall(‘<span class="stats-vote"><i class="number">(\d+)</i>‘, res.text, re.S)    comments = re.findall(‘<i class="number">(\d+)</i> 评论‘, res.text, re.S)    for id, level, sex, content, laugh, comment in zip(ids, levels, sexes, contents, laughs, comments):        info = {            ‘id‘: id,            ‘level‘: level,            ‘sex‘: judgment_sex(sex),            ‘content‘: content,            ‘laugh‘: laugh,            ‘comment‘: comment        }        info_lists.append(info)

# 程序主入口if __name__ == ‘__main__‘:    urls = [‘http://www.qiushibaike.com/text/page/{}/‘.format(str(i)) for i in range(1, 36)]    for url in urls:        # 循环调用获取爬虫信息的函数        get_info(url)    for info_list in info_lists:        # 遍历列表，创建TXT文件         f = open(‘C:/Users/Administrator//Desktop/qiushi.text‘, ‘a+‘)         try:             # 写入数据到TXT             f.write(info_list[‘id‘])             f.write(info_list[‘level‘])             f.write(info_list[‘sex‘])             f.write(info_list[‘content‘])             f.write(info_list[‘laugh‘])             f.write(info_list[‘comment‘])             f.close()         except UnicodeEncodeError:             # pass掉错误编码             pass

时间： 2025-01-03 09:39:25

爬虫实践-爬取糗事百科网段子信息的相关文章

python3 爬虫之爬取糗事百科

闲着没事爬个糗事百科的笑话看看 python3中用urllib.request.urlopen()打开糗事百科链接会提示以下错误 http.client.RemoteDisconnected: Remote end closed connection without response 但是打开别的链接就正常,很奇怪不知道为什么,没办法改用第三方模块requests,也可以用urllib3模块,还有一个第三方模块就是bs4(beautifulsoup4) requests模块安装和使用,这里就不说

Python爬虫实战-爬取糗事百科段子

1.本文的目的是练习Web爬虫目标: 1.爬去糗事百科热门段子 2.去除带图片的段子 3.获取段子的发布时间,发布人,段子内容,点赞数. 2.首先我们确定URL为http://www.qiushibaike.com/hot/page/10(可以随便自行选择),先构造看看能否成功构造代码: 1 # -*- coding:utf-8 -*- 2 import urllib 3 import urllib2 4 import re 5 6 page = 10 7 url = 'http://www

爬虫实战爬取糗事百科

偶然看到了一些项目,有爬取糗事百科的,我去看了下,也没什么难的首先,先去糗事百科的https://www.qiushibaike.com/text/看一下, 先检查一下网页代码, 就会发现,需要爬取的笑话内容在一个span标签里,而且父标签是class为content的div里,那就很简单了,用select方法,先找到该文件,然获取下来并保存在txt文件里.比较枯燥. 直接贴代码吧 from bs4 import BeautifulSoup import lxml import request

多线程爬取糗事百科热门段子 (改写前天的博客)

利用多线程爬取,除了先前用到的几个模块之外,还需用到threading模块和queue模块: 为每一件事情开启一个线程:构造url_list.发送请求.提取数据.保存数据 __init__方法添加三个实例属性队列分别存放:url.响应内容.处理后的数据改写原先每一个方法里的代码,需要的东西直接从队列中取出,此时方法都无需多余参数了每当从一个队列取出数据,记得执行task_done()方法,使计数减一 run()方法里把yaozhixing的事情都开启一个线程,比较慢的事情,比如网络请求,可以

#python爬虫：爬取糗事百科段子

#出处:http://python.jobbole.com/81351/#确定url并抓取页面代码,url自己写一个import urllib,urllib2def getUrl(): page=1 url="http://www.qiushibaike.com/hot/page/"+str(page) try: request=urllib2.Request(url) response=urllib2.urlopen(request) print response.read() ex

Python爬虫：爬取糗事百科

网上看到的教程,但是是用正则表达式写的,并不能运行,后面我就用xpath改了,然后重新写了逻辑,并且使用了双线程,也算是原创了吧#!/usr/bin/python# -*- encoding:utf-8 -*- from lxml import etreefrom multiprocessing.dummy import Pool as ThreadPoolimport requestsimport sys#编码reload(sys)sys.setdefaultencoding('utf-8')

芝麻HTTP：Python爬虫实战之爬取糗事百科段子

首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的情况,是因为正则表达式没有匹配到的缘故. 现在,博主已经对程序进行了重新修改,代码亲测可用,包括截图和说明,之前一直在忙所以没有及时更新,望大家海涵! 更新时间:2015/8/2 糗事百科又又又又改版了,博主已经没心再去一次次匹配它了,如果大家遇到长时间运行不出结果也不报错的情况,请大家参考最新的评

PHP爬取糗事百科首页糗事

突然想获取一些网上的数据来玩玩,因为有SAE的MySql数据库,让它在那呆着没有什么卵用!于是就开始用PHP编写一个爬取糗事百科首页糗事的小程序,数据都保存在MySql中,岂不是很好玩! 说干就干!首先确定思路获取HTML源码--->解析HTML--->保存到数据库没有什么难的 1.创建PHP文件"getDataToDB.php", 2.获取指定URL的HTML源码这里我用的是curl函数,详细内容参见PHP手册代码为 <span style="fo

爬取糗事百科的图片

小编,最近写了个单线程的爬虫,主要是爬取糗事百科的图片之类的,下面是源代码,小伙伴们可以拿去参照,学习 #!/usr/bin/env python# -*- coding:utf-8 -*-import requests,jsonimport requests,re,os,timeimport urllib.requestimport urllib.parseimport sslimport unittestfrom selenium import webdriver headers = {"U