2019基于python的网络爬虫系列，爬取糗事百科

**因为糗事百科的URL改变，正则表达式也发生了改变，导致了网上许多的代码不能使用，所以写下了这一篇博客，希望对大家有所帮助，谢谢！**

废话不多说，直接上代码。

为了方便提取数据，我用的是beautifulsoup库和requests

![使用requests和bs4](https://img-blog.csdnimg.cn/20191017093920758.png)

``## 具体代码如下

```
import requests
from bs4 import BeautifulSoup

def download_page(url):
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0"}
r = requests.get(url, headers=headers)
return r.text

def get_content(html):
soup = BeautifulSoup(html, ‘html.parser‘)
con = soup.find(id=‘main‘)
con_list = con.find_all(‘div‘, class_="cat_llb")
for i in con_list:
author = i.find(‘h3‘).string # 获取名字
content = i.find(‘div‘, id="endtext").get_text() # 获取内容
save_txt(author, content)

def save_txt(*args):
for i in args:
with open(‘qiubai.txt‘, ‘a‘, encoding=‘utf-8‘) as f:

f.write(i+‘\n‘+‘\n‘)

# def save_txt(str):
# for i in str:
#
# with open(‘qiubai.txt‘, ‘a‘, encoding=‘utf-8‘) as f:
# f.write(str + ‘\n‘)
# f.write(i)

def main():
# 可以构造如下 url，

for i in range(1, 20):

url = ‘http://www.lovehhy.net/Joke/Detail/QSBK/{}‘.format(i)
html = download_page(url)
get_content(html)

if __name__ == ‘__main__‘:
main()

```

哦 ,对了，新网站的地址是http://www.lovehhy.net/Joke/Detail/QSBK/
有什么不懂得欢迎留言

原文地址：https://www.cnblogs.com/chx123/p/11692125.html

时间： 2024-12-08 04:11:05

2019基于python的网络爬虫系列，爬取糗事百科的相关文章

python3 爬虫之爬取糗事百科

闲着没事爬个糗事百科的笑话看看 python3中用urllib.request.urlopen()打开糗事百科链接会提示以下错误 http.client.RemoteDisconnected: Remote end closed connection without response 但是打开别的链接就正常,很奇怪不知道为什么,没办法改用第三方模块requests,也可以用urllib3模块,还有一个第三方模块就是bs4(beautifulsoup4) requests模块安装和使用,这里就不说

爬虫实战爬取糗事百科

偶然看到了一些项目,有爬取糗事百科的,我去看了下,也没什么难的首先,先去糗事百科的https://www.qiushibaike.com/text/看一下, 先检查一下网页代码, 就会发现,需要爬取的笑话内容在一个span标签里,而且父标签是class为content的div里,那就很简单了,用select方法,先找到该文件,然获取下来并保存在txt文件里.比较枯燥. 直接贴代码吧 from bs4 import BeautifulSoup import lxml import request

Python爬虫实战-爬取糗事百科段子

1.本文的目的是练习Web爬虫目标: 1.爬去糗事百科热门段子 2.去除带图片的段子 3.获取段子的发布时间,发布人,段子内容,点赞数. 2.首先我们确定URL为http://www.qiushibaike.com/hot/page/10(可以随便自行选择),先构造看看能否成功构造代码: 1 # -*- coding:utf-8 -*- 2 import urllib 3 import urllib2 4 import re 5 6 page = 10 7 url = 'http://www

#python爬虫：爬取糗事百科段子

#出处:http://python.jobbole.com/81351/#确定url并抓取页面代码,url自己写一个import urllib,urllib2def getUrl(): page=1 url="http://www.qiushibaike.com/hot/page/"+str(page) try: request=urllib2.Request(url) response=urllib2.urlopen(request) print response.read() ex

Python爬虫：爬取糗事百科

网上看到的教程,但是是用正则表达式写的,并不能运行,后面我就用xpath改了,然后重新写了逻辑,并且使用了双线程,也算是原创了吧#!/usr/bin/python# -*- encoding:utf-8 -*- from lxml import etreefrom multiprocessing.dummy import Pool as ThreadPoolimport requestsimport sys#编码reload(sys)sys.setdefaultencoding('utf-8')

爬虫实践-爬取糗事百科网段子信息

qiushibaike.py: # 导入相应的库文件import requestsimport re # 加入请求头headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 ' '(KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'} # 初始化列表,用于装入爬虫信息info_lists = [] # 定义获取用户性别的函数def j

使用Python爬取糗事百科热门文章

默认情况下取糗事百科热门文章只有35页,每页20条,根据下面代码可以一次性输出所有的文章,也可以选择一次输出一条信息,回车继续.不支持图片内容的显示,显示内容包括作者,热度(觉得好笑的人越多,热度越高),内容.从热度最高开始显示到最低.实现代码如下: #!/usr/bin/python #coding:utf8 """ 爬取糗事百科热门文章 """ import urllib2 import re #模拟浏览器访问,否则无法访问 user_age

python爬取糗事百科段子

初步爬取糗事百科第一页段子(发布人,发布内容,好笑数和评论数) 1 #-*-coding:utf-8-*- 2 import urllib 3 import urllib2 4 import re 5 page = 1 6 url ='http://www.qiushibaike.com/hot/page/'+str(page) #第一页URL 7 headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/

爬取糗事百科的图片

小编,最近写了个单线程的爬虫,主要是爬取糗事百科的图片之类的,下面是源代码,小伙伴们可以拿去参照,学习 #!/usr/bin/env python# -*- coding:utf-8 -*-import requests,jsonimport requests,re,os,timeimport urllib.requestimport urllib.parseimport sslimport unittestfrom selenium import webdriver headers = {"U

猜你喜欢

偏移二分查找

偏移二分查找系列: 活着,就一直在忙碌,从未有停歇. 今天主要分享一下偏移二分查找算法,至于常用的顺序查找.二分查找.哈希查找.堆查找等,这里就不多说了. 思路:如果数据项规则变化,可先偏移到一个较 ...

IOS-OC-基本控件之UIPageControl

UIPageControl(页面控制器,就是桌面的那些小点点,每个点代表一个界面) 父类是 UIControl. IOS开发中常用的基本控件,主要和UIScrollView一起使用,比较常用的就是有些 ...

ThreadPool.QueueUserWorkItem

ThreadPool.QueueUserWorkItem(_ => { HttpWebRequest request = (HttpWebRequest)WebRequest.Create(&q ...

第8章用户模式下的线程同步

8.1 原子访问:Interlocked系列函数(Interlock英文为互锁的意思) (1)原子访问的原理 ①原子访问:指的是一线程在访问某个资源的同时能够保证没有其他线程会在同一时刻访问该资源. ...

vijos p1876 bfs+map

题意: Xiaodao是一位喜欢参加ACM比赛的孩子. 所谓ACM比赛, 是一种团队比赛. 每一次比赛, 每队需要由恰好三位选手组成. 现在, Xiaodao希望组建一支新的队伍, 在这之前, 他需要 ...

asp之GetArray提取链接地址，以$Array$分隔的代码

'================================================== '函数名:GetArray '作用:提取链接地址,以$Array$分隔 '参数:ConStr ...

部分和问题（DFS）

来源:<挑战程序设计竞赛> 题目描述: 给定整数n个,判断是否能从中选出若干数,使它们的和恰好为k. 输入 n,k,array[0~n-1]; 输出 Yes或者No. 思路: 从a1开始按 ...

吹烁瞥谇瞥88都曰坛ka悸刺

请你们细心地想想:孩子们吉安市水表厂长期处于瘫痪得边,已未期不远,让给年轻人,当今社不会已经进入疗信息时代,开不会就是干部得主要工作. 新陈代谢呀, 有人讲"红眼病"不好治,取得更 ...

直接上图:外部的build.gradle只配置一项: classpath 'org.greenrobot:greendao-gradle-plugin:3.0.0' 然后在app内的build.gra ...

mysql 如果处理货币金钱类型

我们知道,数据库存金钱类型可以float.double.decimal ,相比较而已decimal 最好用. 好吧, 我们公司用的分为单位, 类型用bigint 存取,操作的时候到是很方便, 展示的 ...

CodeChef SEALCM Sereja and LCM(矩阵快速幂)

Sereja and LCM Problem code: SEALCM Submit All Submissions All submissions for this problem are avai ...

C++ 查找文件夹下的文件

#include <string> #include <vector> #include <cstring> #include <cstdio> #in ...

Struts2入门(二)——配置拦截器

一.前言之前便了解过,Struts 2的核心控制器是一个Filter过滤器,负责拦截所有的用户请求,当用户请求发送过来时,会去检测struts.xml是否存在这个action,如果存在,服务器便会自 ...

企业日志分析之linux系统message收集展示

之前写了收集linux系统历史history命令,下面介绍一下系统里日志收集与展示的. 老规矩,先看效果,满意的话继续看. 一.效果图 1.总览 2.linux系统日志收集数据总量主要是展示所选范围 ...

Java for LeetCode 160 Intersection of Two Linked Lists

Write a program to find the node at which the intersection of two singly linked lists begins. For ex ...

php 中两种获得数据库中数据条数的方法

一种是传统的利用mysql_num_rows()来计算 $sql="select * from news"; $res=mysql_query($sql); $number=mys ...

正则去除数组两端的空值

我们前端在与后台人员进行数据交互时,经常会碰到这样的情况,我们经常需要获取文本框中用户输入的信息,然后通过ajax或form提交到后台.但是在用户输入信息时,我们无法保证用户输入的数据两端都没有空格. ...

常用MFC宏

最近我在用MFC开发一个智能家居监控平台的软件(用到了MSCOMM串口通信控件),当我通过在一个对话框类A中定义另一个对话框类B的对象访问B的public成员时,提示不可访问.后来经过多天的向朋友求救 ...

NopCommerce（3.9）作业调度插件

NopCommerce(3.9)作业调度插件视频教程录制完成,下面是插件源码下载地址和插件视频教程下载地址:插件下载地址: http://www.nopcommerce.com/p/2752/jobs ...

smarty 内存缓存

<?php //缓存 //定义一个该页面的缓存文件路径 $filename="../cache/mainhc.html"; //设置一个缓存时间 $time=10; //判断 ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.