python3 获取糗事百科首页的段子

# -*- coding:utf-8 -*-
import urllib
import urllib.request
import re

page = 1
url = ‘http://www.qiushibaike.com/hot/page/1‘+str(page)
user_agent = ‘Mozilla/4.0 (compatible;MSIE 5.5;Windows NT)‘
headers = { ‘User-Agent‘:user_agent}

try:
request = urllib.request.Request(url,headers = headers)
response = urllib.request.urlopen(request)
content = response.read().decode(‘UTF-8‘)
pattern = re.compile(‘<div.*?author">.*?<a.*?<img.*?>(.*?)</a>.*?<div.*?‘+
‘content">(.*?).*?</div>(.*?)<div class="stats.*?class="number">(.*?)</i>‘,re.S)
items = re.findall(pattern,content)
for item in items:
haveImg = re.search("img",item[3])
if not haveImg:
print(item[0],item[1],item[2],item[4])
except urllib.request.URLError :
if hasattr(e,‘code‘):
print(e.code)
if hasattr(e,‘reason‘):
print(e.reason)

时间： 2024-08-21 03:08:15

python3 获取糗事百科首页的段子的相关文章

PHP爬取糗事百科首页糗事

突然想获取一些网上的数据来玩玩,因为有SAE的MySql数据库,让它在那呆着没有什么卵用!于是就开始用PHP编写一个爬取糗事百科首页糗事的小程序,数据都保存在MySql中,岂不是很好玩! 说干就干!首先确定思路获取HTML源码--->解析HTML--->保存到数据库没有什么难的 1.创建PHP文件"getDataToDB.php", 2.获取指定URL的HTML源码这里我用的是curl函数,详细内容参见PHP手册代码为 <span style="fo

Python 爬虫系列：糗事百科最热段子

1.获取糗事百科url http://www.qiushibaike.com/hot/page/2/ 末尾2指第2页 2.分析页面,找到段子部分的位置, 需要一点CSS和HTML的知识 3.编写代码 1 import urllib.request 2 from bs4 import BeautifulSoup 3 from urllib.request import URLError 4 from urllib.request import HTTPError 5 import time

获取糗事百科文字栏目所有用户ID

import requests from lxml import etree import time headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.92 Safari/537.36', 'Cookie': 'gr_user_id = c6f58a39 - ea25 - 4f58 - b448 - 5

爬取糗事百科的热门段子，以及热图链接

# -*- coding:utf-8 -*- import urllib import urllib2 from bs4 import BeautifulSoup import re import os page = 1 while page<10 : url = 'http://www.qiushibaike.com/hot/page/' + str(page) user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' head

python爬取糗事百科段子

初步爬取糗事百科第一页段子(发布人,发布内容,好笑数和评论数) 1 #-*-coding:utf-8-*- 2 import urllib 3 import urllib2 4 import re 5 page = 1 6 url ='http://www.qiushibaike.com/hot/page/'+str(page) #第一页URL 7 headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/

Python爬虫-爬取糗事百科段子

闲来无事,学学python爬虫. 在正式学爬虫前,简单学习了下HTML和CSS,了解了网页的基本结构后,更加快速入门. 1.获取糗事百科url http://www.qiushibaike.com/hot/page/2/ 末尾2指第2页 2.先抓取HTML页面 import urllib import urllib2 import re page = 2 url = 'http://www.qiushibaike.com/hot/page/' + str(page) #对应第2页的url

Python爬虫--抓取糗事百科段子

今天使用python爬虫实现了自动抓取糗事百科的段子,因为糗事百科不需要登录,抓取比较简单.程序每按一次回车输出一条段子,代码参考了 http://cuiqingcai.com/990.html 但该博主的代码似乎有些问题,我自己做了修改,运行成功,下面是代码内容: 1 # -*- coding:utf-8 -*- 2 __author__ = 'Jz' 3 import urllib2 4 import re 5 6 #糗事百科爬虫类 7 class QSBK: 8 #初始化 9 def __

芝麻HTTP：Python爬虫实战之爬取糗事百科段子

首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的情况,是因为正则表达式没有匹配到的缘故. 现在,博主已经对程序进行了重新修改,代码亲测可用,包括截图和说明,之前一直在忙所以没有及时更新,望大家海涵! 更新时间:2015/8/2 糗事百科又又又又改版了,博主已经没心再去一次次匹配它了,如果大家遇到长时间运行不出结果也不报错的情况,请大家参考最新的评

Android实战——jsoup实现网络爬虫，糗事百科项目的起步

Android实战--jsoup实现网络爬虫,爬糗事百科主界面本篇文章包括以下内容: 前言 jsoup的简介 jsoup的配置 jsoup的使用结语前言对于Android初学者想要做项目时,最大的烦恼是什么?毫无疑问是数据源的缺乏,当然可以选择第三方接口提供数据,也可以使用网络爬虫获取数据,这样就不用第三方数据作为支持.本来是打算爬一些购物网站的数据,由于他们的反爬做得好,所以没办法爬到数据,只能爬取糗事百科的数据,或许聪明的你会想到可以高仿个糗事百科作为自己的练手项目,利用jsoup是

猜你喜欢

烂泥：python2.7和python3.5源码安装

本文由ilanniweb提供友情赞助,首发于烂泥行天下想要获得更多的文章,可以关注我的微信ilanniweb 前几天在centos6.6安装ansible时,一直提示python版本不对,导致不能安 ...

codevs 1959 拔河比赛--判断背包内刚好装满n/2个物品

1959 拔河比赛时间限制: 1 s 空间限制: 128000 KB 题目等级 : 黄金 Gold 题解查看运行结果题目描述 Description 一个学校举行拔河比赛,所有的人被分成了两组, ...

iOS-xib的使用

一.File‘s owner的解析过程和使用: 1. storyboard:描述软件界面:iOS5.0后出来的. xib:描述软件界面:是storyboard前身. 2. 项目环境里面的所有资源都要通 ...

Android内核开发：如何统计系统的启动时间

本文是<Android内核开发>系列的第七篇文章,通过上一篇文章<Android内核开发:图解Android系统的启动过程>我们大致了解了Android系统的启动过程,那么本文 ...

C# 语言基础（随堂笔记）

写一些随堂记得笔记,算是另一个笔记本.. C# 数据类型 string是引用类型: int,Double是值类型: ...

C#虚方法和抽象方法区别

虚方法: 1.virtual方法表示此方法可以被重写, 也就是说这个方法具有多态.父类中的方法是通用方法,可以在子类中重写以重新规定方法逻辑.2.virtual方法可以直接使用,和普通方法一样.3.不 ...

appium之Context切换

原文地址http://blog.csdn.net/Mandypan/article/details/51396302 Context切换driver.getContextHandles();//获取页 ...

[原]openstack-kilo--issue(二十二) 虚拟机的vnc console图像调用错误

[问题点] 在打开node compute 上vm的vnc console窗口时候发现vm1-compute1调用的是vm1-controller上的vnc图像 =================== ...

Bibtex使用方法

BibTeX 是一个使用数据库的的方式来管理参考文献程序, 用于协调LaTeX的参考文献处理. BibTeX 文件的后缀名为 .bib . 先来看一个例子: @article{Gettys90,aut ...

android——卡片式布局

一.CardView <android.support.v7.widget.CardView xmlns:android="http://schemas.android.com/apk ...

阿里、百联开启新零售大战背后：战争打的是粮草运输

这两天在中国的商业圈.互联网圈,炒得最为沸沸扬扬的莫过于中国最大的线上电商平台阿里巴巴与中国最大的线下零售实体百联集团牵手走到一起,双方共同掀起了新零售大战,合作消息公布之后百联股市已经连续两天涨停, ...

HTML5新特性新增功能

HTML5 现如今已经不是SGML的子集,主要是关于图像,位置,存储,多任务等功能的增加. 如:绘图canvas:用于媒介回放的video和audio元素:本地存储localStorage;语义化元素 ...

【原创】我所理解的自动更新-客户端更新流程

创建更新线程,跟ui主线程通过message进行交互.1,去http://version.mygame.com/check.php? channelid=%d&appver=%d&re ...

洛谷P2732 商店购物 Shopping Offers

P2732 商店购物 Shopping Offers 23通过 41提交题目提供者该用户不存在标签USACO 难度提高+/省选- 提交讨论题解最新讨论暂时没有讨论题目背景在商店中, ...

WEB网站类型系统中使用的OFFICE控件-破解Ntko-Office

2011-12-12 22:49| 发布者: Admin| 查看: 1399| 评论: 0|原作者: 风云OA 摘要: WEB下使用的OFFICE控件介绍,另提供一个原创破解首先来个名词解释,Off ...

SQL判断一个数是整数还是小数

DECLARE @number1 AS numeric(10,2),@number2 AS numeric(10,2) SELECT @number1=10.00,@number2=10.2 SELE ...

如何使maven+jetty运行时不锁定js和css[转]

原因是如果NIO被支持的话,Jetty会使用内存映射文件来缓存静态文件,其中包括.js文件.在Windows下面,使用内存映射文件会导致文件被锁定.解决方案是不使用内存映射文件来做缓存.步骤如下: 1 ...

android的init实例

这段时间没事,主要是主管太垃圾,没有合理的安排下属,导致我很闲,刚好,我利用这段时间可以好好学习下android. 今天看了android的init这部分,我自己想能不能自己写个守护进程在andori ...

分区知识充电: 主分区:主分区,也称为主磁盘分区,和拓展分区.逻辑分区一样,是一种分区类型.主分区中不能再划分其他类型的分区,因此每个主分区都相当于一个逻辑磁(在这一点上主分区和逻辑分区很相似,但主分 ...

NOIp 2013 Day1 解题报告

NOIp 2013 Day1 解题报告 1. 转圈游戏不难看出答案就是(x+m*10k) mod n 用快速幂算法,复杂度O(log2k) 1 #include<iostream> ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.025 s.