python爬取糗百第一页的笑话

自学python网络爬虫,发现request比urllib还是要好用一些,因此利用request和BeautifulSoup来实现糗百的首页笑话的抓取。BeautifulSoup通过find和findAll以及利用正则表达式实现HTML对应模块的抓取,当然select也是一个不错的选择。下面是临时的代码,后续还会继续完善
 1 # coding=utf-8
 2 import requests
 3 from bs4 import BeautifulSoup
 4
 5 page = 1
 6 url = ‘http://www.qiushibaike.com/hot/page/‘ + str(page)
 7 try:
 8     res=requests.get(url)
 9     # print res.text # 如果请求成功,下载的网页就作为一个字符串,保存在相应的text变量中,这就是为什么用res.text。
10 except Exception as e:
11     print ‘打开网页出现异常:‘,e
12
13 try:
14     soup=BeautifulSoup(res.text,‘html.parser‘)
15     elms=soup.select(‘.content‘) #这里产生一个列表
16     for elm in elms:
17         print elm.text
18 except Exception as e:
19     print ‘解析出现异常:‘,e

 
时间: 2024-10-12 14:57:28

python爬取糗百第一页的笑话的相关文章

利用Python爬取可用的代理IP

前言 就以最近发现的一个免费代理IP网站为例:http://www.xicidaili.com/nn/.在使用的时候发现很多IP都用不了. 所以用Python写了个脚本,该脚本可以把能用的代理IP检测出来. 1 #encoding=utf8 2 import urllib2 3 from bs4 import BeautifulSoup 4 import urllib 5 import socket 6 7 User_Agent = 'Mozilla/5.0 (Windows NT 6.3; W

Python爬取韩寒所有新浪博客

接上一篇,我们依据第一页的链接爬取了第一页的博客,我们不难发现,每一页的链接就仅仅有一处不同(页码序号),我们仅仅要在上一篇的代码外面加一个循环,这样就能够爬取全部博客分页的博文.也就是全部博文了. # -*- coding : -utf-8 -*- import urllib import time url = [' ']*350 page = 1 link = 1 while page <=7://眼下共同拥有7页.3 con = urllib.urlopen('http://blog.si

Python 爬虫入门(一)——爬取糗百

爬取糗百内容 GitHub 代码地址https://github.com/injetlee/Python/blob/master/qiubai_crawer.py 微信公众号:[智能制造专栏],欢迎关注. 本文目标 掌握爬虫的基本概念 Requests 及 Beautiful Soup 两个 Python 库的基本使用 通过以上知识完成糗百段子抓取 爬虫基本概念 爬虫也称网页蜘蛛,主要用于抓取网页上的特定信息.这在我们需要获取一些信息时非常有用,比如我们可以批量到美图网站下载图片,批量下载段子.

使用python爬取csdn博客访问量

最近学习了python和爬虫,想写一个程序练练手,所以我就想到了大家都比较关心的自己的博客访问量,使用python来获取自己博客的访问量,这也是后边我将要进行的项目的一部分,后边我会对博客的访问量进行分析,以折线图和饼图等可视化的方式展示自己博客被访问的情况,使自己能更加清楚自己的哪些博客更受关注,博客专家请勿喷,因为我不是专家,我听他们说专家本身就有这个功能. 一.网址分析 进入自己的博客页面,网址为:http://blog.csdn.net/xingjiarong 网址还是非常清晰的就是cs

python爬取B站千万级数据,发现了这些热门UP主的秘密!

Python(发音:英[?pa?θ?n],美[?pa?θɑ:n]),是一种面向对象.直译式电脑编程语言,也是一种功能强大的通用型语言,已经具有近二十年的发展历史,成熟且稳定.它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务.它的语法非常简捷和清晰,与其它大多数程序设计语言不一样,它使用缩进来定义语句. Python支持命令式程序设计.面向对象程序设计.函数式编程.面向切面编程.泛型编程多种编程范式.与Scheme.Ruby.Perl.Tcl等动态语言一样,Python具备垃圾回收

项目实战!我用Python爬取了14年所有的福彩3D信息

前两天,在网上看到一个有意思的问题:×××靠谱么?为什么还有那么多的人相信×××? 暂且不说,×××是否靠谱?×××也分人而异,江湖上骗术很多,有些甚至会误以为×××的准确度可以很高,这些操盘手法,让不知原理的彩民心甘情愿地掏钱买料. 在×××上,也有正儿八经去研究"规律" 的,不外乎三个"派别":数据派.图形派.公式派.还有一派不列入:字谜字画派,可纳入蛇精病行列. 究竟哪一派预测的靠谱准确呢?不懂,因为我几乎不买×××(买也是玩玩,娱乐娱乐),也不去研究.但不管

Python爬取京东商品数据

对京东某一商品信息页面的HTML代码进行分析,可以发现它的图书产品信息页面都含有这样一段代码(不同类的商品页面有些不同): window.pageConfig={compatible:true,searchType: 1,product:{"skuid":"11408255","name":"\u4f17\u795e\u7684\u536b\u661f\uff1a\u4e2d\u56fd\u7981\u533a","

Python 爬取煎蛋网妹子图片

1 #!/usr/bin/env python 2 # -*- coding: utf-8 -*- 3 # @Date : 2017-08-24 10:17:28 4 # @Author : EnderZhou ([email protected]) 5 # @Link : http://www.cnblogs.com/enderzhou/ 6 # @Version : $Id$ 7 8 import requests 9 from bs4 import BeautifulSoup as bs

python 爬取百度url

1 #!/usr/bin/env python 2 # -*- coding: utf-8 -*- 3 # @Date : 2017-08-29 18:38:23 4 # @Author : EnderZhou ([email protected]) 5 # @Link : http://www.cnblogs.com/enderzhou/ 6 # @Version : $Id$ 7 8 import requests 9 import sys 10 from Queue import Queu