Python 简单爬虫抓取糗事百科

# coding:utf-8

import time
import random
import urllib2
from bs4 import BeautifulSoup

#引入 beautifulsoup模块

#p = 1

#定义页
url = ‘http://www.qiushibaike.com/text/page/‘
#定义header

my_headers = [
    ‘Mozilla/5.0 (Windows NT 6.1; WOW64; rv:39.0) Gecko/20100101 Firefox/39.0‘,
    ‘Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/6.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E)‘,
    ‘Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0)‘,
    ‘ELinks/0.12pre5 (textmode; Linux; -)‘
]

#获取网页内容
def get_con(url, headers):
    random_header = random.choice(headers)
    req = urllib2.Request(url)
    req.add_header(‘User-Agent‘, random_header)
    req.add_header(‘Host‘, ‘www.qiushibaike.com‘)
    req.add_header(
        ‘Referer‘, ‘http://www.qiushibaike.com/‘)
    req.add_header(‘GET‘, ‘url‘)
    content = urllib2.urlopen(req).read()
    return content

#读取每一条信息

def get_txt(haha):
    soup = BeautifulSoup(haha)
    all_txt = soup.find_all(‘div‘, class_="content")
    i = 1
    for txt in all_txt:
        cont = str(txt)
        head = cont.find(r‘class="content"‘)
        end = cont.find(r‘</div‘, head)
        con = cont[head + 16:end]
        print str(i), con
        i = i + 1
        time.sleep(3)

#根据输入的数字，确定打印起始页

page = raw_input("Please input a number:")
p = int(page)

#使用while循环打印出所有信息
while p < 36:
   haha = get_con(url + str(p) + ‘?s=4796159‘, my_headers)
   print get_txt(haha)
   print "这是第" + str(p) + "页"
   p = p + 1

时间： 2024-11-29 09:09:54

Python 简单爬虫抓取糗事百科的相关文章

Python 网络爬虫 - 抓取糗事百科的段子(最新版)

代码 # -*- coding: cp936 -*- __author__ = "christian chen" import urllib2 import re import threading import time class Tool: def pTitle(self): return re.compile('<title.*?>(.*?)</', re.S) def pContent(self): return re.compile('<div cla

Python爬虫--抓取糗事百科段子

今天使用python爬虫实现了自动抓取糗事百科的段子,因为糗事百科不需要登录,抓取比较简单.程序每按一次回车输出一条段子,代码参考了 http://cuiqingcai.com/990.html 但该博主的代码似乎有些问题,我自己做了修改,运行成功,下面是代码内容: 1 # -*- coding:utf-8 -*- 2 __author__ = 'Jz' 3 import urllib2 4 import re 5 6 #糗事百科爬虫类 7 class QSBK: 8 #初始化 9 def __

Python爬虫爬取糗事百科段子内容

参照网上的教程再做修改,抓取糗事百科段子(去除图片),详情见下面源码: #coding=utf-8#!/usr/bin/pythonimport urllibimport urllib2import reimport threadimport timeimport sys #定义要抓取的网页#url = 'http://www.qiushibaike.com/hot/'#读取要抓取的网页#globalcontent = urllib.urlopen(url).read()#抓取段子内容#new_

HtmlAgilityPack抓取糗事百科內容

本文实例讲述了C#使用HtmlAgilityPack抓取糗事百科内容的方法.分享给大家供大家参考.具体实现方法如下: Console.WriteLine("*****************糗事百科24小时热门*******************"); Console.WriteLine("请输入页码,输入0退出"); string page = Console.ReadLine(); while (page!="0") { HtmlWeb h

bs4抓取糗事百科

抓取糗事百科内容及评论,不包含图片信息.user-agent填入浏览器的即可.user-agent对应的value,360极速浏览器的话,可以在地址栏输入about:version,回车,用户代理后面的一长串就是需要填入''里面的内容.其他的可以自行百度 import urllib.request import re from urllib import request from bs4 import BeautifulSoup #1.获取网页源代码 def get_html(url): hea

Python爬虫-爬取糗事百科段子

闲来无事,学学python爬虫. 在正式学爬虫前,简单学习了下HTML和CSS,了解了网页的基本结构后,更加快速入门. 1.获取糗事百科url http://www.qiushibaike.com/hot/page/2/ 末尾2指第2页 2.先抓取HTML页面 import urllib import urllib2 import re page = 2 url = 'http://www.qiushibaike.com/hot/page/' + str(page) #对应第2页的url

python3 爬虫---爬取糗事百科

这次爬取的网站是糗事百科,网址是:http://www.qiushibaike.com/hot/page/1 分析网址,参数'page/'后面的数字'1'指的是页数,第二页就是'/page/2',以此类推... 一.分析网页网页图片然后明确要爬取的元素:作者名.内容.好笑数.以及评论数量每一个段子的信息存放在'div id="content-left"'下的div中爬取元素的所在位置二.爬取部分工具: Python3 requests xpath 1.获取每一个段子 1 #

python beautifulsoup bs4爬虫爬取糗事百科

声明:仅用于学习语法,请勿用于非法用途 import urllib.request import re from bs4 import BeautifulSoup # -*- coding:utf-8 -*- url = 'http://www.qiushibaike.com/hot/' user_agent='Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' headers={'User-Agent':user_agent} request = u

爬虫爬取糗事百科热门板块的信息

分析: 1.先查看返回的内容是否与显示的内容一样 2.再看页数的变化,每次会加一,总共13页,因此可以一次性构造地址列表 3.因此可直接结合 chrome插件 xpath helper 与 elemetns显示的内容进行定位要爬取的内容用到的模块 requests+json+lxml+xpath 下面是代码: import requests import json from lxml import etree class QiubaiSpider: def __init__(self): se

猜你喜欢

文件管理

文件管理 #1.Linux文件系统层次结构 #2.绝对路径与相对路径绝对路径:完全限定的名称,从根目录(/)开始查找,路径的写法"一定由根目录/写起". 相对路径:从当前所在目录 ...

python,序列化

序列化: 变量从内存中变成可存储或传输的过程在Python中叫pickling,在其他语言中也被称之为serialization,marshalling,flattening等等反序列化(unpi ...

怎样解决MySQL数据库主从复制延迟的问题？

1.网络超时 2.慢查询 3.流量问题一:主库的从库太多,导致复制延迟从库数据以3-5个为宜,要复制的从节点数量过多,会导致复制延迟问题二:从库硬件比主库差,导致复制延迟查看Master和Slave ...

hdu 1575 try a 矩阵快速幂

#include<cstring> #include<cstdlib> #include<cstdio> #include<cmath> #includ ...

一个小demo的开发日记（〇）

在大概两周(三周?)前,出于某些原因(w)我做了个小demo.(虽然因为各种各样的原因导致做它的时间只有一周多了…所以它还远没有完成OTL) 在目前看来,它主要的亮点啊啥的之类的东西大概可以用下面的( ...

接收Firfox RESTClient #Post请求

什么是 RESTClient 请参考:http://www.blogjava.net/paulwong/archive/2014/04/19/412688.html 对接接口时经常会需要传个异步回调消 ...

数组的循环右移

将一个长为n的数组中左移或右移m位,比如数组 {1, 2, 3, 4, 5}右移3位之后就变成{3, 4, 5, 1, 2}. 思路: 1.整个数组倒置 2.倒置后的数组中选取前m个元素倒置 3.选取 ...

系统集成实训（*旸老师实训）

按照要求划分vlan,设置vlan 名称,划定端口,基本命令示例如下: system-view //进入system-view视图 vlan 10 //进入vlan name RD //给vla ...

Redis安装配置和介绍

1. 下载.安装wget https://codeload.github.com/antirez/redis/tar.gz/2.8.21mv 2.8.21 redis-2.8.21.tar.gzt ...

HDU 3201 Build a Fence

水题 #include<cstdio> #include<cstring> #include<cmath> #include<algorithm> us ...

Java基础学习笔记【02】方法覆写、快捷键、super、this、单例模式、适配器

访问类型默认default就是默认没写访问权限,就是包下的访问权限(类内部.同一个包) 除了private访问权限本类,其他的访问权限都包括包继承:[A继承B] 1 类名A extends 类名B ...

从零开始学linux之环境部署篇（二）

继续上面没做完的操作,首先明确我们本次要部署的服务器,先做一个web服务器吧..我们来做一个Apache+PHP5+MySQL的吧.. 首先,输入命令 yum install mysql mysql- ...

ubuntu下设置clion是使用clang和clang++

链接 http://stackoverflow.com/questions/31725681/how-to-setup-clion-with-portable-clang-on-ubuntu I go ...

动态存储管理-第8章-《数据结构题集》习题解析-严蔚敏吴伟民版

习题集解析部分第8章动态存储管理 ——<数据结构题集>-严蔚敏.吴伟民版源码使用说明链接??? <数据结构-C语言版>(严蔚敏,吴伟民版)课本源码+习题 ...

用CSS画网格线，在IE中

想在div中给背景画上网格线,看到一个例子 <html> <head> <style type="text/css"> div{ wid ...

Memcached笔记——（二）XMemcached&Spring集成

今天研究Memcached的Java的Client,使用XMemcached 1.3.5,做个简单的测试,并介绍如何与Spring集成. 相关链接: Memcached笔记——(一)安装&常规 ...

vistor的安装与使用

Vistor简介 Vistor虚拟带库系统是cofio公司的一款虚拟带库软件解决方案,用来实现高性能的磁盘备份,同真实带库一样的磁带管理机制提高了管理效率.Vistor支持iscsi和FC,可以模拟多 ...

自动封装Servlet HttpServletRequest请求成为一个POJO对象

自己写了个小工具类,将Servlet里面的HttpServletRequest请求封装成为一个POJO对象,可以复习一下Java的反射原理,开发中这个没什么用,毕竟都用MVC框架,框架都自带这种功能, ...

androidactivity与webview结合

<?xml version="1.0" encoding="utf-8"?><LinearLayout xmlns:android=" ...

服务器通过NTP服务，疯狂向外发包

做运维以来第一次解决服务器因攻击而瘫痪的问题,所有的解决过程都是摸着石头过河一路过来的.这次经历也算给我上了一堂安全课. 14号上午10时,服务器上运行的所有服务都处于瘫痪状态,外网无法访问,远程无法 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 11 q. 0.019 s.