Crawlings

爬贴吧小说。

爬取该链接中的楼主发言前10页另存为文本文件

python2.7

# *-* coding: UTF-8 *-*
import urllib2
import re

class BDTB:
    baseUrl = ‘http://tieba.baidu.com/p/4896490947?see_lz=&pn=‘
    def getPage(self, pageNum):
        try:
            url = self.baseUrl+str(pageNum)
            request = urllib2.Request(url)
            response = urllib2.urlopen(request).read()
            return response
        except Exception, e:
            print e
    def Title(self, pageNum):
        html = self.getPage(pageNum)
        reg = re.compile(r‘title="【原创】(.*?)"‘)
        items = re.findall(reg, html)
        for item in items:
            f = open(‘text.txt‘, ‘w‘)
            f.write(‘标题‘+‘\t‘+item)
            f.close()
        return items
    def Text(self, pageNum):
        html = self.getPage(pageNum)
        reg = re.compile(r‘d_post_content j_d_post_content ">            (.*?)</div><br>‘, re.S)
        req = re.findall(reg, html)
        if pageNum == 1:
            req = req[2:]
        for i in req:
            removeAddr = re.compile(‘<a.*?>|</a>‘)
            i = re.sub(removeAddr, "", i)
            removeAddr = re.compile(‘<img.*?>‘)
            i = re.sub(removeAddr, "", i)
            removeAddr = re.compile(‘http.*?.html‘)
            i = re.sub(removeAddr, "", i)
            i = i.replace(‘<br>‘, ‘‘)
            f = open(‘text.txt‘, ‘a‘)
            f.write(‘\n\n‘+i)
            f.close()

bdtb = BDTB()
print ‘Crawl is starting....‘
try:
    for i in range(1, 10):
        print ‘Crawling Page %s...‘ % (i)
        bdtb.Title(i)
        bdtb.Text(i)
except Exception, e:
    print e

时间： 2024-09-29 15:38:31

Crawlings的相关文章

猜你喜欢

个人作业（18）

计划估计此程序需要5-7天. 开发需求分析用户故事:作为一个赛事管理人员,我希望知道每场比赛队伍得分和积分情况,以便给每队进行排名. 从分析用例故事可以知道完成此程序需要这两项任务:选择任务和查 ...

Mysql数据库之一：概述

数据库(Database)是按照数据结构来存储.组织和管理数据的仓库.每个数据库都有一个或多个用于创建.管理.搜索和复制数据的API(应用程序编程接口).当然,在服务器和终端中,我们也经常使用文件来存 ...

图（最短路径算法————迪杰斯特拉算法和弗洛伊德算法）.RP

文转:http://blog.csdn.net/zxq2574043697/article/details/9451887 一: 最短路径算法 1. 迪杰斯特拉算法 2. 弗洛伊德算法二: 1. 迪 ...

2016/10/29 action与form表单的结合使用

1>web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi= ...

oracle---jdbc--laobai

import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import ...

UVa11489

11489 Integer GameTwo players, S and T, are playing a game where they make alternate moves. S plays ...

设计模式之三：单例模式singleton

单例设计模式确切的说就是一个类只有一个实例,有一个全局的接口来访问这个实例.当第一次载入的时候,它通常使用延时加载的方法创建单一实例. 提示:苹果大量的使用了这种方法.例子:[NSUserDefaul ...

Install mcrypt for php on Mac OSX 10.10 Yosemite for a Development Server

mcrypt is a file encryption method using secure techniques to exchange data. It is required for some ...

微信企业号即将来临会取代企业级软件么?

大伙都知道微信订阅号功能限制比较多,服务号每个月又只能群发4条消息,推出微信企业号看似迫在眉睫.没错,据透露,微信团队已经内测企业号这个功能几个月了,在微信的“通讯录”菜单部分公众号项目中,原有的订阅 ...

SQL Injection bypass WAF

tips: 利用的注射点: 支持Union 可报错支持多行执行.可执行系统命令.可HTTP Request等额外有利条件若非以上类型,则可能需要暴力猜解.猜解时,可能会遇到一些限制.攻击者要做的, ...

BJSV-P-002高精度测速一体机

测速.抓拍.录像于一体,产品处于行业顶尖水平. 1 测速一体机参数 2 接口和资源 3 相机接口 1. 前面板接口测速一体机镜头接口采用C-Mount ...

.NET 跨平台界面框架和为什么你首先要考虑再三

???原文地址现在用 C# 来开发?跨平台应用已经有很成熟的方案,即共用非界面代码,而每个操作系统搭配特定的用户界面代码.这个方案的好处是可以直接使用操作系统原生的控件和第三方控件,还能够和操作系统 ...

从备考PMP到与项目经理同呼吸

前言 PMP是什么梗? 项目管理专业人士资格认证.它是由美国项目管理协会(Project Management Institute(PMI)发起的,严格评估项目管理人员知识技能是否具有高品质的资格认证 ...

Spring3+Hibernate4+SpringMVC整合Ext：项目架构搭建

前言前段时间突然想用SpringMVC结合Ext做一个框架原型,整合后发现SpringMVC配合Ext简直天衣无缝,当然SpringMVC结合别的UI框架应该也是天衣无缝的.SpringMVC比St ...

[蒟蒻修炼计划][学习笔记]四边形不等式优化DP

形如f[i][j]=min{f[i][k]+f[k+1][j]}+w[i][j]的方程中, w[][]如果同时满足: ①四边形不等式:w[a][c]+w[b][d]<=w[a][d]+w[b][ ...

为什么要进行网站数据备份

相信看这篇文章的你是一个拥有自己网站的人吧,网站对你重要吗?数据对你重要吗?答案是肯定的.不重要的话我们建站来干嘛呢,那么该如何备份网站数据你又知道多少呢? 备份如今已不是一件繁琐的事情,软.硬件产品 ...

MVC Filter

一.Filter在MVC生命周期中的位置 1.IIS中传递请求到程序2.MVC根据Routing来选择由哪个Controller/Action来处理3.Controller调用Model(业务逻辑)来 ...

iOS 中 NSTimer 使用详解-北京尚学堂

iOS 中 NSTimer 使用详解-北京尚学堂前阵子在整理公司项目的时候,发现老代码在使用 NSTimer 时出现了内存泄露.然后整理了一些 NSTimer 的相关内容.比较简单,各位见笑啦. N ...

[AWS][GUI][VNC]rhel 7 安装GUI ，配置VNC

目前AWS 亚马逊云免费试用一年,申请一个学习使用痛点:没有GUI,无法搭建Jenkins 平台,只能terminal 访问预计阅读时间:15分钟预计配置时间:30分钟 (前提是已经申请AWS ...

PE经典DIY案例1：全解开方案让量产PE也能

更新说明:因未来的uefi似乎并不能识别并引导ud区,但能识别和引导量产和u+B+隐藏或高端隐藏区,故解决量产PE对u+B+隐藏区的支持,并增加对UEFI启动支持,已经成为PE制作的最主流技术. PE ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.017 s.