python爬取标题和作者时间的小程序

#encoding:UTF-8
import urllib.parse
import urllib.request
import base64
import re
import sys
import time
from random import sample
import codecs
from html.parser import HTMLParser
log = ‘gogogo.txt‘
logfile = codecs.open(log,‘w‘,‘utf-8‘)
class MyHTMLParser(HTMLParser):
   def __init__(self):
       HTMLParser.__init__(self)
       self.a=0
       self.span=0;
   def handle_starttag(self,tag,attrs):
       if tag==‘a‘:
           for name,value in attrs:
               if name==‘class‘ and value==‘tit‘:
                   self.a=1
       if tag==‘span‘:
           for name,value in attrs:
               if name==‘class‘ and value==‘reply‘:
                   self.span=1
   def handle_endtag(self, tag):
       if tag == ‘a‘ and self.a==1:
           self.a=0
           logfile.write(‘|‘)
       if tag==‘span‘ and self.span==1:
           self.span=0
           logfile.write(‘\n‘)
   def handle_data(self, data):
       if (self.a or self.span):
           logfile.write(data)
parser = MyHTMLParser()

def getpage(url):
   req = urllib.request.Request(url)
   response = urllib.request.urlopen(req)
   the_page = response.read()
   return the_page
for i in range(1,405):
   url=‘http://bbs.qyer.com/forum-52-‘+str(i)+‘.html‘
   page=getpage(url).decode(‘utf-8‘,‘ignore‘)
   parser.feed(page)
   print(i)

时间： 2024-11-05 22:43:24

python爬取标题和作者时间的小程序的相关文章

福利贴——爬取美女图片的Java爬虫小程序代码

自己做的一个Java爬虫小程序废话不多说,先上图. 文件夹命名是用标签缩写,如果大家看得不顺眼可以等下载完成后手动改一下,比如像有强迫症的我一样... 这是挂了一个晚上下载的总大小,不过还有很多因为一些问题没有遍历下载到,而且会产生很多空文件,最下面我附带了一个递归删除空文件夹的小程序代码. 接下来是文件夹内部~ 图片存放位置默认为d:\picture,可在程序中更改,main函数的开头就是,有注释.爬取的网站为http://www.mmonly.cc/,大家有更好的资源网站可以私我. 爬虫源

Python爬取CSDN博客文章

之前解析出问题,刚刚看到,这次仔细审查了 0 url :http://blog.csdn.net/youyou1543724847/article/details/52818339Redis一点基础的东西目录 1.基础底层数据结构 2.windows下环境搭建 3.java里连接redis数据库 4.关于认证 5.redis高级功能总结1.基础底层数据结构1.1.简单动态字符串SDS定义: ...47分钟前1 url :http://blog.csdn.net/youyou1543724847/

利用Python爬取豆瓣电影

目标:使用Python爬取豆瓣电影并保存MongoDB数据库中我们先来看一下通过浏览器的方式来筛选某些特定的电影: 我们把URL来复制出来分析分析: https://movie.douban.com/tag/#/?sort=T&range=0,10&tags=%E7%94%B5%E5%BD%B1,%E7%88%B1%E6%83%85,%E7%BE%8E%E5%9B%BD,%E9%BB%91%E5%B8%AE 有3个字段是非常重要的: 1.sort=T 2.range=0,10 3.tag

最后轻松一夏，周末利用python爬取“陈翔六点半”搞笑视频！

觉得程序员再忙也需要给自己安排一点娱乐时间,对自己好点,自己对自己不好,谁会? 自己娱乐一般会有:跑步.看电影.小视频,而小视频是最家常的娱乐方式,看得最多的小视频是「陈翔六点半」,咦! 拍得搞笑,演技也一流,也不乏有内涵!非常推荐大家看看. 时间太贵,我耗不起正题先上Python爬取小视频的效果图,duang.duang.duang.想下载什么就是什么,哈哈. 打开浏览器(电脑版,方便调试)输入微博 url 点击输入框,输入「陈翔六点半」,回车搜索但是发现在这个页面就只用几个视频.滑

使用python爬取csdn博客访问量

最近学习了python和爬虫,想写一个程序练练手,所以我就想到了大家都比较关心的自己的博客访问量,使用python来获取自己博客的访问量,这也是后边我将要进行的项目的一部分,后边我会对博客的访问量进行分析,以折线图和饼图等可视化的方式展示自己博客被访问的情况,使自己能更加清楚自己的哪些博客更受关注,博客专家请勿喷,因为我不是专家,我听他们说专家本身就有这个功能. 一.网址分析进入自己的博客页面,网址为:http://blog.csdn.net/xingjiarong 网址还是非常清晰的就是cs

python爬取某个网页的图片-如百度贴吧

python爬取某个网页的图片-如百度贴吧作者:vpoet 日期:大约在冬季注:随意copy,不用告诉我 #coding:utf-8 import urllib import urllib2 import re if __name__ =="__main__": rex=r'src="(http://imgsrc.baidu.com/forum/w%3D580.*?\.jpg)"'; Response=urllib2.urlopen("http://t

Python 爬取广州商学院新闻----测试版

Python 爬取广州商学院新闻----测试版程序简述:抓取广州商学院新闻栏目的全部新闻内容开发环境:PyCharm Community Edition 爬取连接:http://news.gzcc.cn/ 作者:siberia 详细内容:http://easyboy1.blog.163.com/blog/static/2641120382017103105416810/ 详细内容:http://easyboy1.blog.163.com/blog/static/264112038201710

Python爬取中国天气网天气

Python爬取中国天气网天气基于requests库制作的爬虫. 使用方法:打开终端输入 "python3 weather.py 北京(或你所在的城市)" 程序正常运行需要在同文件夹下加入一个"data.csv"文件,内容请参考链接:https://www.cnblogs.com/Rhythm-/p/9255190.html 运行效果: 源码: import sys import re import requests import webbrowser from

python爬取免费优质IP归属地查询接口

python爬取免费优质IP归属地查询接口具体不表,我今天要做的工作就是: 需要将数据库中大量ip查询出起归属地刚开始感觉好简单啊,毕竟只需要从百度找个免费接口然后来个python脚本跑一晚上就ok了嘛~但是,网上免费接口要么限制访问频率(淘宝的),要么限制访问次数(百度及其他) 没辙了,从百度找到了几个在线查询的接口,要么不够准确(或者说她们的数据库太旧了),要么就是速度太慢了,跟限制访问似的(没办法,小规模人家的服务器的确不够好) 于是乎就想到了百度首页的ip接口,就这货: 为了防止泄露

猜你喜欢

修饰符-包-内部类-代码块执行顺序

1.访问权限修饰符从大到小的顺序为:public--protected--default--private private--只能在同一类中使用; default--不用写出 ...

NOIP蚯蚓

那么我们开三个不上升队列, 第一个记录原来的蚯蚓, 第二个记录乘以p的蚯蚓第三个记录乘以(1-p)的蚯蚓, 在记录每条就要入队列的时间,就可以求出增加的长度每次比较三个队列的队首,取最大的值x的切 ...

JDBC连接数据库的几种方法与简单解析

首先要知道jdbc:使用Java代码发送sql语句的技术就是jdbc技术.即jdbc是一个接口,用于不同的数据库(oracle.mysql.sqlserver..)的操作.使用jdbc发送sql语句的 ...

Nginx根据目录自动生成二级域名

前言: 每次创建二级域名如果都修改一次配置文件的话,项目多了会带来很多不必要的工作量,如果能够在一个web目录下创建一个文件夹并且自动生成文件目录的话,那真是极好的,本文就基于Nginx贴出这 ...

【mysql5.6】连接vs2010

参考这篇博客:http://www.tuicool.com/articles/mUZNne 配置:vs2010项目属性里面配置包含目录和库目录. 包含目录:C:\Program Files\MySQL ...

ObjectListView控件介绍及C# Demo实现

1 介绍前两天在用Listview做数据显示时,希望在listview中的多列显示图片,经过一番搜索后发现.Net自带的ListView其实只能在各行的第一列显示图片.后来google时看到网友有提 ...

Android 高仿 QQ5.0 侧滑菜单效果自定义控件来袭【学习鸿洋_视频博客笔记总结】

学习鸿洋博客:http://blog.csdn.net/lmj623565791/article/details/39257409 学习鸿洋视频:慕课网视频看看Android 高仿 QQ5.0 侧滑 ...

Servlet通过JavaBean传值到JSP页面

主要通过Attribute进行传递,主要代码如下: 赋值,并定义跳转的页面: request.setAttribute("user", user); request.getRequ ...

当Tomcat服务器无法正常启动时,首先检查是否配置了JAVA_HOME环境变量,然后再检查Tomcat服务器启动时的端口是否被别的应用程序占用了路经的问题.server中Specify the s ...

ADC and DAC Analog Filters for Data Conversion

Figure 3-7 shows a block diagram of a DSP system, as the sampling theorem dictates it should be. Bef ...

大数据分布式弹性搜索引擎

ElasticSearch大数据分布式弹性搜索引擎使用-从0到1 阅读目录: 背景安装查找.下载rpm包 .执行rpm包安装配置elasticsearch专属账户和组设置elasticsear ...

4th-安卓UI操作-按钮

Button类提供了控制按钮功能,Button类属于Android.Wiget包并且继承Android.widget.TextView类,button类提供了操纵控制按钮的方法和属性. 常用的方法和功 ...

MyBatis从入门到放弃六：延迟加载、一级缓存、二级缓存

前言使用ORM框架我们更多的是使用其查询功能,那么查询海量数据则又离不开性能,那么这篇中我们就看下mybatis高级应用之延迟加载.一级缓存.二级缓存.使用时需要注意延迟加载必须使用resultMa ...

如何做LR自动关联和手动关联？

一.什么时候需要关联 1.关联的含义关联的含义A(correlation):在脚本回放过程中,客户端发出请求,通过关联函数所定义的左右边界值(也就是关联规则),在服务器所响应的内容 ...

php100 编程小技巧

用单引号代替双引号来包含字符串,这样做会更快一些.因为PHP会在双引号包围的字符串中搜寻变量,单引号则不会,注意:只有echo能这么做,它是一种可以把多个字符串当作参数的“函数”(译注:PHP手册中 ...

Silverlight动画学习笔记(三)：缓动函数

(一)定义: 缓动函数:可以将自定义算术公式应用于动画 (二)为什么要用缓动函数: 您可能希望某一对象逼真地弹回或其行为像弹簧一样.您可以使用关键帧动画甚至 From/To/By 动画来大致模拟这些效 ...

Zookeeper之Zookeeper底层客户端架构实现原理（转载）

Zookeeper的Client直接与用户打交道,是我们使用Zookeeper的interface.了解ZK Client的结构和工作原理有利于我们合理的使用ZK,并能在使用中更早的发现问题.本文将在 ...

JavaEE学习笔记之SSH—Spring(1)

一.Spring相关概念 1:轻量级的容器: 容器:spring容器帮我们管理业务逻辑层,里边有很多业务逻辑对象,有对象就有对象的生命周期的管理(创建,销毁). 轻量级:容器给予的业务逻辑对象多少种服 ...

第15周程序阅读-二进制文件及文件的读取4

4.阅读并运行下面的示例,体会二进制文件和字符串流操作的一般方法. 例17 #include <strstream> #include<iostream> using name ...

linux 内存使用查看

我们常用的Linux下查看内容的专用工具是free命令. [[email protected] ~]# free -m 下面是对内存查看free命令输出内容的解释: total:总计物理内存的大小. ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 11 q. 0.028 s.