用python爬博客

by 伍雪颖

以爬王垠的博客为例:

import re
import urllib2

def getHtmlCode(url):
	return urllib2.urlopen(url).read()

def findTitleUrl(htmlString):
    regTitleUrl = re.compile("href=\"(.+?)\"")
    return regTitleUrl.findall(htmlString)

def findTitleContent(htmlString):
	regTitleContent = re.compile("\">(.+?)</a>")
	return regTitleContent.findall(htmlString)

htmlCode = getHtmlCode('http://www.yinwang.org/')
titleContent = findTitleContent(htmlCode)
titleUrl = findTitleUrl(htmlCode)
for i in range(0, len(titleUrl)):
	print titleContent[i+3]
	print titleUrl[i+8]
	htmlPage = getHtmlCode(titleUrl[i+8])
	f = open("%s.html"%(titleContent[i+3]),'wb')
	f.write(htmlPage)
	f.close

时间： 2024-08-05 08:40:28

用python爬博客的相关文章

值得关注的10个python语言博客（转）

大家好,还记得我当时学习python的时候,我一直努力地寻找关于python的博客,但我发现它们的数量很少.这也是我建立这个博客的原因,向大家分享我自己学到的新知识.今天我向大家推荐10个值得我们关注的python博客,这些博客的博主都会定期的更新而且他们的文章都很不错.下面是博客列表: 1．首先第一个肯定是毋庸置疑的Planet Python这是最出名的python博客其中之一,快去看看,我希望你能找到对你有用的东西,昨天它还更新了呢! 2．第二个博客是lucumr,博主是flask的创始人(

用Python编写博客导出工具

用Python编写博客导出工具罗朝辉 (http://kesalin.github.io/) CC 许可,转载请注明出处写在前面的话我在 github 上用 octopress 搭建了个人博客,octopress 使用Markdown语法编写博文.之前我在CSDN博客上也写过不少的技术博文,都说自己的孩子再丑也是个宝,所以就起了把CSDN博客里面的文章导出到个人博客上的念头.刚开始想找个工具把CSDN博客导出为xml或文本,然后再把xml或文本转换为Markdown博文.可惜搜了一下现有博

值得关注的10个python语言博客

【Python】博客信息爬取-微信消息自动发送

1.环境安装 python -m pip install --upgrade pip pip install bs4 pip install wxpy pip install lxml 2.博客爬取及发送 from bs4 import BeautifulSoup from threading import Timer import requests import traceback from wxpy import * url = '' nIndex = 6 my_groups = None

第一个Python程序——博客自动访问脚本

动机今天有朋友写信说他认为自己的wordpress博客内显示的访问统计信息不正常,希望我能为他制造一些访问信息,供他对比.朋友提出的请求是在短时间内快速打开100个不同的博客页面,以便他从产生的访问量变化中理解博客访问数据. 本人作为一个搞计算机的人,有把任何重复性劳动自动化的冲动,所以虽然点开100个网页的任务手工做并不复杂,但还是从一开始就彻底否定了.刚好想学Python很久了,于是就拿这次的小机会来学习一把,顺便记录下第一次的Python学习成果. 本文使用Python 2.7.3实现了

值得关注的10个python语言博客 - WEB开发者

1．首先第一个肯定是毋庸置疑的Planet Python这是最出名的python博客其中之一,快去看看,我希望你能找到对你有用的东西,昨天它还更新了呢! 2．第二个博客是lucumr,博主是flask的创始人(一个python micro web framework) 3．第三个博客是love-python,我不知道我是怎么被它吸引的,但是我真得很喜欢这个博客,它有很多有用的知识和代码 4．第四个博客是Doug Hellmann,博主是PYMOTW(Python Module Of the We

Python抓拍博客园文章，并存入数据库

在学习python后,想做个爬虫,抓取博客园文章. 爬虫思路很简单,模拟浏览器访问网页,得到网页的html代码,再根据页面结构,从html中提取自己需要的内容. 本文代码主要分为3个部分: 1.读取博客园首页文章链接. https://www.cnblogs.com/是博客园的首页,列出了文章,分析页面内容,读取文章的链接. 这需要看页面的结构,可以使用浏览器,再浏览页面代码,选择元素,看界面上选中哪一部分,根据自己的需要,可以看到对应模块的代码. 2.对于每个页面,分析页面内容. 这需要看页面

Python实现博客园闪存刷星星脚本

几个月没刷出过星星来的Gengxin,终于有幸见到了自己闪存后面跟着的那个小东西,高兴的不得了.看见最近闪存刷星星现象日渐严重,于是觉得自己也得来这么一个,玩玩. 观察了闪存的发送过程,发现这根本就是个……简单的填表格找按钮点击而已.如果没有刷到星星,就点击删除,毁尸灭迹. 上面是思路.基本所有人都能看得出来.实现起来,直接用pywin32调用ie com组件模拟浏览器操作网页.非常简单.这个博客就当作个pywin32的操作com组件的教程吧. 首先,我们需要安装pywin32.(博客末尾会放

Scrapy爬博客园

D:进入D盘 scrapy startproject cnblogs创建博客园项目 cd cnblogs进入项目根目录 scrapy genspider blog www.cnblogs.com创建爬虫文件 blog.py: # -*- coding: utf-8 -*-import scrapy class BlogSpider(scrapy.Spider): name = 'blog' allowed_domains = ['www.cnblogs.com'] start_urls = ['