爬虫学习之下载韩寒博客

1.打开韩寒博客列表页面

http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html

目标是获取所有文章的超级链接

2.韩寒文章列表特征

<a title target... href=....html>

3.技术要点

 ·字符串函数find

 ·列表 list[-x:-y]

 ·文件读写

#coding:utf-8
import urllib
import time
url = [‘‘]*350
page = 1
link = 1
while page <= 7:
    con = urllib.urlopen(‘http://blog.sina.com.cn/s/articlelist_1191258123_0_‘+ str(page) +‘.html‘).read()
    title = con.find(r‘<a title‘)
    href = con.find(r‘href=‘,title)
    html = con.find(r‘.html‘,href)
    i = 0
    while title != -1 and href != -1 and html != -1 and i < 80:
        url[i] = con[href + 6:html +5]
        print link,‘   ‘,url[i]
        i = i + 1
        title = con.find(r‘<a title‘,html)
        href = con.find(r‘href=‘,title)
        html = con.find(r‘.html‘,href)
        link = link + 1

    else:
        print page,‘find end!‘
    page = page + 1
j = 0
while j < 350:
    content = urllib.urlopen(url[j]).read()
    open(r‘blog/‘+url[j][-26:],‘w+‘).write(content)
    j = j + 1
    time.sleep(1)
else:
    print ‘download article finished!‘

 ·循环体while

4.实现步骤

·能够在浏览器打开韩寒博客文章列表首页的博客网页

·从首页网页里获得博客上的所有文章链接

·所有文章列表网页里的文章链接

·下载所有链接HTML文件

时间: 2024-10-12 15:17:34

爬虫学习之下载韩寒博客的相关文章

Python 实用爬虫-04-使用 BeautifulSoup 去水印下载 CSDN 博客图片

Python 实用爬虫-04-使用 BeautifulSoup 去水印下载 CSDN 博客图片 其实没太大用,就是方便一些,因为现在各个平台之间的图片都不能共享,比如说在 CSDN 不能用简书的图片,在博客园不能用 CSDN 的图片. 当前想到的方案就是:先把 CSDN 上的图片都下载下来,再手动更新吧. 所以简单写了一个爬虫用来下载 CSDN 平台上的图片,用于在其他平台上更新图片时用 更多内容,请看代码注释 效果演示 Python 源代码 提示: 需要先下载 BeautifulSoup 哦,

字典树的学习(剪辑的博客文章)

字典树(讲解+模版) 又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种.典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计.它的优点是:利用字符串的公共前缀来节约存储空间,最大限度地减少无谓的字符串比较,查询效率比哈希表高. 字典树与字典很相似,当你要查一个单词是不是在字典树中,首先看单词的第一个字母是不是在字典的第一层,如果不在,说明字典树里没有该单词,如果在 就在该字母的孩子节点里找是不是有单词的第二个字母,没有说明没有该单词

要批量下载的博客文章太多,又不想全部下载怎么办---豆约翰博客备份专家新增选择导出博客功能

有的时候,我们要下载的博主比较高产,发表了数以千计的博文,要批量下载的博客文章太多,又不想全部下载怎么办? 针对这种需求,新版本的博客备份专家开发了博客的部分导出功能. 与以往只能导出全部博文不同,新版博客备份专家,让用户可以通过先按分类或标题进行筛选,然后勾选想导出的部分博客进行导出. 首先,我们可以对已经下载下来的博文按文章标题或文章分类进行筛选,比如这里我们按分类筛选:如下图所示: 以上,我们在分类筛选框中录入了[IT人生涯],可以看到文章列表自动显示出来属于该分类的文章,不属于该分类的文

网络爬虫+HtmlAgilityPack+windows服务从博客园爬取20万博文

网络爬虫+HtmlAgilityPack+windows服务从博客园爬取20万博文 1.前言 最新在公司做一个项目,需要一些文章类的数据,当时就想到了用网络爬虫去一些技术性的网站爬一些,当然我经常去的就是博客园,于是就有下面的这篇文章. 2.准备工作 我需要把我从博客园爬取的数据,保存起来,最好的方式当然是保存到数据库中去了,好了我们先建一个数据库,在来一张表,保存我们的数据,其实都很简单的了啊,如下图所示 BlogArticleId博文自增ID,BlogTitle博文标题,BlogUrl博文地

cnblogs博客下载-cnblogs博客导出-cnblogs博客备份工具-基于python

http://blog.csdn.net/infoworld/article/details/19547723 以下代码是基于infoworld的csdn备份python代码修改的cnblogs博客备份,但是和infoworld的界面不匹配,只能够用在python里面.python确实有意思,开发很快,怪不得这么流行. #! encoding=utf-8 #cnblogs博客备份,使用方法:修改最下面的url和output,然后执行就可以了. import urllib2 import re i

多IDC数据分布--MySQL多机房部署 - 学习笔记 - 51CTO技术博客

多IDC数据分布--MySQL多机房部署 - 学习笔记 - 51CTO技术博客 多IDC数据分布--MySQL多机房部署

[python爬虫] Selenium爬取CSDN博客摘要及问题

本文主要是采用Selenium来爬取CSDN的博文摘要,为后面对CSDN的热点技术.近几年专家发表的博客作数据分析.由于采用BeautifulSoup爬取该网站会报错"HTTPError: Forbidden",所以作者采用Selenium爬取.同时,在爬取过程中遇到了局部动态更新的问题,无法定位换页的问题,作者采用Firebug进行分析,也希望读者提出更好的方法.代码下载地址: 一. CSDN博客网站分析及问题 本文主要爬取CSDN专家的博客,因为专家的论文水平相对高点,同时专栏较多

将批量下载的博客导入到手机后,通过豆约翰博客阅读器APP(Android手机)进行浏览,白字黑底,保护眼睛,图文并茂。

首先下面演示的博文来自于以下地址:http://www.douban.com/note/423939291/ 需要先通过博客备份专家将导出的博文导入到手机(还不会用的朋友请先阅读http://www.douyuehan.com/space/douyuehan/Blog1/Post/259.aspx),然后通过豆约翰开发的手机博客阅读器APP进行阅读. 先看一下效果 大家可以看到,黑底白字,非常省眼,比用博客备份专家导出成PDF看要好得多,而且同样图文并茂. 接下来,豆约翰就向朋友们来讲解一下豆约

Django学习(六)---博客文章页面的超链接设置

Django中的超链接 超链接的目标地址 href后面是目标地址 template中可以用 {% url  'app_name : url_name'   param %} app_name:应用命名空间的名称 url_name:链接名 param:地址的参数 app_name和url_name 都在url中配置 配置URL 根urls中,写在include()的第二个参数位置,namespace='blog' (这个应用的命名空间) 应用的url()的第三个参数位置,name='page' (