抓取指定博客的内容

1.指定博客的地址

周国平的博客地址:http://blog.sina.com.cn/s/articlelist_1193111400_0_1.html

打开上述链接,然后按F12,找到<a title="" target="_blank" href="http://blog.sina.com.cn/s/blog_471d6f680102x7cu.html">太现实的爱情算不上爱情</a>

2.代码的实现

指定的网址为:http://blog.sina.com.cn/s/blog_471d6f680102x7cu.html

<a title="" target="_blank" href="http://blog.sina.com.cn/s/blog_471d6f680102x7cu.html">太现实的爱情算不上爱情</a>

在上述中我们已经将要指定网址的地址从总的html中找到了,不过这个指定网址还是在标签中

import urllib
str = ‘<a title="" target="_blank" href="http://blog.sina.com.cn/s/blog_471d6f680102x7cu.html">太现实的爱情算不上爱情</a>‘
title = str.find(r‘<a title‘)
print title
herf = str.find(r‘href=‘)
print herf
html = str.find(r‘.html‘)
print html
##获取网址
url = str0[herf +6 :html+5]
print url

content = urllib.urlopen(url).read() ##访问地址并读取其内容

filename = url[-26:]
print filename

open(filename,‘w‘).write(content)

3.抓取指定博客内容总结

  • 获取网址
  • 读取网址的内容
  • 并将网址的内容写到一个文件中

4.python小只是扩展及说明

  • find的用法

find() 方法检测字符串中是否包含子字符串 str ,如果指定 beg(开始) 和 end(结束) 范围,则检查是否包含在指定范围内,如果包含子字符串返回第一次出现的索引值,否则返回-1。

  • 网页的读取

urllib.urlopen(url).read()

  • 文件的写入

open(filename,‘w‘).write(content)

时间: 2024-07-30 14:23:16

抓取指定博客的内容的相关文章

Hello Python!用python写一个抓取CSDN博客文章的简单爬虫

网络上一提到python,总会有一些不知道是黑还是粉的人大喊着:python是世界上最好的语言.最近利用业余时间体验了下python语言,并写了个爬虫爬取我csdn上关注的几个大神的博客,然后利用leancloud一站式后端云服务器存储数据,再写了一个android app展示数据,也算小试了一下这门语言,给我的感觉就是,像python这类弱类型的动态语言相比于java来说,开发者不需要分太多心去考虑编程问题,能够把精力集中于业务上,思考逻辑的实现.下面分享一下我此次写爬虫的一下小经验,抛砖引玉

python爬虫抓取51cto博客大牛的文章名和文章url

脚本一: #!/usr/bin/env python #coding:utf-8 from  bs4  import  BeautifulSoup import urllib import re art = {} for page in range(1,5): page = str(page) url = 'http://yujianglei.blog.51cto.com/all/7215578/page/'  + page response = urllib.urlopen(url).read

Python爬虫抓取csdn博客

昨天晚上为了下载保存某位csdn大牛的全部博文,写了一个爬虫来自动抓取文章并保存到txt文本,当然也可以 保存到html网页中.这样就可以不用Ctrl+C 和Ctrl+V了,非常方便,抓取别的网站也是大同小异. 为了解析抓取的网页,用到了第三方模块,BeautifulSoup,这个模块对于解析html文件非常有用,当然也可以自己使用正则表达式去解析,但是比较麻烦. 由于csdn网站的robots.txt文件中显示禁止任何爬虫,所以必须把爬虫伪装成浏览器,而且不能频繁抓取,得sleep一会再抓,使

python爬虫抓取51cto博客大牛的文章保存到MySQL数据库

脚本实现:获取51cto网站某大牛文章的url,并存储到数据库中. #!/usr/bin/env python #coding:utf-8 from  bs4  import  BeautifulSoup import urllib import re import MySQLdb k_art_name = [] v_art_url = [] db = MySQLdb.connect('192.168.115.5','blog','blog','blog') cursor = db.cursor

python爬虫爬取csdn博客专家所有博客内容

python爬虫爬取csdn博客专家所有博客内容: 全部过程采取自动识别与抓取,抓取结果是将一个博主的所有 文章存放在以其名字命名的文件内,代码如下 结果如下: 版权声明:本文为博主原创文章,未经博主允许不得转载.

python3.5中urllib模块抓取指定URL内容

python3.5中把python中的urllib和urllib2模块合并为urllib模块啦.urllib模块下有五个类: 抓取指定URL下内容封装成一个类文件对象,其中的很多方法操作和文件操作是一样的.

【Fiddler】使用fiddler抓取指定浏览器的包

使用fiddler抓取不到浏览器的包时常用的解决办法: 1.必须先打开Fiddler,再打开浏览器 2.Fiddler只能截取网页与服务器间的通信,无法截取游戏封包 3.Fiddler没有打开捕捉模式 其他问题的解决方法: 1.这种是chrome浏览器抓不到的情况:实际上fiddler是可以抓chrome的请求的. 由于可能chrome安装了代理管理的插件SwitchySharp,无论选择直接连接还是选择使用代理连接,插件都会屏蔽fiddler的设置. fiddler会自动给浏览器设置一个代理1

在Web微信应用中使用博客园RSS以及Quartz.NET实现博客文章内容的定期推送功能

本篇随笔介绍在Web微信应用中使用博客园RSS以及Quartz.NET实现博客文章内容的定期推送功能,首先对Quartz.NET进行一个简单的介绍和代码分析,掌握对作业调度的处理,然后对博客园RSS内容的处理如何获取,并结合微信消息的群发接口进行内容的发送,从而构建了一个在Web应用中利用作业调度来进行消息发送的业务模型. Quartz.NET是一个开源的作业调度框架,非常适合在平时的工作中,定时轮询数据库同步,定时邮件通知,定时处理数据等. Quartz.NET允许开发人员根据时间间隔(或天)

利用Wireshark抓包登录博客园

1,打开WireShark,选择本地网卡. 2,在filter中输入过滤条件Http. 3,找到http包中的get 和post的包,这时你可以找到你登录的用户名和密码了,这个用户名和密码通过表单进行验证. 利用Wireshark抓包登录博客园,布布扣,bubuko.com