使用python获取博客园作者的文章列表的超链接以及标题

# -*- coding: utf-8 -*-
"""
Created on Thu Jun 12 09:37:48 2014

@author: lifeix
"""

import re
import urllib2
import cookielib

url = ‘http://www.cnblogs.com/wendingding/tag/IOS%E5%BC%80%E5%8F%91/default.html?page=‘
#url = ‘http://www.cnblogs.com/smileEvday/category/578973.html?page=‘
reg = ‘<a id="\w+" href="http://www.cnblogs.com/\w+/p/\w+.html">\s*\t*\n*\s*\t*\s*.*?

\t*\n*\t*\s*</a>‘

def startParse(author,page=1):

    cj = cookielib.LWPCookieJar()
    cookie_support = urllib2.HTTPCookieProcessor(cj)
    opener = urllib2.build_opener(cookie_support,urllib2.HTTPHandler)
    urllib2.install_opener(opener)  

    headers = {‘User-Agent‘ : ‘Mozilla/5.0 (Windows NT 6.1; WOW64; rv:14.0) Gecko/20100101 Firefox/14.0.1‘,
           ‘Referer‘ : "http://www.cnblogs.com"}

    flag = True
    while flag == True:
        nurl = url + str(page)
        req = urllib2.Request(nurl,headers=headers)
        resp = urllib2.urlopen(req)
        data = resp.read()
        regex = re.compile(reg,flags=re.MULTILINE)
        result = regex.findall(data)
        for d in result:
            print d
        if len(result) < 20:
            flag = False
        else:
            page = page + 1
    print ‘finished----------------------page:%d‘%page

if __name__ == ‘__main__‘:
    startParse(‘‘,1)
				
时间: 2024-12-15 01:35:35

使用python获取博客园作者的文章列表的超链接以及标题的相关文章

博客园添加markdown文章导航栏

博客园添加Markdown文章导航栏 我正在翻译Spring Framework文档,发布到博客园之后发现文章太密集,猛一看到比较懵,由于看到博客园支持自定义页面,我觉得添加一个导航栏,结构上会更加清晰一些. 所以在网上搜了搜关于添加导航栏的文章,搜到一个试了试,有些问题,所以就自己写了一个,实现功能如下: 主要搜索主页面中的h1-h6 根据1-6的级别设置字体大小和缩进宽度 滚动时页面最上方的标题对应导航将加粗 支持展开隐藏(默认隐藏,如果默认打开,就将js代码第6行display:none改

Python抓拍博客园文章,并存入数据库

在学习python后,想做个爬虫,抓取博客园文章. 爬虫思路很简单,模拟浏览器访问网页,得到网页的html代码,再根据页面结构,从html中提取自己需要的内容. 本文代码主要分为3个部分: 1.读取博客园首页文章链接. https://www.cnblogs.com/是博客园的首页,列出了文章,分析页面内容,读取文章的链接. 这需要看页面的结构,可以使用浏览器,再浏览页面代码,选择元素,看界面上选中哪一部分,根据自己的需要,可以看到对应模块的代码. 2.对于每个页面,分析页面内容. 这需要看页面

使用Nodejs获取博客园博客数据并处理转发

通过查询了解到博客园是有开发博客查询相关的接口的,列表如下: Uri Method Description 48HoursTopViewPosts/{itemCount} GET 48小时阅读排行 bloggers/recommend/{pageIndex}/{pageSize} GET 分页获取推荐博客列表 bloggers/recommend/count GET 获取推荐博客总数 bloggers/search GET 根据作者名搜索博主 post/{postId}/comments/{pa

UWP 获取博客园积分,并以图标形式呈现变化趋势

先看一下效果吧 1. 分析 说实话,之前还真没在乎过博客园的排名和积分,博客园默认也不给显示.需要自己到选项里面勾选才可以. 之前也有几个大佬写过类似的文章,不过是很早了.博客园关于获取积分的api已经变了. 也不算是api吧,毕竟不是官方公开的.不过自己可以通过查看页面元素,找到博客园的积分url. 在你勾选?了上面的选项之后,打开你的博客主页,比如我的就是https://www.cnblogs.com/hupo376787/ 按F12,调出开发者工具,进入Network选项卡. 如果在下面的

python模拟博客园登录-基础版

mport timeimport inspectfrom functools import wrapsuser_status = {'username': None,'status': False} dic1 = { 1: '登录', 2: '注册', 3: '文章', 4: '日记', 5: '评论', 6: '收藏', 7: '注销', 8: '退出程序'} dic2 = { 3: 'artecle', 4: 'diary', 5: 'comment', 6: 'collection', 7

【Python3 爬虫】爬取博客园首页所有文章

首先,我们确定博客园首页地址为:https://www.cnblogs.com/ 我们打开可以看到有各种各样的文章在首页,如下图: 我们以上图标记的文章为例子吧!打开网页源码,搜索Docker,搜索结果如下图: 从上图后红色标记部分可以看出,我们使用正则表达式即可匹配该网址,我们匹配到该网址之后,将该网址对应的内容下载到到底进行存储. 实现代码 import urllib.request import re """ 爬取cnblogs首页所有的文章 ""&

Python实现博客园闪存刷星星脚本

几个月没刷出过星星来的Gengxin,终于有幸见到了自己闪存后面跟着的那个小东西,高兴的不得了.看见最近闪存刷星星现象日渐严重,于是觉得自己也得来这么一个,玩玩. 观察了闪存的发送过程,发现这根本就是个……简单的填表格找按钮点击而已.如果没有刷到星星,就点击删除,毁尸灭迹. 上面是思路.基本所有人都能看得出来.实现起来,直接用pywin32调用ie com组件 模拟浏览器操作网页.非常简单.这个博客就当作个pywin32的操作com组件的教程吧. 首先,我们需要安装pywin32.(博客末尾会放

博客园如何设置目录生成&amp;设置目录&amp;设置标题背景色&amp;修改标题背景色

阅读目录 前提 设置目录生成&设置/修改标题背景色 设置目录 前提 注意: 请先申请开通JS接口!! 今天帮朋友设置后台代码,发现怎么都没有效果,看了下忽略了JS接口: 因为插入的代码大多有JS功能,不申请开通JS功能自然无法支持JS效果. 网上看了很多博客也都没提及这点,感觉是个坑,So,需要的朋友可以留意下. 对了.在编辑页面是显示不出目录效果的,只有你设置好目录发布文章后,发布的文章才会有目录效果哦~ 设置目录生成&设置/修改标题背景色 <script language=&qu

使用博客园写随笔时如何添加超链接

为 PyTorch官网 添加超链接 https://pytorch.org/ PyTorch官网,选中PyTorch官网添加链接, 常规属性,目标 选择「在目前窗口打开超链接」,其他可不填 弹窗属性,勾选 JavaScript 弹出,弹窗URL地址输入 https://pytorch.org/ 高级属性,样式 输入:cursor:pointer; 最后点击插入即可. 原文地址:https://www.cnblogs.com/booturbo/p/11837948.html