使用python获取博客园作者的文章列表的超链接以及标题

# -*- coding: utf-8 -*-
"""
Created on Thu Jun 12 09:37:48 2014

@author: lifeix
"""

import re
import urllib2
import cookielib

url = ‘http://www.cnblogs.com/wendingding/tag/IOS%E5%BC%80%E5%8F%91/default.html?page=‘
#url = ‘http://www.cnblogs.com/smileEvday/category/578973.html?page=‘
reg = ‘<a id="\w+" href="http://www.cnblogs.com/\w+/p/\w+.html">\s*\t*\n*\s*\t*\s*.*?

\t*\n*\t*\s*</a>‘

def startParse(author,page=1):

    cj = cookielib.LWPCookieJar()
    cookie_support = urllib2.HTTPCookieProcessor(cj)
    opener = urllib2.build_opener(cookie_support,urllib2.HTTPHandler)
    urllib2.install_opener(opener)  

    headers = {‘User-Agent‘ : ‘Mozilla/5.0 (Windows NT 6.1; WOW64; rv:14.0) Gecko/20100101 Firefox/14.0.1‘,
           ‘Referer‘ : "http://www.cnblogs.com"}

    flag = True
    while flag == True:
        nurl = url + str(page)
        req = urllib2.Request(nurl,headers=headers)
        resp = urllib2.urlopen(req)
        data = resp.read()
        regex = re.compile(reg,flags=re.MULTILINE)
        result = regex.findall(data)
        for d in result:
            print d
        if len(result) < 20:
            flag = False
        else:
            page = page + 1
    print ‘finished----------------------page:%d‘%page

if __name__ == ‘__main__‘:
    startParse(‘‘,1)

时间： 2024-12-15 01:35:35

使用python获取博客园作者的文章列表的超链接以及标题的相关文章

博客园添加markdown文章导航栏

博客园添加Markdown文章导航栏我正在翻译Spring Framework文档,发布到博客园之后发现文章太密集,猛一看到比较懵,由于看到博客园支持自定义页面,我觉得添加一个导航栏,结构上会更加清晰一些. 所以在网上搜了搜关于添加导航栏的文章,搜到一个试了试,有些问题,所以就自己写了一个,实现功能如下: 主要搜索主页面中的h1-h6 根据1-6的级别设置字体大小和缩进宽度滚动时页面最上方的标题对应导航将加粗支持展开隐藏(默认隐藏,如果默认打开,就将js代码第6行display:none改

Python抓拍博客园文章，并存入数据库

在学习python后,想做个爬虫,抓取博客园文章. 爬虫思路很简单,模拟浏览器访问网页,得到网页的html代码,再根据页面结构,从html中提取自己需要的内容. 本文代码主要分为3个部分: 1.读取博客园首页文章链接. https://www.cnblogs.com/是博客园的首页,列出了文章,分析页面内容,读取文章的链接. 这需要看页面的结构,可以使用浏览器,再浏览页面代码,选择元素,看界面上选中哪一部分,根据自己的需要,可以看到对应模块的代码. 2.对于每个页面,分析页面内容. 这需要看页面

使用Nodejs获取博客园博客数据并处理转发

通过查询了解到博客园是有开发博客查询相关的接口的,列表如下: Uri Method Description 48HoursTopViewPosts/{itemCount} GET 48小时阅读排行 bloggers/recommend/{pageIndex}/{pageSize} GET 分页获取推荐博客列表 bloggers/recommend/count GET 获取推荐博客总数 bloggers/search GET 根据作者名搜索博主 post/{postId}/comments/{pa

UWP 获取博客园积分，并以图标形式呈现变化趋势

先看一下效果吧 1. 分析说实话,之前还真没在乎过博客园的排名和积分,博客园默认也不给显示.需要自己到选项里面勾选才可以. 之前也有几个大佬写过类似的文章,不过是很早了.博客园关于获取积分的api已经变了. 也不算是api吧,毕竟不是官方公开的.不过自己可以通过查看页面元素,找到博客园的积分url. 在你勾选?了上面的选项之后,打开你的博客主页,比如我的就是https://www.cnblogs.com/hupo376787/ 按F12,调出开发者工具,进入Network选项卡. 如果在下面的

python模拟博客园登录-基础版

mport timeimport inspectfrom functools import wrapsuser_status = {'username': None,'status': False} dic1 = { 1: '登录', 2: '注册', 3: '文章', 4: '日记', 5: '评论', 6: '收藏', 7: '注销', 8: '退出程序'} dic2 = { 3: 'artecle', 4: 'diary', 5: 'comment', 6: 'collection', 7

【Python3 爬虫】爬取博客园首页所有文章

首先,我们确定博客园首页地址为:https://www.cnblogs.com/ 我们打开可以看到有各种各样的文章在首页,如下图: 我们以上图标记的文章为例子吧!打开网页源码,搜索Docker,搜索结果如下图: 从上图后红色标记部分可以看出,我们使用正则表达式即可匹配该网址,我们匹配到该网址之后,将该网址对应的内容下载到到底进行存储. 实现代码 import urllib.request import re """ 爬取cnblogs首页所有的文章 ""&

Python实现博客园闪存刷星星脚本

几个月没刷出过星星来的Gengxin,终于有幸见到了自己闪存后面跟着的那个小东西,高兴的不得了.看见最近闪存刷星星现象日渐严重,于是觉得自己也得来这么一个,玩玩. 观察了闪存的发送过程,发现这根本就是个……简单的填表格找按钮点击而已.如果没有刷到星星,就点击删除,毁尸灭迹. 上面是思路.基本所有人都能看得出来.实现起来,直接用pywin32调用ie com组件模拟浏览器操作网页.非常简单.这个博客就当作个pywin32的操作com组件的教程吧. 首先,我们需要安装pywin32.(博客末尾会放

博客园如何设置目录生成&设置目录&设置标题背景色&修改标题背景色

阅读目录前提设置目录生成&设置/修改标题背景色设置目录前提注意: 请先申请开通JS接口!! 今天帮朋友设置后台代码,发现怎么都没有效果,看了下忽略了JS接口: 因为插入的代码大多有JS功能,不申请开通JS功能自然无法支持JS效果. 网上看了很多博客也都没提及这点,感觉是个坑,So,需要的朋友可以留意下. 对了.在编辑页面是显示不出目录效果的,只有你设置好目录发布文章后,发布的文章才会有目录效果哦~ 设置目录生成&设置/修改标题背景色 <script language=&qu

使用博客园写随笔时如何添加超链接

为 PyTorch官网添加超链接 https://pytorch.org/ PyTorch官网,选中PyTorch官网添加链接, 常规属性,目标选择「在目前窗口打开超链接」,其他可不填弹窗属性,勾选 JavaScript 弹出,弹窗URL地址输入 https://pytorch.org/ 高级属性,样式输入:cursor:pointer; 最后点击插入即可. 原文地址:https://www.cnblogs.com/booturbo/p/11837948.html