博客搬家算法伪码

已有平台:CSDN博客、51CTO、博客园、WordPress

不同平台的博客,数据解析方式不一样,数据抓取和存储都是类似的。

1.确定博客首页地址

a.平台地址

比如,CSDN的博客地址是 http://blog.csdn.net/

b.账号

fansunion

CSDN某个用户的地址是:http://blog.csdn.net/FansUnion

2. 从首页获得关键信息

2.1获得博客分类列表

新人毕业-老人跳槽(24)

OpenJDK源码研究笔记(16)

性能优化(11)

中国象棋(13)

List<String> 存储所有的文章分类,保存到数据库中

addArticleCategory(Integer userId,List<String> categoryList);

创建所有的日志分类(id自增,name)

2.2确定日志的页数

CSDN的"431条数据 共9页"

获取到“9” pageCount

3.获取日志集合

3.1确定日志列表的地址

比如CSDN的日志格式是:http://blog.csdn.net/FansUnion/article/list/2

3.2遍历所有的文章列表

for(int index=0;index<pageCount;index++){

解析该页的日志地址,比如CSDN的格式是“ http://blog.csdn.net/fansunion/article/details/17070151

}

所有的日志地址集合

List<String> articleList;

4.遍历所有的文章

for(int index=;index<articleList.size;index++){

抓取每1篇日志的字段数据,

Article:标题、内容、摘要、时间、性质(原创、转载、翻译)

保存到数据库中

addArticle(Article);

}

原文首发:http://fansunion.cn/article/detail/59.html

时间: 2024-11-02 00:34:23

博客搬家算法伪码的相关文章

博客搬家啦!

博客搬家啦! 本人博客站点 欢迎各位IT大牛多多指教,多多交流!Thangk you ! 2015.07.25 版权声明:本文为博主原创文章,未经博主允许不得转载.

博客搬家 备份

1.博客搬家 csdn博客可以搬家到博客园 2.博客备份 Blog_Backup可以备份博客,未注册版本可以导出20篇博客,购买需要40元(淘宝),导出格式如下(导出word时,需先下载图片) 3.使用网页下载器备份博客 使用offline explorer,Telport ultra不能备份博客,因为进入我的博客需要登录,网页下载器遇到登录页面就不能继续下载了,即使你输入了用户名和密码

CentOS常用文件操作命令[百度博客搬家]

路径操作的CentOS常用命令 现在整理如下(百度博客搬家) cd pwd NO1. 显示当前路径 [[email protected] root]# pwd NO2. 返回用户主目录 [[email protected] root]# cd NO3. 改变到其它路径 [[email protected] root]# cd /etc NO4. 返回到上一级目录 [[email protected] root]# cd .. NO5. 返回到根目录 [[email protected] root

博客搬家啦~(写于2013-12-25)

风设计搬新家了,域名dissodiso.com,liudongni520.com还是可以用.最终选定了在网易博客,能满足我所有的需求,之前试过几个博客,都不如意. 1,新浪博客,我以前都是用的新浪博客,用来写小说,这次还是想用它,结果发现文章不能显示源代码,而且编辑器也没有插入代码的功能.我看别人的博客可以发布源代码,我找相关资料,说用<pre>代码</pre>可以格式化代码,把代码变成文本,但是新浪博客还是不行,超级郁闷!:(连续发几篇文章,就会提示文章发布太频繁,让我过段时间再

关于将博客搬家至博客园的声明

囿于众所周知的.昭然若揭的简单原因,博主现已不能忍受CSDN铺天盖地的广告行为和恬不知耻的圈钱行为(当然还因为它有点丑),故将博客搬至博客园. 但我不会把原来写过的博文搬过来,因为博客园自带的那个搬家拷不过来图片. 这是我的原博客地址:https://blog.csdn.net/qq_36551189 原文地址:https://www.cnblogs.com/Iking123/p/11172095.html

黑金博客搬家了

黑金原创博客已经搬至下面的地址: alinx.cnblogs.com 以后连载的教程将发布到新的博客网站,我们将连载更多FPGA技术博文,对于研究FPGA的朋友,请多多关注.

博客搬家通知

大家好,谢谢大家长久来的支持.该博客已迁移至:www.liuling123.com 现正在征集友链,有意向的请留言.

博客搬家啦!!!!!!!!!!!!!!!!!!!!!!!!

我的博客新地址:iOS界迷糊小书童 CSDN自此停止更新,欢迎大家访问我的新地址. 这里的文章我就不搬移过去了,以后有时间的话考虑下,目前比较忙碌中. 新博客地址也有这里的链接,顺带还增加了我的github和新浪微博的链接(代码总算能上传到github了).

博客搬家啦!!!

新个人博客地址:http://blog.liuker.cn/ 欢迎拍砖.