python+scrapy分析博客园首页4000篇优质博客(图解)

1、侵删

本文数据是获取的博客园首页的4000条数据,为了不对博客园服务器造成压力,所以源码不会公开,在此,敬请博客园官方团队放心。
获取到的数据从2019-7-11到2019-9-12,此数据也不会公开。
由于会涉及到一些博主的数据,所以有博主不愿公开数据,联系我及时删除。

2、先上数据分析结果

写文最多的博主top6 ---->(最勤劳的博主)?(′?`*)

黑白影-->发文54篇
周国通-->发文38篇
宜信技术-->发文30篇
削微寒-->发文28篇
泰斗贤若如-->发文26篇
小世界的野孩子-->发文26篇

最受博友们推荐的文章top5 ---->(园子里被大家力推的文章)(≧?≦)?

《漫画 |《帝都程序猿十二时辰》》-->220人推荐
《一文详解微服务架构》-->188人推荐
《.NET Core 学习资料精选:入门》-->155人推荐
《.NET Core 学习资料精选:进阶》-->152人推荐
《【网站公告】.NET Core 版博客站点第二次发布尝试》-->119人推荐

被浏览最多次的文章top5 ---->(园子里大家最喜欢看的文章)╰(°?°)╯

《为什么说是时候拥抱.NET CORE了?》-->12660人浏览
《【故障公告】发布 .NET Core 版博客站点引起大量 500 错误》-->11373人浏览
《我在北京这几年(全)》-->11282人浏览
《高速开车换底盘记:Windows 与 Linux 部署都抗住了,但修车任务艰巨》-->9908人浏览
《【网站公告】.NET Core 版博客站点第二次发布尝试》-->9813人浏览

被评论最多次的文章top5 ---->(都是博客园团队的文章哦)︿( ̄︶ ̄)︿

《Powered by .NET Core 进展:验证高并发性能问题嫌疑犯 docker swarm》-->408次评论
《【网站公告】.NET Core 版博客站点第二次发布尝试》-->394次评论
《【故障公告】升级阿里云 RDS SQL Server 实例故障经过》-->168次评论
《【故障公告】发布 .NET Core 版博客站点引起大量 500 错误》-->153次评论
《高速开车换底盘记:Windows 与 Linux 部署都抗住了,但修车任务艰巨》-->152次评论

文章标题中出现最多的词 -->(大家最喜欢关注的话题)(??????)??
关键字 出现的次数 关键字 出现的次数 关键字 出现的次数
.net 341 java 292 spring 291
python 153 javascript 116 算法 112
sql 100 c# 90 数据结构 73
vue 71 架构 69 面试 57
程序员 54 Linux 52 机器学习 51
数据库 50 前端 49 mybatis 46
爬虫 38 小程序 31 后端 27
react 26 window 24 css 21
mongodb 19 json 18 c++ 18
html 18 大数据 16 阿里 14
php 13 百度 11 angular 3
腾讯 3

大家喜欢在星期几发表文章呢? -->(果然周六周日都不发表,工作日职业滑水)(°ー°〃)
星期 一共发表的文章数
星期一 668篇
星期二 649篇
星期三 631篇
星期四 630篇
星期五 570篇
星期六 420篇
星期日 430篇

一天中发文高峰期 -->(博客园服务器什么时候最难抗)?(?????)?

原文地址:https://www.cnblogs.com/Juaoie/p/11517134.html

时间: 2024-11-14 12:32:59

python+scrapy分析博客园首页4000篇优质博客(图解)的相关文章

Python爬虫入门教程:博客园首页推荐博客排行的秘密

1. 前言 虽然博客园注册已经有五年多了,但是最近才正式开始在这里写博客.(进了博客园才知道这里面个个都是人才,说话又好听,超喜欢这里...)但是由于写的内容都是软件测试相关,热度一直不是很高.看到首页的推荐博客排行时,心里痒痒的,想想看看这些大佬究竟是写了什么文章这么受欢迎,可以被推荐.所以用Python抓取了这100位推荐博客,简单分析了每个博客的文章分类,阅读排行榜,评论排行榜及推荐排行榜,最后统计汇总并生成词云.正好这也算是一篇非常好的Python爬虫入门教程了. 2. 环境准备 2.1

运用python抓取博客园首页的所有数据,而且定时持续抓取新公布的内容存入mongodb中

原文地址:运用python抓取博客园首页的所有数据,而且定时持续抓取新公布的内容存入mongodb中 依赖包: 1.jieba 2.pymongo 3.HTMLParser # -*- coding: utf-8 -*- """ @author: jiangfuqiang """ from HTMLParser import HTMLParser import re import time from datetime import date im

运用python抓取博客园首页的全部数据,并且定时持续抓取新发布的内容存入mongodb中

原文地址:运用python抓取博客园首页的全部数据,并且定时持续抓取新发布的内容存入mongodb中 依赖包: 1.jieba 2.pymongo 3.HTMLParser # -*- coding: utf-8 -*- """ @author: jiangfuqiang """ from HTMLParser import HTMLParser import re import time from datetime import date im

.NET Core 实现定时抓取博客园首页文章信息并发送到邮箱

前言 大家好,我是晓晨.许久没有更新博客了,今天给大家带来一篇干货型文章,一个每隔5分钟抓取博客园首页文章信息并在第二天的上午9点发送到你的邮箱的小工具.比如我在2018年2月14日,9点来到公司我就会收到一封邮件,是2018年2月13日的博客园首页的文章信息.写这个小工具的初衷是,一直有看博客的习惯,但是最近由于各种原因吧,可能几天都不会看一下博客,要是中途错过了什么好文可是十分心疼的哈哈.所以做了个工具,每天归档发到邮箱,妈妈再也不会担心我错过好的文章了.为什么只抓取首页?因为博客园首页文章

【Python3 爬虫】爬取博客园首页所有文章

首先,我们确定博客园首页地址为:https://www.cnblogs.com/ 我们打开可以看到有各种各样的文章在首页,如下图: 我们以上图标记的文章为例子吧!打开网页源码,搜索Docker,搜索结果如下图: 从上图后红色标记部分可以看出,我们使用正则表达式即可匹配该网址,我们匹配到该网址之后,将该网址对应的内容下载到到底进行存储. 实现代码 import urllib.request import re """ 爬取cnblogs首页所有的文章 ""&

Windows live Writer博客园,51CTO,网易博客,新浪博客配置方法

今天使用微软的Windows live Writer进行了博客园,51CTO,网易博客,新浪博客的博客发布.感觉效果不错,特别分享给大家.由于csdn账号忘记,所以... 先截个图给大家看下: 说下这款工具的作用吧,很多人在不同的博客网站申请了自己的博客,那么你是否还在为使用Ctrl+C的方式来达到博客的同步呢?如果答案是yes,那么强烈建议你使用Windows live Writer这款工具.当然你也可以实现Metaweblog API实现自己的博客发布器.甚至可以让微博同步博客,这都是可以的

博客园 首页 公告 自定义 时钟 HOME HOME CLOCK

今天给大家介绍个好玩的东西,很简单. 大家是否经常在别人博客园个人首页公告处看到自定义的时钟啊什么的,今天我也来一个. 先看效果图: 源码奉上 <html> <div id="myTime"> <object classid="clsid:d27cdb6e-ae6d-11cf-96b8-444553540000" codebase="http://fpdownload.macromedia.com/pub/shockwave/

博客园首页显示自己的微博

<div id="weibowidget"> <script type="text/javascript"> var weibocode = '<if' weibocode +='rame width="100%" height="300" class="share_self" frameborder="0" scrolling="no"

【被玩坏的博客园】之canvas装饰博客园侧边栏

最近抽空学了学canvas,然后用canvas做了个小球运动的demo,大致的效果如下: 虽然网上已经有很多这样的demo,但是还是想根据自己的思路来写一个,下面先跟大家讲解一下源代码,先看html代码: <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <meta name="viewport" content=&q