博客数据抓取总结

今天下午的总结让我发现了自己的几个缺点，立此为证，以求改变。

第一点，事前观察不够仔细。事先在源代码上发现了几个数据就急着着手去做，没有观察完所有的数据，导致做到一半才发现有些是js代码执行后才出现的数据，与一般静态源代码的数据的抓取方式不同。

第二点，坚持耐性尚缺。遇到了因为版本问题等而导不出数据到Excel，动态数据抓取不了，网站各种标记不同等问题，而暂时放弃去做另外的项目。其实这个时候我还有更好的解决方案，就是求助老师。这也就是我的第三点，要记得在关键时候适当得求助别人，不管是老师还是同学，总能得到另外一条路。

同时也从老师的讲解中得到了几点收获。这么简单的一个小会议，老师都做了PPT，这是从细微处见真章，要引导自己养成好习惯。同时，老师也很详细的介绍了面向对象与面向过程，以后想问题尽量让自己往面向对象的方向想，以养成面向对象的思维与习惯。

今天写的博客其实不论内容多少，主要是要引导自己养成写博客的习惯。

时间： 2024-10-12 14:35:16

博客数据抓取总结的相关文章

博客数据抓取

要求:抓取博客的粉丝数.关注数.圆龄.文章数.阅读数.评论数.积分.排名.推荐数.反对数等数据. 首先,来看下标准的博客界面,博客首页含有昵称.圆龄.粉丝.关注以及随笔.文章.评论等数据. 右键页面,审查元素,可以看到以下HTML代码. 1 <div id="blog-news"> 2 <div id="profile_block"> 3 昵称:<a href="http://home.cnblogs.com/u/giiku/

[搬运自我的CSDN博客] python抓取javascript动态生成HTML内容的实践

<注:CSDN博客在美国访问特别卡,所以转移到cnblogs来发文章> 本实验在Ubuntu14.04上完成.使用的浏览器是火狐(Firefox 33.0),python版本是2.7.6. 大家都知道用urllib配合正则表达式抓取静态HTML的内容很方便,但是如果网页中有javascript动态生成的内容,urllib就无能为力了. 此时我们要借助一个额外的工具:selenium.它的工作原理是操纵(火狐)浏览器浏览目标网页,等待网页中的javascript全部执行完毕后再对HTML源码进行

利用Selenium制作python数据抓取，以及对Selenium资源介绍

当当当~第三篇博客开始啦~ 这次的话题是数据抓取.终于到了核心部分的探讨,我的心情也是非常激动啊!如果大家baidu或者google(如果可以的话)数据抓取或者data crawling,将会找到数以千计的例子.但是大多数的代码非常的冗长,并且许多代码还是抓取静态数据之后,对动态JS写成的数据却毫无办法.或者,利用HTML解析网址后,再找到JS写的数据页面来寻找到所想要的数据. 但是!不知各位是否有发现过,如果打开chrome或者safari或者各种浏览器的审查元素.网页上能看到的数据,其实都会

Phantomjs+Nodejs+Mysql数据抓取（2.抓取图片）

概要这篇博客是在上一篇博客Phantomjs+Nodejs+Mysql数据抓取(1.抓取数据) http://blog.csdn.net/jokerkon/article/details/50868880 后进行的第二部分,请各位读者在看这篇博客之前先浏览上一篇,因为这里面有部分代码会沿用到上一部分的抓取结果. 好,现在开始正式的抓取图片的讲解首先,我们先来看看代码: var page =require('webpage').create(); var address='http://pro

C# 微信生活助手空气质量天气预报等效果展示数据抓取（一）

第一次在博客园写博客写的不好,大家见谅.最近工作辞了,然后感冒发烧输了一个星期的液,感觉很烦躁,心情不是很好,在帝都感觉压力大,废话不说了开始正题把! 还没有完全完成,后续考虑开源! 可以关注微信公众帐号体验一下先看下效果把先介绍下工具我用的有 httpwatch,fiddler 国家环保部的数据链接 http://datacenter.mep.gov.cn/report/air_daily/airDairyCityHour.jsp 原以为直接get请求就可以了试了下发现没有获取了然

Twitter数据抓取

说明:这里分三个系列介绍Twitter数据的非API抓取方法,内容主要来自于Tom Dickinson的博客. Tom Dickinson Milton Keynes,I am currently a PhD student at KMI, currently researching extraction of memorable events from social media. My areas of expertise lie in data mining, machine learnin

【转载】国内网站博客数据统计选免费Google Analytics还是百度统计

[转载]国内网站博客数据统计选免费Google Analytics还是百度统计 Google Analytics谷歌统计是我用的第一个网站统计工具,当然现在也一直在用.Google Analytics凭借其强大的功能和超强的稳定性.快速的反应能力.广泛的数据应用功能,受到了广大站长的追捧. 使用Google Analytics的站长们应该不在少数吧,每天登录Google Analytics免费网站上查看网站的流量也是我们这些站长们必须做的事情,认真分析Google Analytics当中的数据信

网络爬虫+HtmlAgilityPack+windows服务从博客园爬取20万博文

网络爬虫+HtmlAgilityPack+windows服务从博客园爬取20万博文 1.前言最新在公司做一个项目,需要一些文章类的数据,当时就想到了用网络爬虫去一些技术性的网站爬一些,当然我经常去的就是博客园,于是就有下面的这篇文章. 2.准备工作我需要把我从博客园爬取的数据,保存起来,最好的方式当然是保存到数据库中去了,好了我们先建一个数据库,在来一张表,保存我们的数据,其实都很简单的了啊,如下图所示 BlogArticleId博文自增ID,BlogTitle博文标题,BlogUrl博文地

大数据抓取采集框架(摘抄至http://blog.jobbole.com/46673/)

摘抄至http://blog.jobbole.com/46673/ 随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前.如何能够做到所见即所得的无阻拦式采集.如何快速把不规则页面结构化并存储.如何满足越来越多的数据采集还要在有限时间内采集.这篇文章结合我们自身项目经验谈一下. 我们来看一下作为人是怎么获取网页数据的呢? 1.打开浏览器,输入网址url访问页面内容.2.复制页面内容的标题.作者.内容.3.存储到文本文件或者excel. 从技术角度来说整个过程

猜你喜欢

过滤器、监听器、拦截器的区别

1.过滤器 Servlet中的过滤器Filter是实现了javax.servlet.Filter接口的服务器端程序,主要的用途是过滤字符编码.做一些业务逻辑判断等.其工作原理是,只要你在web.xml ...

网页访问控制

首先确认安装了httpd服务,并且能正常运行. [[email protected] ~]# netstat -utpln |grep httpd tcp 0 0 :::80 ...

hadoop的两类配置文件及3种启动/关闭方式

hadoop配置文件默认配置文件:四个模块相对应的jar包中:$HADOOP_HOME/share/hadoop *core-default.xml *hdfs-defa ...

ubuntu delect opencv

1. 默认情况下,建立从源代码OpenCV的时候,它会把它的输出/usr/local/lib和/usr/local/bin.虽然,从你判断它看起来像它放在图书馆/usr/lib而在二进制文件/usr/ ...

sqlserver错误"试图扩大物理文件时，MODIFY FILE 遇到操作系统错误 112(磁盘空间不足。)。"处理

正常还原的时候报错: Microsoft SQL-DMO (ODBC SQLState: 42000)---------------------------试图扩大物理文件时,MODIFY FILE ...

【技巧性（+递归运用）】UVa 1596 - Bug Hunt

In this problem, we consider a simple programming language that has only declarations of onedimensio ...

张书乐：玩转官方自媒体，要能让粉丝找到价值，绝非找到商品

相对自媒体来说,企业形态的官方自媒体更难做,尤其是在发布信息上.如果太"企业",很容易被看成广告,进而被选择性无视:但如果不发布企业的信息,又算哪门子官方自媒体呢?如何摆脱这种尴尬 ...

ListView+Adapter适配器的使用与Listview常见的UI显示问题

一.ListView的事件: 1.setOnItemClickListener()点击事件 listview.setOnItemClickListener(new OnItemClickListene ...

sqlyog v11.24注册码

ccbfc13e-c31d-42ce-8939-3c7e63ed5417 a56ea5da-f30b-4fb1-8a05-95f346a9b20b a0fe8645-3916-45d4-9976-cb ...

图解Android - Android GUI 系统 (1) - 概论

http://www.cnblogs.com/samchen2009/p/3364327.html Android的GUI系统是Android最重要也最复杂的系统之一.它包括以下部分: 窗口和图形系统 ...

CVE-2013-3893分析 IE6~IE11远程代码执行

1.漏洞复现 POC如下 <html> <script> function trigger() { Math.tan(3,4); var id_0 = document.cre ...

Sql Server之旅——第六站使用winHex利器加深理解数据页

这篇我来介绍一个winhex利器,这个工具网上有介绍,用途大着呢,可以用来玩数据修复,恢复删除文件等等....它能够将一个file解析成 hex形式,这样你就可以对hex进行修改,然后你就可以看到修复 ...

poj.org --map-- 1002

#include <iostream> #include <map> #include <string> #include <cstring> #inc ...

asp.net mvc Session RedisSessionStateProvider锁的实现

最近项目用到了RedisSessionStateProvider来保存session,发现比内存session慢,后来慢慢了解,发现asp.net session是有锁的.我在文章你的项目真的需要S ...

浅谈 linux 例行性工作 crontab (linux定时任务)

定时任务大家都挺说过,就好比你手机上的闹钟,到了指定的时候就会响起. 今天在对redis缓存进行定时储存时又操作了一把,发现一些细节,写的不好.大家就将就看吧, 首先简单介绍一下linux 例行性工 ...

linux命令gpasswd -a和usermod -g的区别

首先分别阐述两个命令的常用用法 usermod 功能:修改用户信息用法:usermod 选项参数用户名常用选项: -c (comment) :修改用户的注释信息 -d ...

2015年下半年软考中高级学员精讲班   第三章

2015年下半年软考中高级学员精讲班主讲:王老师中级学员和高级学员一起看中级教程中级教程第三章信息系统集成专业技术知识(P81-134) 上午考试:10分选择题下午考试:不考中级学员 ...

SCU - 4439 Vertex Cover （图的最小点覆盖集）

Vertex Cover frog has a graph with \(n\) vertices \(v(1), v(2), \dots, v(n)\) and \(m\) edges \((v(a ...

将mysql数据从Windows迁移到Linux中

1.先在windows上将数据都导出一个文件.(这里以某个数据库为例) 导出整个数据库 mysqldump -u 用户名 -p密码数据库名 > 导出的文件名导出指定表 mysqldump - ...

jQuery 工具类函数-字符串操作函数

调用名为$.trim的工具函数,能删除字符串中左右两边的空格符,但该函数不能删除字符串中间的空格,调用格式为: $.trim (str); 参数str表示需要删除左右两边空格符的字符串. <bo ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.020 s.