PHP采集CSDN博客边栏的阅读排行

  项目中要用到采集的数据,所以就先拿CSDN博客来试了试。这里使用Simple HTML DOM(官网)这个库,它能够方便的遍历HTML文档。

<?php
    include_once(‘simple_html_dom.php‘);
    header(‘Content-Type:text/html;charset=utf-8‘);
    $html = file_get_html(‘http://blog.csdn.net/szy361‘);

    $res = $html->find(‘#hotarticls ul.panel_body li a[title]‘);//取得id=hotarticls下class为panel_bodya的ul标签下的a的title
    $span = $html->find(‘#hotarticls ul.panel_body li span‘);//取得span
    foreach($res as $element){
        $arr[] = $element->title.‘+‘.$element->href;//将title值和href的值通过+连起来
    }
    foreach($span as $e){
        $brr[] = $e->innertext;//得到span下的值组成的数组
    }

    //将两个数组组成一个新的二维数组
    for($i=0;$i<count($res);$i++){
        $crr[] = explode(‘+‘,$arr[$i]);
        $crr[$i][] = $brr[$i];
    }
    return $crr;

扩展:

PHP Simple HTML DOM解析器使用入门

PHP采集CSDN博客边栏的阅读排行

时间: 2024-10-10 01:04:57

PHP采集CSDN博客边栏的阅读排行的相关文章

Python爬取CSDN博客文章

之前解析出问题,刚刚看到,这次仔细审查了 0 url :http://blog.csdn.net/youyou1543724847/article/details/52818339Redis一点基础的东西目录 1.基础底层数据结构 2.windows下环境搭建 3.java里连接redis数据库 4.关于认证 5.redis高级功能总结1.基础底层数据结构1.1.简单动态字符串SDS定义: ...47分钟前1 url :http://blog.csdn.net/youyou1543724847/

Android应用开发-小巫CSDN博客客户端UI篇

Android应用开发-小巫CSDN博客客户端UI篇 上一篇是给童鞋们介绍整个项目的概况,从这篇博文开始,后续也会详细介绍整个客户端的开发,但不会贴很多代码,我会贴核心代码然后提供实现思路,想看里面更详细的代码的可以到我的资源页下载源码进行查看,之前上传到github的少了些jar包,所以我在csdn下载频道也上传了一份,地址:http://download.csdn.net/detail/wwj_748/7912513. 整个客户端的开始,自然是需要搭建一个承载我们数据的框架,我这里所说的是U

[2015更新]用Word2007写CSDN博客

搞了半天终于可以用word2007发布CSDN博客了,特分享出来,以方便其他用户. 启动word2007后,点击左上角的office按钮,并将鼠标指向"发布",得到如图1所示的界面. ? ? 图1 office按钮 然后点击"博客",此时如果没有注册账号会弹出注册账号对话框,如果已经有账号直接进入博客文章页面,点击图2所示的管理账号,然后点击"新建"也可以进入图3所示的注册账号对话框. ? ? 图2?博客文章 ? ? 图3?新建博客账号 在新建博

CSDN博客文章必须要登录才能查看解决办法

1 将此文章存到书签栏. 2 右键点击保存到书签栏的这个书签,然后点击修改. 3 名称改为:CSDN查看全文,网址改为: javascript:$("#article_content").css({"height":"auto","overflow":"auto"});$(".hide-article-box").css({"display":"none&q

[搬运自我的CSDN博客] python抓取javascript动态生成HTML内容的实践

<注:CSDN博客在美国访问特别卡,所以转移到cnblogs来发文章> 本实验在Ubuntu14.04上完成.使用的浏览器是火狐(Firefox 33.0),python版本是2.7.6. 大家都知道用urllib配合正则表达式抓取静态HTML的内容很方便,但是如果网页中有javascript动态生成的内容,urllib就无能为力了. 此时我们要借助一个额外的工具:selenium.它的工作原理是操纵(火狐)浏览器浏览目标网页,等待网页中的javascript全部执行完毕后再对HTML源码进行

Android应用开发-小巫CSDN博客客户端之显示博文详细内容

Android应用开发-小巫CSDN博客客户端之显示博文详细内容 上篇博文给大家介绍的是如何嵌入有米广告并且获取收益,本篇博客打算讲讲关于如何在一个ListView里显示博文的详细信息,这个可能是童鞋们比较困惑的,因为一篇博客可能有标题.摘要.图片.代码等等元素组成,我们要怎么在一个界面中显示这些内容并且按照自己的指定的方式显示呢,别急,下面会告诉大家. 重新整理一下一篇博文可能有以下元素: 标题 摘要 文本内容 图片 粗标题 代码块 在UI篇小巫已经介绍了,博文详细内容的主要控件就是一个Lis

python爬虫爬取csdn博客专家所有博客内容

python爬虫爬取csdn博客专家所有博客内容: 全部过程采取自动识别与抓取,抓取结果是将一个博主的所有 文章存放在以其名字命名的文件内,代码如下 结果如下: 版权声明:本文为博主原创文章,未经博主允许不得转载.

Android应用开发-小巫CSDN博客客户端之集成友盟社会化分享组件

Android应用开发-小巫CSDN博客客户端之集成友盟社会化分享组件 上一篇博客给大家介绍了如何分析网页并且使用jsoup这个库对html代码进行解析,本篇博客继续给大家介绍如何集成友盟社会化组件,如何使用SDK提供的API轻松实现多平台的社会化分享,官网的文档和Demo看起来很头疼的有木有,小巫在集成这个社会化的组件也有点烦躁,所以也需要各位耐心看下面的博文把友盟社会化组件集成到你的应用中去.为什么要选择友盟呢,这里也是答应了小喵的,要帮忙集成他们的服务,所以也顺带帮他们写一篇这样的博文,千

Android应用开发-小巫CSDN博客客户端Jsoup篇

Android应用开发-小巫CSDN博客客户端Jsoup篇 距上一篇博客已经过去了两个星期,小巫也觉得非常抱歉,因为在忙着做另外一个项目,几乎抽不出空来,这不小巫会把剩下的博文全部在国庆补上.本篇博客将会给大家介绍如何使用Jsoup这个库来解析我们的网页,并且如何对我们想解析的网页进行分析. Jsoup这个库的下载地址:http://jsoup.org/download 笔者这里使用的jsoup-1.7.2 下载完之后复制到项目中的libs目录下即可: Jsoup的资料比较少,可供参考的可到其官