simple_html_dom使用小结

simple_html_dom使用小结

分类: PHP2012-08-31 14:24 3094人阅读 评论(0) 收藏 举报

htmlcallbackstringdivfunctionfile

1.文件夹结构如下:

php解析html页面工具 simple html dom 使用的简单介绍: 
(1)下载( http://sourceforge.net/projects/simplehtmldom/files/) ;

(2)解压,manual目录是使用文档(很容易看懂的,也可以看这里http://simplehtmldom.sourceforge.net/),example目录是一些实例,可以参考使用;

manual           手册文件夹,重点看懂这手册即可

2.简单范例

<?php

include "simple_html_dom.php" ; // Create DOM from URL or file
$html = file_get_html(‘http://www.google.com/‘);

// Find all images 
foreach($html->find(‘img‘) as $element) 
       echo $element->src . ‘<br>‘;

// Find all links 
foreach($html->find(‘a‘) as $element) 
       echo $element->href . ‘<br>‘;

// Create DOM from URL
$html = file_get_html(‘http://slashdot.org/‘);

// Find all article blocks
foreach($html->find(‘div.article‘) as $article) {
    $item[‘title‘]     = $article->find(‘div.title‘, 0)->plaintext;
    $item[‘intro‘]    = $article->find(‘div.intro‘, 0)->plaintext;
    $item[‘details‘] = $article->find(‘div.details‘, 0)->plaintext;
    $articles[] = $item;
}

print_r($articles);

// Create DOM from string
$html = str_get_html(‘<div id="hello">Hello</div><div id="world">World</div>‘); $html->find(‘div‘, 1)->class = ‘bar‘;

$html->find(‘div[id=hello]‘, 0)->innertext = ‘foo‘;

echo $html; // Output: <div id="hello">foo</div><div id="world" class="bar">World</div>

3.DOM的方法

$html = file_get_html(‘http://www.google.com/‘);        //$html 所拥有的方法如下表所示

$html->clear() ;                                                              //调用方法

DOM methods & properties

Name Description

void

__construct ( [string $filename] )

Constructor, set the filename parameter will automatically load the contents, either text or file/url.

 string

plaintext

Returns the contents extracted from HTML.

void

clear ()

Clean up memory.

void

load ( string $content )

Load contents from a string.

string

save ( [string $filename] )

Dumps the internal DOM tree back into a string. If the $filename is set, result string will save to file.

void

load_file ( string $filename )

Load contents from a from a file or a URL.

void

set_callback ( string $function_name )

Set a callback function.

mixed

find ( string $selector [, int $index] )

Find elements by the CSS selector. Returns the Nth element object if index is set, otherwise return an array of object.

4.find 方法详细介绍

 

find ( string $selector [, int $index] ) 

// Find all anchors, returns a array of element objects
$ret = $html->find(‘a‘);

// Find (N)th anchor, returns element object or null if not found (zero based)
$ret = $html->find(‘a‘, 0);

// Find lastest anchor, returns element object or null if not found (zero based)
$ret = $html->find(‘a‘, -1);

// Find all <div> with the id attribute
$ret = $html->find(‘div[id]‘);

// Find all <div> which attribute id=foo
$ret = $html->find(‘div[id=foo]‘);

// Find all element which id=foo
$ret = $html->find(‘#foo‘);

// Find all element which class=foo
$ret = $html->find(‘.foo‘);

// Find all element has attribute id
$ret = $html->find(‘*[id]‘);

// Find all anchors and images 
$ret = $html->find(‘a, img‘);

// Find all anchors and images with the "title" attribute
$ret = $html->find(‘a[title], img[title]‘);

// Find all <li> in <ul> 
$es = $html->find(‘ul li‘);

// Find Nested <div> tags
$es = $html->find(‘div div div‘);

// Find all <td> in <table> which class="hello" 
$es = $html->find(‘table.hello td‘);

// Find all td tags with attribite align=center in table tags 
$es = $html->find(‘‘table td[align=center]‘);

5. Element  的方法

$e = $html->find("div", 0);                              //$e 所拥有的方法如下表所示

 

Attribute Name Usage
$e->tag Read or write the tag name of element.
$e->outertext Read or write the outer HTML text of element.
$e->innertext Read or write the inner HTML text of element.
$e->plaintext Read or write the plain text of element.

// Example
$html = str_get_html("<div>foo <b>bar</b></div>"); 
$e = $html->find("div", 0);

echo $e->tag; // Returns: " div"
echo $e->outertext; // Returns: " <div>foo <b>bar</b></div>"
echo $e->innertext; // Returns: " foo <b>bar</b>"
echo $e->plaintext; // Returns: " foo bar"

6.DOM traversing 方法

Method Description

mixed

$e->children ( [int $index] )

Returns the Nth child object if index is set, otherwise return an array of children.

element

$e->parent ()

Returns the parent of element.

element

$e->first_child ()

Returns the first child of element, or null if not found.

element

$e->last_child ()

Returns the last child of element, or null if not found.

element

$e->next_sibling ()

Returns the next sibling of element, or null if not found.

element

$e->prev_sibling ()

Returns the previous sibling of element, or null if not found.

// Example
echo $html->find("#div1", 0)->children(1)->children(1)->children(2)->id;
// or 
echo $html->getElementById("div1")->childNodes(1)->childNodes(1)->childNodes(2)->getAttribute(‘id‘);

附带: DOM方法  set_callback(‘my_callback‘)  使用方法

// Write a function with parameter "$element"
function my_callback($element) {
        // Hide all <b> tags 
        if ($element->tag==‘b‘)
                $element->outertext = ‘‘;
}

// Register the callback function with it‘s function name
$html->set_callback(‘my_callback‘);

// Callback function will be invoked while dumping
echo $html;

时间: 2024-10-18 10:27:47

simple_html_dom使用小结的相关文章

使用Apache POI导出Excel小结--导出XLS格式文档

使用Apache POI导出Excel小结 关于使用Apache POI导出Excel我大概会分三篇文章去写 使用Apache POI导出Excel小结--导出XLS格式文档 使用Apache POI导出Excel小结--导出XLSX格式文档 使用Apache POI导出Excel--大数量导出 导出XLS格式文档 做企业应用项目难免会有数据导出到Excel的需求,最近在使用其,并对导出Excel封装成工具类开放出来供大家参考.关于Apache POI Excel基本的概念与操作我在这里就不啰嗦

【转载】小结一下linux 2.6内核的四种IO调度算法

在LINUX 2.6中,有四种关于IO的调度算法,下面综合小结一下: 1) NOOP NOOP算法的全写为No Operation.该算法实现了最最简单的FIFO队列,所有IO请求大致按照先来后到的顺序进行操作.之所以说“大致”,原因是NOOP在FIFO的基础上还做了相邻IO请求的合并,并不是完完全全按照先进先出的规则满足IO请求.NOOP假定I/O请求由驱动程序或者设备做了优化或者重排了顺序(就像一个智能控制器完成的工作那样).在有些SAN环境下,这个选择可能是最好选择.Noop 对于 IO

Android基础入门教程——8.1.3 Android中的13种Drawable小结 Part 3

Android基础入门教程--8.1.3 Android中的13种Drawable小结 Part 3 标签(空格分隔): Android基础入门教程 本节引言: 本节我们来把剩下的四种Drawable也学完,他们分别是: LayerDrawable,TransitionDrawable,LevelListDrawable和StateListDrawable, 依旧贴下13种Drawable的导图: 1.LayerDrawable 层图形对象,包含一个Drawable数组,然后按照数组对应的顺序来

Android基础入门教程——8.1.2 Android中的13种Drawable小结 Part 2

Android基础入门教程--8.1.2 Android中的13种Drawable小结 Part 2 标签(空格分隔): Android基础入门教程 本节引言: 本节我们继续来学习Android中的Drawable资源,上一节我们学习了: ColorDrawable:NinePatchDrawable: ShapeDrawable:GradientDrawable!这四个Drawable~ 而本节我们继续来学习接下来的五个Drawable,他们分别是: BitmapDrawable:Insert

安卓小结《1》

Activity的生命周期和启动模式的知识点小结: 1.如果Activity切换的时候,新Activity是透明,旧的不会走onStop方法. 2.新的Activity切换的时候,旧Activity  会先执行,onpause,然后才会启动新的activity. 3. Activity在异常情况下被回收时,onSaveInstanceState方法会被回调,回调时机是在onStop之前,当Activity被重新创建的时 候,onRestoreInstanceState方法会被回调,时序在onSt

date命令小结

在写linux shell脚本时,date是经常要用到的一个命令,这篇文章就此做个小结,以防自己用到时到处找 1.最基本的,显示当前的具体时期:直接敲入 date即可,如下, [email protected]:~/scripts$ date 2015年 01月 03日 星期六 21:46:49 CST 2.显示某个文件上次修改的时间:date -r file [email protected]:~/scripts$ date -r save.sh 2015年 01月 02日 星期五 23:29

java 小结2 多态问题。

面向对象这个东西,其实我们一直是不是都没有感觉到自己在用,以后我一定要用用.以前学c#时候认真的看过一次,最近一直研究java.随便再看看. 多态问题: 在java中多态分为(1)编译时多态和(2)运行时多态 (1)编译时多态比较容易理解:其实就是通过方法重载,就是方法的重载,同一个函数名但是可以参数不一样.这就是重载(so easy) (2)运行时多态:这个是通过方法覆盖实现的,就是子类在继承父类的时候,通过对某个方法的重写,覆盖父类方法. 简单的说:比如我们有个父类A,子类B通过Extend

php操作xml小结

<?php #php操作xml,SimpleXMLElement类小结 header('Content-type:text/html;charset=utf-8;'); //1.构造函数 /* $xmlstring=<<<XML <?xml version="1.0" encoding="utf-8"?> <note  xmlns:b="http://www.w3school.com.cn/example/&quo

网络安全解决之个人小结

方案分为安全技术部分和安全管理部分. 安全技术部分: 1.物理安全 需要建设独立的计算机机房,满足防水.防火.防静电等要求.机房设置门禁和视频监控. 2.网络安全 采用防火墙进行安全区域分割,把公司网络分为服务器区和办公区.设置不同的安全规则以防范黑客攻击.采用上网行为管理产品对网络行为和流量进行管控. 3.系统安全 采用终端安全管理系统,对客户端进行管控,重点管控网络行为.补丁升级和软件分发等.对服务器进行安全加固,保障服务器安全. 4.应用安全 对Web电子商务服务器进行漏洞扫描和加固,防范