simple_html_dom(2)

How to access the HTML element‘s attributes?

// Get a attribute ( If the attribute is non-value attribute (eg. checked, selected...), it will returns true or false)
$value = $e->href;

// Set a attribute(If the attribute is non-value attribute (eg. checked, selected...), set it‘s value as true or false)
$e->href = ‘my link‘;

// Remove a attribute, set it‘s value as null!
$e->href = null;

// Determine whether a attribute exist?
if(isset($e->href))
echo ‘href exist!‘;

// Extract contents from HTML
echo $html->plaintext;

// Wrap a element
$e->outertext = ‘<div class="wrap">‘ . $e->outertext . ‘<div>‘;

// Remove a element, set it‘s outertext as an empty string
$e->outertext = ‘‘;

// Append a element
$e->outertext = $e->outertext . ‘<div>foo<div>‘;

// Insert a element
$e->outertext = ‘<div>foo<div>‘ . $e->outertext;

// Example
$html = str_get_html("<div>foo <b>bar</b></div>");
$e = $html->find("div", 0);

echo $e->tag; // Returns: " div"
echo $e->outertext; // Returns: " <div>foo <b>bar</b></div>"
echo $e->innertext; // Returns: " foo <b>bar</b>"
echo $e->plaintext; // Returns: " foo bar"

Attribute Name	Usage
$e->tag	Read or write the tag name of element.
$e->outertext	Read or write the outer HTML text of element.
$e->innertext	Read or write the inner HTML text of element.
$e->plaintext	Read or write the plain text of element.

时间： 2024-07-30 13:52:46

simple_html_dom(2)的相关文章

simple_html_dom配合snoopy使用

https://github.com/samacs/simple_html_dom Snoopy的特点是“大”和“全”,一个fetch什么都采到了,可以作为采集的第一步.接下来就需要用simple_html_dom来细细的把想要的部分,扣出来.当然,如果你特别特别擅长正则,而且又钟爱正则,你也可以用正则去匹配抓取. simple_html_dom其实是一个dom解析的过程.php内部也提供了一些解析的方法,但是这个simple_html_dom可以说做得比较专业,一个类,满足了很多你想要的功能.

php利用simple_html_dom类，获取页面内容，充当爬虫角色

PHP脚本扮演爬虫的角色,可能大家第一时间想到可能会是会正则,个人对正则的规则老是记不住,表示比较难下手,今天工作中有个需求需要爬取某个网站上的一些门店信息无意间在网上看到一个比较好的类库叫:simple_html_dom github下载地址:https://github.com/samacs/simple_html_dom 最重要的一步:你得先了解别人网站的结构,知道从哪个tab开始是你想要的数据下面演示下过程吧实现过程我分了三步 1.将门店信息的经纬度,名称等一些重要信息先插入本地表

php解析html类库simple_html_dom

下载地址:https://github.com/samacs/simple_html_dom 一直以来使用php解析html文档树都是一个难题.Simple HTML DOM parser 帮我们很好地解决了这个问题.可以通过这个php类来解析html文档,对其中的html元素进行操作 (PHP5+以上版本). 解析器不仅仅只是帮助我们验证html文档:更能解析不符合W3C标准的html文档.它使用了类似jQuery的元素选择器,通过元素的id,class,tag等等来查找定位:同时还提供添加.

黄聪：PHP使用Simple_HTML_DOM遍历、过滤及保留指定属性

<? /* * 参考资料: * http://www.phpddt.com/manual/simplehtmldom_1_5/manual_api.htm * http://www.phpddt.com/manual/simplehtmldom_1_5/manual.htm*/ class HtmlUtil{ /* * $allow:只允许这些属性存在 * $exceptions:一些特殊的元素,可以存在某些属性 */ public function clear_child_html_attri

PHP CURL抓取网页 simple_html_dom类

抓取网页数据后数据录入到discuz中 <?php include('simple_html_dom.php'); function urlText(){ $url = 'http://www.kxt.com/data/3.html';//外汇 $ch=curl_init(); $timeout = 1; // echo CURLOPT_URL; // CURLOPT_URL: 这是你想用PHP取回的URL地址.你也可以在用curl_init()函数初始化时设置这个选项 curl_setopt

simple_html_dom使用小结

simple_html_dom使用小结分类: PHP2012-08-31 14:24 3094人阅读评论(0) 收藏举报 htmlcallbackstringdivfunctionfile 1.文件夹结构如下: php解析html页面工具 simple html dom 使用的简单介绍: (1)下载( http://sourceforge.net/projects/simplehtmldom/files/) : (2)解压,manual目录是使用文档(很容易看懂的,也可以看这里http:/

simple_html_dom(1)

// Create DOM from URL or file$html = file_get_html('http://www.google.com/'); // Find all images foreach($html->find('img') as $element) echo $element->src . '<br>'; // Find all links foreach($html->find('a') as $element) ech

PHP爬虫抓取网页内容 (simple_html_dom.php)

使用simple_html_dom.php,下载|文档因为抓取的只是一个网页,所以比较简单,整个网站的下次再研究,可能用Python来做爬虫会好些. 1 <meta http-equiv="content-type" content="text/html;charset=utf-8"/> 2 <?php 3 include_once 'simplehtmldom/simple_html_dom.php'; 4 //获取html数据转化为对象 5

php simple_html_dom 一个iconv错误引起解析中断的问题，貌似内存溢出

环境: $pageNum = 8; for ($i = 1; $i < $pageNum; $i++) { $html = new simple_html_dom(); $host = 'http://xxxxxx'; $url = sprintf ($this->urlFormat, $i); $html->load_file($url); echo "<br>" . $i . "start1 ".$url."<br&

黄聪：simple_html_dom 换行符丢失

我在利用simple_html_dom来解析文档是,想要将其中的换行符替换成<BR> , 结果试了好几次没有成功,但是在原始文档中确实是有换行符的.后来索性把装载进来的文档打印出来,结果发现,装载进来以后换行符0x0a就没有了. 于是我跑到simple_html_dom的源码中去看到底怎么回事,原来在调用file_get_html, 后面有一排的缺省参数,其中有一个stripRN,缺省是打开的,也就是说缺省情况下,换行符会被删除,所以装载进来的文档就找不到换行符了.只要把这个参数改为false

猜你喜欢

nagios(centreon)监控Linux日志

1 将check_log3.pl下载后放到客户端服务器的插件文件夹[[email protected] libexec]# cp /tmp/check_log3.pl /usr/local/nagi ...

iOS项目生成通用Windows应用

WinObjc - 使用iOS项目生成通用Windows应用 Github上一周年的WinObjc项目最近发布了预览版本,终于等到了这一天.WinObjc项目就是Build 2015大会上微软宣布的P ...

Discuz二次开发手册

Discuz文件说明,有助于discuz爱好者,进行自己的开发,在这里提供方便 admincp.php——后台系统设置主程序文件,一般只处理菜单的显示的访问权限,不处理管理控制. ajax.php—— ...

数据库精华知识点总结（1）—数据库的三层模式和二级映像，E-R（实体联系图）图，关系模型

Data base: 长期存储在计算机内,有组织的,可共享的大量数据集合.基本特征:永久存储,可共享,有一定的物理和逻辑结构. Data base manage system(DBMS):用户和os之 ...

如何开发一个java开源框架-----Jvn框架之实现自动生成在线文档(第七讲)

一 . 前言:博主正在教大家如何开发一个javaEE框架,我把框架命名为Jvn,博客里有完整的开发视频,每一篇博文都是一个知识点: 关于框架的介绍和学习,可以从我博客第一讲开始看起,博客首页:http ...

小南刚学了二进制，他想知道一个数的二进制表示中有多少个1，你能帮他写一个程序来完成这个任务吗？输入第一行输入一个整数N，表示测试数据的组数(1<N<1000) 每组测试数据只有一行，是一个整数M(

#include<stdio.h> int main() { int n; int m; int i; int num=0; int a[32]; scanf("%d" ...

dos 批量copy文件

#rem 列出子目录文件绝对路径名到aa.txt dir "E:\IBM\BB\" /b /s >aa.txt 循环读取文件并copy到指定目录 for /f "d ...

可信执行环境（TEE）介绍与应用

原文:http://blog.csdn.net/wed110/article/details/53894927 可信执行环境(TEE,Trusted Execution Environment) 是G ...

JAVA生成字母和随机数字并生成文件

package com.ishow.control.code; import java.io.*; import java.text.SimpleDateFormat; import java.uti ...

树状数组模版

int lowbit(int x) { return x&(-x); } 修改某个位置上的值,查找一段区间的和(向上修改,向下统计) void update(int x,int num) { ...

ToString和Convert.ToString处理null值

http://www.cnblogs.com/qinge/p/5687806.html文章来源 1.Convert.ToString能处理字符串为null的情况. 测试代码如下: 1 2 3 4 5 ...

盂勰腺卫仙xewve2s37jihfx3o

新华社瓦莱塔4月10日电(记者李拯宇李佳)全国政协主席俞正声10日在前往非洲三国进行正式友好访问途中过境马耳他,在瓦莱塔会见马耳他议长法鲁贾. 俞正声说,中马保持长期友好关系,政治上相互信任,经济上 ...

linux视频学习5(top，网络监控

top命令的详解: 1. top :动态监控进程. 第一行:当前系统时间: up 4days :服务器启动后的持续时间. 5 user 当前服务器上的用户数目 ; load average :负载 ...

关于cocoaPods 第三方的使用

链接]iOS开发之Cocoapods http://www.jianshu.com/p/24e0a451bca1 配置时候常见的几种错误: 执行完这句如果报告以下错误: ERROR: Could n ...

JavaScript的4种this调用模式

方法调用模式:函数调用模式:构造器调用模式:apply调用模式: 方法调用模式: 当一个函数被保存为对象的一个属性时,我们称它为一个方法.当一个方法被调用时,this被绑定到该对象. 函数调用模式: ...

Yarn协议ApplicationClientProtocol

协议ApplicationClientProtocol Hadoop-Yarn 源码阅读-Yarn client与ResourceManager之间的协议,用来提交.中止作业获取应用信息.集群m ...

atof函数扩充

k&r习题4-2,扩充使可以处理科学计数法形式 #include<ctype.h> double atof(char s[]) { double val, power, e_sum ...

ios开发中的4种数据持久化方式【二、数据库 SQLite3、Core Data 的运用】

在上文,我们介绍了ios开发中的其中2种数据持久化方式:属性列表.归档解档.本节将继续介绍另外2种iOS持久化数据的方法:数据库 SQLite3.Core Data 的运 ...

哈夫曼树 POJ 3253 Fence Repair

竟然做过原题,一眼看上去竟然没感觉... 哈夫曼树定义:给定n个权值作为n个叶子结点,构造一棵二叉树,若带权路径长度达到最小,称这样的二叉树为最优二叉树,也称为哈夫曼树(Huffman tree).哈 ...

public static String listToString(List<String> stringList){ if (stringList==null) { return nul ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.