织梦采集用的HTML过滤标签大全

用织梦做采集的时候可以需要用到很多的采集规则,以下分享织梦采集用的HTML过滤标签大全。

织梦采集用的HTML过滤标签大全
{dede:trim}<object([^>]*)>([^>]*)</object>{/dede:trim}
{dede:trim}<object([^>]*)>{/dede:trim}
{dede:trim}</object>{/dede:trim}
{dede:trim}<OBJECT([^>]*)>([^>]*)</OBJECT>{/dede:trim}
{dede:trim}<OBJECT([^>]*)>{/dede:trim}
{dede:trim}</OBJECT>{/dede:trim}
{dede:trim}<iframe([^>]*)>([^>]*)</iframe>{/dede:trim}
{dede:trim}<iframe([^>]*)>{/dede:trim}
{dede:trim}</iframe>{/dede:trim}
{dede:trim}<IFRAME([^>]*)>([^>]*)</IFRAME>{/dede:trim}
{dede:trim}<IFRAME([^>]*)>{/dede:trim}
{dede:trim}</IFRAME>{/dede:trim}
{dede:trim}<td([^>]*)>([^>]*)</td>{/dede:trim}
{dede:trim}<td([^>]*)>{/dede:trim}
{dede:trim}</td>{/dede:trim}
{dede:trim}<tr([^>]*)>([^>]*)</tr>{/dede:trim}
{dede:trim}<tr([^>]*)>{/dede:trim}
{dede:trim}</tr>{/dede:trim}
{dede:trim}<tbody([^>]*)>([^>]*)</tbody>{/dede:trim}
{dede:trim}<tbody>{/dede:trim}
{dede:trim}</tbody>{/dede:trim}
{dede:trim}<table([^>]*)>([^>]*)</table>{/dede:trim}
{dede:trim}<table([^>]*)>{/dede:trim}
{dede:trim}</table>{/dede:trim}
{dede:trim}<script([^>]*)>([^>]*)</script>{/dede:trim}
{dede:trim}<script([^>]*)>{/dede:trim}
{dede:trim}</script>{/dede:trim}
{dede:trim}<SCRIPT([^>]*)>([^>]*)</SCRIPT>{/dede:trim}
{dede:trim}<SCRIPT([^>]*)>{/dede:trim}
{dede:trim}</SCRIPT>{/dede:trim}
{dede:trim}<!--{/dede:trim}
{dede:trim}-->{/dede:trim}
{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}
{dede:trim}<a([^>]*)>{/dede:trim}
{dede:trim}</a>{/dede:trim}
{dede:trim}<font([^>]*)>([^<]*)</font>{/dede:trim}
{dede:trim}<font([^>]*)>{/dede:trim}
{dede:trim}</font>{/dede:trim}
{dede:trim}<center>{/dede:trim}
{dede:trim}</center>{/dede:trim}

原文地址:https://www.cnblogs.com/yunkezan/p/11351359.html

时间: 2024-08-29 19:56:54

织梦采集用的HTML过滤标签大全的相关文章

织梦DEDE CMS文章列表arclist标签大全

标记简介:织梦常用标记,也称为自由列表标记,其中imglist.imginfolist.specart.coolart.autolist都是由该标记所定义的不同属性延伸出来的别名标记.功能说明:获取指定文档列表适用范围:全局使用基本语法:{dede:arclist flag='h' typeid='' row='' col='' titlelen='' infolen='' imgwidth='' imgheight='' listtype='' orderby='' keyword='' li

织梦dedecms自增变量autoindex标签的使用(转)

织梦dedecms自增变量autoindex标签的使用 例1: {dede:arclist titlelen='120' row='8' typeid='2'}         <li class="li[field:global.autoindex/]"><a href="[field:arcurl /]" title="[field:title/]" target="_blank" >[field:

织梦(dede)中当前位置(position)标签,不显示隐藏栏目实现

实际项目中需要,在织梦position标签中把隐藏的栏目不显示在当前位置中,具体怎么做乃?如下:第一步:找到include文件夹里面的typelink.class.php文件,查找:"return $this->valuePosition.$this->SplitSymbol;",在这句话之前添加如下这段:if(ord(substr($this->valuePosition,strlen($this->valuePosition)-2)) == 62){ $th

织梦(dedecms)系统常用全局变量调用标签及路径

{dede:global.cfg_memberurl/} 指的是会员中心 对应/member/目录 {dede:global.cfg_cmsurl/} 对应的是网站根目录/ {dede:global.cfg_dataurl/} data目录对应 /data/ {dede:global.cfg_basehost/} 网站地址 比方:http://www.sina.com {dede:global.cfg_webname/} 网站名称 {dede:global.cfg_soft_lang/} 网页编

织梦登录后台变空白解决方法大全

原文链接: http://yunkus.com/dedecms-login-page-goes-blank-solutions/ 相信很多站长在转空间的时候都会发生这样或者那样的问题,如常见的用织梦cms做的网站转到新空间后,网站管理后台无法登录了,输入网址竟然显示空白,什么都没有了.下面就给大空分享下一些解决织梦后台登录空间的方法. 方法一:修改include/userlogin.class.php文件 找到include/userlogin.class.php,把这六行代码注释掉: @ses

DedeCms织梦发布文章时输入Tag标签逗号自动变成英文标点的方法

把TAG标签的间隔号由空格改为英文的逗号,这样使得经常原创文章的站长朋友非常不方便,因为我们输入汉字时总是喜欢使用全角的逗号,那么有没有办法使用 js脚本把输入的中文逗号变成英文逗号呢?当然是可以的!这样就不用输入tag的时候还切换输入法输入英文逗号了.以下是修改方法: 编辑打开/dede/templets/article_add.htm文件,然后查找如下代码: <input name="tags" type="text" id="tags"

织梦当前文章带链接TAG标签

global $cfg_cmspath; $tags = GetTags(@me); $revalue = ''; $tags = explode(',', $tags); foreach($tags as $key => $value){ if($value){ $revalue .= '<a href="'.$cfg_cmspath.'/tags.php?/'.$value.'/">'.$value.'</a> '; } } @me = $revalu

织梦采集用

BASE64:e2RlZGU6bGlzdGNvbmZpZ30NCg0KDQoNCntkZWRlOm5vdGVpbmZvIG5vdGVuYW1lPSJjZXNoaSIgY2hhbm5lbGlkPSIxIiBtYWN0aHR5cGU9InN0cmluZyINCiAgICByZWZ1cmw9Imh0dHA6Ly93d3cuY2Fua2FveGlhb3hpLmNvbS9yb2xsL3JvbGwxMC8yMDE1LzA4MjQvOTE1NTYyLnNodG1sIiBzb3VyY2VsYW5nPSJ1dGY

织梦后台文章页标签调用大全

合理的利用文章调用标签,不禁可以加强页面的用户体验,也可以使网站的结构布局更加合理,充分的展示我们想要推广的文章,增加文章的曝光率.   虽然之前有发过一篇织梦文章标签,但是我习惯性的把首页,列表页以及文章页标签都保存在不同的文档里,这样用起来更方便一些.下面把整理了一份关于织梦文章样式属性的调用标签跟大家分享一下,大家可以按照自己的习惯进行整理. 1.最新文章调用标签 {dede:arclist row='10' titlelen='24' orderby='pubdate' idlist='