利用正则提取discuz的正文内容

源正文:

[p=24, null, left][color=#000][font=宋体]近日,香港著名漫画家马荣成在香港举办的“[color=#ff660][url=http://cul.china.com.cn/2013-08/04/content_6179875.htm#]风云[/url][/color]盛宴”上宣布封笔,并宣布即将完结连载24年的《风云》漫画。[/font][/color][/p][p=24, null, left][color=#000][font=宋体]“风云”是幻想式武侠故事,主要围绕聂风和步惊云展开。从1989年开始连载,至今已有24年。漫友杂志社社长兼总编辑金城说,[color=#ff660][url=http://cul.china.com.cn/2013-08/04/content_6179875.htm#]香港漫画[/url][/color]市场销量近年一直下滑,内地漫画市场还好,但香港漫画衰退很快,读者越来越少,这也成为马荣成封笔的直接原因,因为他不再有画下去的动力。[/font][/color][/p][p=24, null, left][color=#000][font=宋体]52岁的马荣成表示,五年前就萌生退意,两年前决定封笔,“因为不想再为延续销量而不断消磨自己的斗志,与其让主角无限次受伤、离别及永远的化险为夷,宁愿干脆地给故事来个完美的结局。”马荣成也提到,由于香港漫画市场走低,《风云》最高峰销量达14万本,如今已跌至4万,不过仍居当地漫画销量榜首。[/font][/color][/p]

目标正文:

近日,香港著名漫画家马荣成在香港举办的“风云盛宴”上宣布封笔,并宣布即将完结连载24年的《风云》漫画。“风云”是幻想式武侠故事,主要围绕聂风和步惊云展开。从1989年开始连载,至今已有24年。漫友杂志社社长兼总编辑金城说,香港漫画市场销量近年一直下滑,内地漫画市场还好,但香港漫画衰退很快,读者越来越少,这也成为马荣成封笔的直接原因,因为他不再有画下去的动力。52岁的马荣成表示,五年前就萌生退意,两年前决定封笔,“因为不想再为延续销量而不断消磨自己的斗志,与其让主角无限次受伤、离别及永远的化险为夷,宁愿干脆地给故事来个完美的结局。”马荣成也提到,由于香港漫画市场走低,《风云》最高峰销量达14万本,如今已跌至4万,不过仍居当地漫画销量榜首。

源代码如下:

$re_message = preg_replace(‘/\[[^\[\]]+\]/i‘, ‘‘, $result[‘message‘]);//去除格式
时间: 2024-08-15 21:19:17

利用正则提取discuz的正文内容的相关文章

Python 2.7_爬取CSDN单页面利用正则提取博客文章及url_20170113

年前有点忙,没来的及更博,最近看爬虫正则的部分 巩固下 1.爬取的单页面:http://blog.csdn.net/column/details/why-bug.html 2.过程 解析url获得网站源代码 3.找到文章标题列表和文章url(a标签下'href'属性)组成列表 4.for循环取出 #解析用到的还是urlllib urllib2两个模块 并加了个header请求表头 代码及过程如下: #coding:utf-8 import re import urllib import urll

Java 正则提取银行短信内容

使用 matcher.group() Pattern pattern = Pattern.compile("[\\*0-9\\.:]+"); Matcher matcher = pattern.matcher("[华夏银行]您的华夏卡(**6999),05月29日11:03到账人民币0.34元,银联代付,余额12.86元"); while (matcher.find()) { String group = matcher.group(); System.out.pr

Python Show-Me-the-Code 第 0008 题 提取HTML正文内容

第 0008 题:一个HTML文件,找出里面的正文. 思路:我把这里的正文理解为网页中我主要内容,那么怎么去抓取这个主要内容呢?我一开始的想法是用beautifulsoup来解析网页,但是又想到如果要抽取正文的话这样做还涉及到比较复杂的算法,而且对于不同的网页来说效果可能做不到很好.后来我发现了Python-goose(Github)这个神器,它是基于NLTK和Beautiful Soup的,分别是文本处理和HTML解析的领导者,目标是给定任意资讯文章或者任意文章类的网页,不仅提取出文章的主体,

利用htmlparser提取网页纯文本的例子

import org.htmlparser.Node; import org.htmlparser.NodeFilter; import org.htmlparser.Parser; importorg.htmlparser.filters.TagNameFilter; import org.htmlparser.tags.TableTag; import org.htmlparser.util.NodeList; /** * 标题:利用htmlparser提取网页纯文本的例子 */ publi

dede模版列表调用文章正文内容的方法

在制作织梦模板的时候,有的时候我们需要调用文章部分内容,用[field:description/]标签字数不够多(数据库设计字段是varchar(255)的),另外修改了文章内容但是摘要还需要手动修改,所以只能调用文章正文内容了.      实现织梦DedeCMS列表页调用文章正文的方法有两种,不过都是使用的dede:arclist标签,如果使用dede:list标签的话,第一种方法是调用不出结果的. 以下是织梦DedeCMS列表页调用文章正文的第一种方法: {dede:arclist flag

利用lucene对PDF文本进行内容的解析

/* * 这段代码的功能是利用PDFBox.zip的包 * 利用lucene对PDF文本进行内容的解析 * 读取pdf文件的内容.然后重新的写入到同名的.txt文件中  * */ 结果截图: package pdfbox; import java.io.File; import java.io.FileOutputStream; import java.io.OutputStreamWriter; import java.io.Writer; import java.net.MalformedU

记性不如烂笔头33-利用java过滤器实现压缩响应正文内容

在前面的Response的相关内容中,就提到了把数据压缩然后传到浏览器上,通过压缩,能够提升网络文件的传输效率,在很多的场所都需要实用. 如果我们需要在所有的页面都实现压缩,那么是不是把这个加在某一个地方就一起解决了呢?貌似我们能够在过滤器中加载很多的内容,那么是不是也可以把这个也加在过滤器中呢?答案是可以的. 我们可以通过增强HttpServletResponseWrapper对象,压缩响应正文内容. 1. 原理 通过过滤器filter向目标页面传递一个自定义的response对象.在自定义的

java:使用正则提取字符串中的数字(例如提取短信中的验证码)

使用java正则可以很方便的从字符串中提取符合条件的内容. 1.提取字符串中所有的手机号: private void getPhoneNum(String smsBody) { Pattern pattern = Pattern.compile("(13|14|15|18)\\d{9}"); Matcher matcher = pattern.matcher(smsBody); while (matcher.find()) { System.out.println(matcher.gr

利用VB文本框选择文本内容的属性实现指定邮件号码的轨迹查询

作者:iamlaosong 在程序中,对文本框中文本内容进行选择时,用SelStart.SelLength.SelText属性3个属性来标识用户选中的正文.这些属性没有列在属性窗口中,但在程序中可以使用这些属性. SelStart:选定正文的开始位置,第一个字符的位置是0. Selcength:选定正文长度. SelText:选定正文内容. 设置了SelStarl和SelI~ength属性后,VB会自动将设定的正文送入SelText属性存放.这些属性一般用于在文本编辑中设置插入点及范围,选择字符