.net去掉HTML标记

 1 using System.Text.RegularExpressions;
 2
 3 /// <summary>
 4
 5   /// 去除HTML标记
 6
 7   /// </summary>
 8
 9   /// <param name="DeleteHTML">包括HTML的源码 </param>
10
11   /// <returns>已经去除Html标签后的文字</returns>
12
13   public static string  DeleteHTML(string Htmlstring)
14
15   {
16
17    //删除脚本
18
19    Htmlstring = Regex.Replace(Htmlstring,@"<script[^>]*?>.*?</script>","",RegexOptions.IgnoreCase);
20
21    //删除HTML
22
23    Htmlstring = Regex.Replace(Htmlstring,@"<(.[^>]*)>","",RegexOptions.IgnoreCase);
24
25    Htmlstring = Regex.Replace(Htmlstring,@"([\r\n])[\s]+","",RegexOptions.IgnoreCase);
26
27    Htmlstring = Regex.Replace(Htmlstring,@"-->","",RegexOptions.IgnoreCase);
28
29    Htmlstring = Regex.Replace(Htmlstring,@"<!--.*","",RegexOptions.IgnoreCase);
30
31
32
33    Htmlstring = Regex.Replace(Htmlstring,@"&(quot|#34);","\"",RegexOptions.IgnoreCase);
34
35    Htmlstring = Regex.Replace(Htmlstring,@"&(amp|#38);","&",RegexOptions.IgnoreCase);
36
37    Htmlstring = Regex.Replace(Htmlstring,@"&(lt|#60);","<",RegexOptions.IgnoreCase);
38
39    Htmlstring = Regex.Replace(Htmlstring,@"&(gt|#62);",">",RegexOptions.IgnoreCase);
40
41    Htmlstring = Regex.Replace(Htmlstring,@"&(nbsp|#160);"," ",RegexOptions.IgnoreCase);
42
43    Htmlstring = Regex.Replace(Htmlstring,@"&(iexcl|#161);","\xa1",RegexOptions.IgnoreCase);
44
45    Htmlstring = Regex.Replace(Htmlstring,@"&(cent|#162);","\xa2",RegexOptions.IgnoreCase);
46
47    Htmlstring = Regex.Replace(Htmlstring,@"&(pound|#163);","\xa3",RegexOptions.IgnoreCase);
48
49    Htmlstring = Regex.Replace(Htmlstring,@"&(copy|#169);","\xa9",RegexOptions.IgnoreCase);
50
51    Htmlstring = Regex.Replace(Htmlstring, @"&#(\d+);","",RegexOptions.IgnoreCase);
52
53    Htmlstring.Replace("<","");
54
55    Htmlstring.Replace(">","");
56
57    Htmlstring.Replace("\r\n","");
58
59    Htmlstring=HttpContext.Current.Server.HtmlEncode(Htmlstring).Trim();
60
61    return Htmlstring;
62
63   }
时间: 2024-10-13 21:57:25

.net去掉HTML标记的相关文章

使用C#将HTML文本转换为普通文本,去掉所有的Html标记(转)

using System; using System.Collections.Generic; using System.Linq; using System.Text; //首先需要导入命名空间 using System.Text.RegularExpressions; namespace WindowsFormsApplication1 { public class Class1 { /// <summary> /// 将html文本转化为 文本内容方法NoHTML /// </su

去掉标题前面方形黑点办法

去掉标题前面方形黑点办法: 方法一: word 2003:工具一选项一>视图一>"格式标记"中去掉"段落标记"前面的对勾就可. word 2007:文件.右下角"word选项"一>显示一>去掉"段落标记"前面的对勾就可. word 2010:文件一>选项一>显示一>去掉"段落标记"前面的对勾就可 方法二: 格式 一>  段落一> 在取消行号前的框里打上对

恍然小悟,去掉Excel的worksheet(工作表)保护的新方法

广为认知的方法是,运行一段猜测密码的VBA(https://uknowit.uwgb.edu/page.php?id=28850),几十秒就可以找到,因为密码Hash很短所以密码有多个.但是Excel2013里密码Hash很长所以密码几乎是唯一的,依靠这个VBA肯定找不到密码. 我虽然手头没有Excel 2013,但是推测,这个worksheet保护,其实没有对文件内容加密,仅仅是做了些标记,说不让修改某些制定的cell而已,应该是去掉了标记就可以自由修改了的.在Office 2010上实验了,

简化条件表达式之移除控制标记(Remove Control Flag)

在一系列布尔表达式中,某个变量带有“控制标记’的作用.以break或return语句取代控制标记. 动机:在一系列条件表达式中,常常会看到用以判断何时停止条件检查的控制标记.这样的标记带来的麻烦超过了它所带来的便利.人们之所以会使用这样的控制标记,因为结构化编程原则告诉他们:每个子程序只能有一个入口和出口.“单一出口“原则会让你在代码中加入让人讨厌的控制标记,大大降低条件表达式的可读性.这就是编程语言提供break和continue语句的原因:用它们跳出复杂的条件语句.去掉控制标记所产生的效果往

(Facebook开源项目)Fresco:一个新的Android图像处理类库

在Facebook的Android客户端上快速高效的显示图片是非常重要的.然而多年来,我们遇到了很多如何高效存储图片的问题.图片太大,而设备太小.一个像素点就占据了4个字节数据(分别代表R G B和alpha).如果在一个480*800尺寸的手机屏幕上,一张单独的全屏图片就会占据1.5MB的内存空间.通常手机的内存都非常小,而这些内存被多种多样的app划分占用.在一些设备上,Facebook app虽然只有16MB,但是仅仅一个图片就占用了1/10的空间. 当你的app用完你的内存时会发生什么呢

文本数据的机器学习自动分类方法(转)

http://blog.csdn.net/jdbc/article/details/50586042 本文为第一部分,着重介绍文本预处理以及特征抽取的方法. 随着互联网技术的迅速发展与普及,如何对浩如烟海的数据进行分类.组织和管理,已经成为一个具有重要用途的研究课题.而在这些数据中,文本数据又是数量最大的一类."文本分类是指在给定分类体系下,根据文本内容自动确定文本类别的过程"(达观数据科技联合创始人,张健).文本分类有着广泛的应用场景,例如: 新闻网站包含大量报道文章,基于文章内容,

Git操作(提高篇)

Git操作(提高篇) 分支管理 分支就是科幻电影里面的平行宇宙,当你正在电脑前努力学习Git的时候,另一个你正在另一个平行宇宙里努力学习SVN. 假设你准备开发一个新功能,但是需要两周才能完成,第一周你写了50%的代码,如果立刻提交,由于代码还没写完,不完整的代码库会导致别人不能干活了.如果等代码全部写完再一次提交,又存在丢失每天进度的巨大风险.有了分支,就不用怕了.创建了一个属于你自己的分支,别人看不到,还继续在原来的分支上正常工作,而你在自己的分支上干活,想提交就提交,直到开发完毕后,再一次

[转载]Matlab实用小技巧——Matlab学习笔记

1.. Ctrl+C 中断正在执行的操作 如果程序不小心进入死循环,或者计算时间太长,可以在命令窗口中使用Ctrl+c来中断.MATLAB这时可能正疲于应付,响应会有些滞后. 2. figure命令新建一个绘图窗口 figure 可以打开一个空的绘图窗口,接下的绘图命令可以将图画在它里面,而不会覆盖以前的绘图窗口.当有多个figure窗口时,在命令窗口中执行如Plot等命令将覆盖当前figure窗口中的对象.所谓的当前figure窗口,也就是最后一次查看的窗口(可以用命令gcf得到). figu

验证表单中输入的特殊字符

1.前台表单通过js过滤掉特殊字符 function stripscript(s) { var pattern = new RegExp("[`[email protected]#$^&*()=|{}':;',\\[\\].<>/?~!@#¥……&*()——|{}[]‘::”“'.,.?\"]"); var rs = ""; for (var i = 0; i < s.length; i++) { rs = rs + s.