去除文本中的HTML标签、中英文标点符号、数字及英文单词

在进行中文分词统计前，往往要先把爬取下来的文本中包含的一些标签、标点符号、英文字母等过滤掉，这一过程叫做数据清洗。

#coding=utf-8
import re
import codecs
def strs_filter(file):
    with codecs.open(file,"r","utf8") as f,codecs.open("result.txt","a+","utf8") as c:
        lines=f.readlines()
        for line in lines:
            # line=line.decode(‘utf8‘)
            re_html=re.compile(‘<[^>]+>‘.decode(‘utf8‘))#从‘<‘开始匹配，不是‘>‘的字符都跳过，直到‘>‘
            re_punc=re.compile(‘[\s+\.\!\/_,$%^*(+\"\‘]+|[+——！，。？、[email protected]#￥%……&*“”《》：（）]+‘.decode(‘utf8‘))#去除标点符号
            re_digits_letter=re.compile(‘\w+‘.decode(‘utf8‘))#去除数字及字母
            line=re_html.sub(‘‘,line)
            line=re_punc.sub("",line)
            line=re_digits_letter.sub("",line)
            c.write(line)
strs_filter("strip.txt")

通过上面的代码可以去除与中文分词统计无关的内容，效果如下：

时间： 2024-12-15 01:42:12

去除文本中的HTML标签、中英文标点符号、数字及英文单词的相关文章

去除富文本中的html标签及vue、react、微信小程序中的过滤器

在获取富文本后,又只要显示部分内容,需要去除富文本标签,然后再截取其中一部分内容:然后就是过滤器,在微信小程序中使用还是挺多次的,在vue及react中也遇到过 1.富文本去除html标签去除html标签及?空格 let richText = '        sdaflsjf的丰富及饿哦塞尔<s

js去除字符串中所有html标签及&nbsp符号

近日在做项目的时候,经常会在页面上处理一些数据.结果发现自己js掌握的并不是很好.那就在这里记录js的点点滴滴吧. 1. 去除字符串中的 html 标签 function delHtmlTag(str){ return str.replace(/<[^>]+>/g,""); } var str = "This is test "; st

C# 清除文本中的HTML标签

/// <summary> /// 清除文本中Html的标签 /// </summary> /// <param name="Content"></param> /// <returns></returns> public static string ClearHtml(string Content) {

清除文本中Html的标签

/// <summary> /// 清除文本中Html的标签 /// </summary> /// <param name="Content"></param> /// <returns></returns> protected string ClearHtml(string Content) { Content = ReplaceHtml("&#[^>]*;", "&q

php去除字符串中的HTML标签

php自带的函数可以去除/删除字符串中的HTML标签/代码. strip_tags(string,allow):函数剥去 HTML.XML 以及 PHP 的标签. 参数:string,必填,规定要检查的字符串:allow,选填,规定允许存在的标签,这些标签不会被删除. <?php $str = '不嫌不闲-PHP'; $str1 = strip_tags($str); // 删除所有HTML

Android检测富文本中的<img标签并实现点击效果

本文旨在:通过点击一张图片Toast输出位置与url链接. 闲话少说,实现原理大概是酱紫的::通过正则表达式检测富文本内的图片集合并获取url,在src=“xxx” 后面添加 onclick方法,至于js如何load进去本人是自己拼接了一个html标签的上下文 js调用java方法请自行搜索不在本文讨论范围. public class HtmlUtils { /** * 获取html中的所有图片 * @param compatText * @return */ public static Lis

去除HTML中的标签内容

采集后的数据都带有'<>'html标签: <img src="http://i4.hdfimg.com/www/images/giftrans/3d/da/7b/18414.gif" border="0"/>科研最早和一项<spa

java 去html标签，去除字符串中的空格,回车,换行符,制表符

public static String getonerow(String allLine,String myfind) { Pattern pattern = Pattern.compile("<div class=\"row\">.*?</div>"); Matcher matcher = pattern.matcher(allLine

asp.net 去除数据中带有的html标签

1,在控制器中实现去除html标签的静态方法 //去除html标签 public static string ReplaceHtmlMark(object Contents) { string HtmlString = Convert.ToString(Contents); string[] RegexString = { @"style='.*?'", @"class='.*?'", @"<param.*?>(</param>)?