Java过滤敏感词语/词汇---DFA算法

最近网站需要在评论、投稿等地方过滤敏感词汇，于是在网上查找了相关教程，特此整理分享。

关于DFA算法，详细的可以去http://blog.csdn.net/u013378306/article/details/52764955 看看。

在这纪录下如何配合js验证控件validate来使用它：

首先把工具类导入到项目中：

package com.test.util;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.util.HashMap;
import java.util.HashSet;
import java.util.Iterator;
import java.util.Map;
import java.util.Set;

import org.springframework.stereotype.Component;

/**
 * Utils - 敏感词
 *
 * @author test
 * @version 3.0
 */
@Component
public class DirtyStringUtil {

    private static String ENCODING = "UTF-8";    //字符编码

    private static String PATH = "/resources/shop/dirtyString/DirtyString.txt";    //你的敏感词汇的文件  我会给大家分享一个我们用的

    public static int minMatchTYpe = 1;      //最小匹配规则

    public static int maxMatchType = 2;      //最大匹配规则

    @SuppressWarnings("rawtypes")
    public static HashMap sensitiveWordMap;

    static {
        try {
            sensitiveWordMap = addSensitiveWordToHashMap(StringUtils.sourFolder+PATH);
        } catch (Exception e) {
        }
    }

    /**
     * 读取敏感词库，将敏感词放入HashSet中，构建一个DFA算法模型：<br>
     * 中 = {
     *      isEnd = 0
     *      国 = {<br>
     *           isEnd = 1
     *           人 = {isEnd = 0
     *                民 = {isEnd = 1}
     *                }
     *           男  = {
     *                  isEnd = 0
     *                   人 = {
     *                        isEnd = 1
     *                       }
     *               }
     *           }
     *      }
     *  五 = {
     *      isEnd = 0
     *      星 = {
     *          isEnd = 0
     *          红 = {
     *              isEnd = 0
     *              旗 = {
     *                   isEnd = 1
     *                  }
     *              }
     *          }
     *      }
     * @date 2014年4月20日 下午3:04:20
     * @param keyWordSet  敏感词库
     * @version 1.0
     */
    @SuppressWarnings({ "rawtypes", "unchecked" })
    private static HashMap addSensitiveWordToHashMap(String path) {
        Set<String> keyWordSet = null;

        File file = new File(path);    //读取文件
        InputStreamReader read = null;
        try {
            read = new InputStreamReader(new FileInputStream(file),ENCODING);
            if(file.isFile() && file.exists()){      //文件流是否存在
                keyWordSet = new HashSet<String>();
                @SuppressWarnings("resource")
                BufferedReader bufferedReader = new BufferedReader(read);
                String txt = null;
                while((txt = bufferedReader.readLine()) != null){    //读取文件，将文件内容放入到set中
                    keyWordSet.add(txt);
                }
            }
            else{         //不存在抛出异常信息
                throw new Exception("敏感词库文件不存在");
            }
        } catch (Exception e) {
                e.printStackTrace();
        }finally{
            try { //关闭文件流
                if (read != null) {
                    read.close();
                }
            } catch (IOException e) {
                e.printStackTrace();
            }
        }

        HashMap sensitiveWordMap = new HashMap(keyWordSet.size());     //初始化敏感词容器，减少扩容操作
        String key = null;
        Map nowMap = null;
        Map<String, String> newWorMap = null;
        //迭代keyWordSet
        Iterator<String> iterator = keyWordSet.iterator();
        while(iterator.hasNext()){
            key = iterator.next();    //关键字
            nowMap = sensitiveWordMap;
            for(int i = 0 ; i < key.length() ; i++){
                char keyChar = key.charAt(i);       //转换成char型
                Object wordMap = nowMap.get(keyChar);       //获取

                if(wordMap != null){        //如果存在该key，直接赋值
                    nowMap = (Map) wordMap;
                }
                else{     //不存在则，则构建一个map，同时将isEnd设置为0，因为他不是最后一个
                    newWorMap = new HashMap<String,String>();
                    newWorMap.put("isEnd", "0");     //不是最后一个
                    nowMap.put(keyChar, newWorMap);
                    nowMap = newWorMap;
                }

                if(i == key.length() - 1){
                    nowMap.put("isEnd", "1");    //最后一个
                }
            }
        }
        return sensitiveWordMap;
    }

    /**
     * 检查文字中是否包含敏感字符，检查规则如下：<br>
     * @date 2014年4月20日 下午4:31:03
     * @param txt
     * @param beginIndex
     * @param matchType
     * @return，如果存在，则返回敏感词字符的长度，不存在返回0
     * @version 1.0
     */
    @SuppressWarnings({ "rawtypes"})
    public static int CheckSensitiveWord(String txt, Map nowMap, int beginIndex,int matchType){
        boolean  flag = false;    //敏感词结束标识位：用于敏感词只有1位的情况
        int matchFlag = 0;     //匹配标识数默认为0
        char word = 0;
        for(int i = beginIndex; i < txt.length() ; i++){
            word = txt.charAt(i);
            nowMap = (Map) nowMap.get(word);     //获取指定key
            if(nowMap != null){     //存在，则判断是否为最后一个
                matchFlag++;     //找到相应key，匹配标识+1
                if("1".equals(nowMap.get("isEnd"))){       //如果为最后一个匹配规则,结束循环，返回匹配标识数
                    flag = true;       //结束标志位为true
                    if(minMatchTYpe == matchType){    //最小规则，直接返回,最大规则还需继续查找
                        break;
                    }
                }
            }
            else{     //不存在，直接返回
                break;
            }
        }
        if(matchFlag < 2 || !flag){        //长度必须大于等于1，为词
            matchFlag = 0;
        }
        return matchFlag;
    }

    /**
     * 判断文字是否包含敏感字符
     * @date 2014年4月20日 下午4:28:30
     * @param path  敏感词库文件路径
     * @param txt  文字
     * @param matchType  匹配规则&nbsp;1：最小匹配规则，2：最大匹配规则
     * @return 若包含返回true，否则返回false
     * @version 1.0
     */
    public static boolean isContaintSensitiveWord(String txt, int matchType){
        boolean flag = false;
        for(int i = 0 ; i < txt.length() ; i++){
            int matchFlag = CheckSensitiveWord(txt, sensitiveWordMap, i, matchType); //判断是否包含敏感字符
            if(matchFlag > 0){    //大于0存在，返回true
                flag = true;
            }
        }
        return flag;
    }

}

PATH 的路径就是你把敏感词汇那个文档放到的那个路径，这个是我们用的文档：http://pan.baidu.com/s/1o8uD2yQ

然后是验证相关的代码（content就是要验证的那个内容）:

$inputForm.validate({
                focusCleanup: true,
                rules: {
                    title:       "required",//标题不为空
                    linkName: "required", //名字不为空
                    linkPhone: {//验证手机
                                required: true,
                                pattern: /^((0\d{2,3}-\d{7,8})|(1[34578]\d{9}))$/,
                        },
                    content:{
                        remote: {//此处就是验证是否饱含敏感词汇的  把这个地址替换成你的controller
                            url: "${base}/dirtyString/check_dirtyString.jhtml"
                        }
                    }
                },
                messages: {
                    content: {
                        remote: "含敏感词汇，请修改后重新发布"
                    }
                }

remote的url处就是验证是否饱含敏感词汇的，把这个地址替换成你的controller。

然后就是我们controller的代码：

package com.test.controller.shop;

import org.apache.commons.lang.StringUtils;
import org.springframework.stereotype.Controller;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RequestMethod;
import org.springframework.web.bind.annotation.ResponseBody;

import com.nbcyl.util.DirtyStringUtil;

@Controller("dirtyStringController")
@RequestMapping("/dirtyString")
public class DirtyStringController {

    /**
     * 检查内容是否包含敏感词语
     */
    @RequestMapping(value = "/check_dirtyString", method = RequestMethod.GET)
    public @ResponseBody
    boolean checkDirtyString(String content) {
        if (StringUtils.isEmpty(content)) {
            return false;
        }
        //去除中英文空格 然后调用工具类判断 是否饱含 敏感词
        String lastContent = content.replaceAll("\\s", "").replaceAll("　", "");
        if (DirtyStringUtil.isContaintSensitiveWord(lastContent, 2)) {
            return false;
        } else {
            return true;
        }
    }
}

OK，到这基本上就可以啦，当你的页面触发了validate时，就会提示那个message里设置的文字了！

时间： 2024-12-16 00:44:34

Java过滤敏感词语/词汇---DFA算法的相关文章

js过滤敏感词语

//定义敏感字符 var forbiddenStr = "某某,不可以"; var forbiddenArray = forbiddenStr.split(","); //检测敏感字符函数 function forbiddenValidation(str) { var re = ''; for (var i = 0; i < forbiddenArray.length; i++) { if (i == forbiddenArray.length - 1) re

java实现敏感词过滤（DFA算法）

小Alan在最近的开发中遇到了敏感词过滤,便去网上查阅了很多敏感词过滤的资料,在这里也和大家分享一下自己的理解. 在写之前,小Alan给大家推荐一篇来自http://cmsblogs.com/?p=1031的博文,也会参考部分内容来描述博文. 敏感词过滤应该是不用给大家过多的解释吧?讲白了就是你在项目中输入某些字(比如输入xxoo相关的文字时)时要能检测出来,很多项目中都会有一个敏感词管理模块,在敏感词管理模块中你可以加入敏感词,然后根据加入的敏感词去过滤输入内容中的敏感词并进行相应的处理,要么

敏感词过滤的算法原理之DFA算法

参考文档 http://blog.csdn.net/chenssy/article/details/26961957 敏感词.文字过滤是一个网站必不可少的功能,如何设计一个好的.高效的过滤算法是非常有必要的.前段时间我一个朋友(马上毕业,接触编程不久)要我帮他看一个文字过滤的东西,它说检索效率非常慢.我把它程序拿过来一看,整个过程如下:读取敏感词库.如果HashSet集合中,获取页面上传文字,然后进行匹配.我就想这个过程肯定是非常慢的.对于他这个没有接触的人来说我想也只能想到这个,更高级点就是正

DFA算法过滤敏感词整理

这里有部分是从网上找的,但看起来太乱了,分的太散了.研究了几天,整理出来,有问题的话还请大虾们提出来.... package org.rui.util; import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.IOException; import java.io.InputStreamReader; import java.util.HashMap; i

Java 利用DFA算法屏蔽敏感词

import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.HashMap; import java.util.HashSet; import java.util.Map; import java.util.Set; /** * 初始化敏感词库<br> * 将敏感词加入到HashMap中

基于DFA算法的敏感词过滤

DFA算法的全称是Deterministic Finite Automaton,即确定有穷永动机算法. DFA算法中对汉字的存储,字典树中的节点存储的字符Character类型,不是ASCII码. 建立默认敏感词替换词 private sttaic final String REPLACE=" whatever"; 定义字典树字典树中的节点拥有以下属性: 1.kv键值对类型的子节点,key中保存着敏感词,v是triedNode类型的保存节点 2.代表分支结尾的end属性 3.给字典树

[Java Web]敏感词过滤算法

1.DFA算法 DFA算法的原理可以参考这里,简单来说就是通过Map构造出一颗敏感词树,树的每一条由根节点到叶子节点的路径构成一个敏感词,例如下图: 代码简单实现如下: public class TextFilterUtil { //日志 private static final Logger LOG = LoggerFactory.getLogger(TextFilterUtil.class); //敏感词库 private static HashMap sensitiveWordMap =

转:Java实现敏感词过滤

敏感词.文字过滤是一个网站必不可少的功能,如何设计一个好的.高效的过滤算法是非常有必要的.前段时间我一个朋友(马上毕业,接触编程不久)要我帮他看一个文字过滤的东西,它说检索效率非常慢.我把它程序拿过来一看,整个过程如下:读取敏感词库.如果HashSet集合中,获取页面上传文字,然后进行匹配.我就想这个过程肯定是非常慢的.对于他这个没有接触的人来说我想也只能想到这个,更高级点就是正则表达式.但是非常遗憾,这两种方法都是不可行的.当然,在我意识里没有我也没有认知到那个算法可以解决问题,但是Googl