java+lucene中文分词,来看看百度究竟是怎么找到你想要的(十分重要,楼主幸苦之作)

我想只要是学过数据库的孩纸,不管是mysql,还是sqlsever,一提到查找,本能的想到的便是like关键字,其实去转盘网分类模式)之前也是采用这种算法,但我可以告诉大家一个很不幸的事情,like匹配其实会浪费大量的有用资源,原因这里不说了请自己想一想,我们还是直接摆事实验证。

现在用去转盘网搜:hello 找个单词,如下:

http://www.quzhuanpan.com/source/search.action?q=hello&currentPage=1

翻页你会发现只要是包含hello的单词都找到了,但是如果你用like的话是不会有这个效果的,不信让我们再看一下,还好他来说电影网的分词算法我还没来得及修改,还可以看到现象:

http://www.talaishuo.com/searchResult.do?searchFileName=hello

你会发现只有开始包含hello这个字段的搜索串才能得到匹配,这就问题来了,数据库中大量的资源岂不是白白浪费了,不过没事,伟大的人类还是很聪明的,发明了分词,分词的原理我就不讲了,请自己百度吧,还是直接上代码,提示,这里需要四个jar包作为工具,我先上传的去转盘,想要做分词的请先下载:

分词包下载地址1

分词包下载地址2

直接看代码:

package com.tray.indexData;

import java.io.File;

import java.io.IOException;

import java.io.StringReader;

import java.math.BigInteger;

import java.util.ArrayList;

import java.util.HashMap;

import java.util.List;

import java.util.Map;

import org.apache.lucene.analysis.Analyzer;

import org.apache.lucene.analysis.TokenStream;

import org.apache.lucene.document.Document;

import org.apache.lucene.document.Fieldable;

import org.apache.lucene.index.CorruptIndexException;

import org.apache.lucene.index.IndexReader;

import org.apache.lucene.index.IndexWriter;

import org.apache.lucene.index.IndexWriterConfig;

import org.apache.lucene.index.IndexWriterConfig.OpenMode;

import org.apache.lucene.index.Term;

import org.apache.lucene.queryParser.MultiFieldQueryParser;

import org.apache.lucene.queryParser.QueryParser;

import org.apache.lucene.search.IndexSearcher;

import org.apache.lucene.search.PrefixQuery;

import org.apache.lucene.search.Query;

import org.apache.lucene.search.ScoreDoc;

import org.apache.lucene.search.TermQuery;

import org.apache.lucene.search.TopDocs;

import org.apache.lucene.search.TopScoreDocCollector;

import org.apache.lucene.search.WildcardQuery;

import org.apache.lucene.search.highlight.Highlighter;

import org.apache.lucene.search.highlight.QueryScorer;

import org.apache.lucene.search.highlight.SimpleHTMLFormatter;

import org.apache.lucene.store.Directory;

import org.apache.lucene.store.FSDirectory;

import org.apache.lucene.util.Version;

import org.wltea.analyzer.lucene.IKAnalyzer;

import com.tray.bean.SerachResult;

import com.tray.common.tools.DateFormater;

public class LuceneSearch {

    

    private static String DISC_URL = "/home/indexData/data";

    

    static {

        String os = System.getProperty("os.name");  

        if(os.toLowerCase().startsWith("win")){  

            DISC_URL = "E:\\indexData\\data"

        }

        else{

            DISC_URL ="/home/indexData/data";

        }

    }

        

    //指定分词器 

    private Analyzer analyzer=new IKAnalyzer(); 

    private static Directory directory;

    //配置

    private static IndexWriterConfig iwConfig;

    //配置IndexWriter

    private static IndexWriter writer;  

    private static File indexFile = null;  

    

    private static Version version = Version.LUCENE_36;

    

    private final int PAPGESIZE=10;

    /**

     * 全量索引

     * @Author haoning

     */

    public void init() throws Exception {

        

        try {

            indexFile = new File(DISC_URL);

            if (!indexFile.exists()) {

                indexFile.mkdir();

            }

            directory=FSDirectory.open(indexFile);  

            //配置IndexWriterConfig  

            iwConfig = new IndexWriterConfig(version,analyzer);  

            iwConfig.setOpenMode(OpenMode.CREATE_OR_APPEND);  

                //创建写索引对象  

            writer = new IndexWriter(directory,iwConfig);   

        catch (Exception e) {

        }

    }

    

    public void closeWriter(){

        try {

            writer.close();

        catch (CorruptIndexException e) {

            e.printStackTrace();

        catch (IOException e) {

            e.printStackTrace();

        }

    }

    

    public void commit(){

        

        try {

            writer.commit();

        catch (CorruptIndexException e) {

            e.printStackTrace();

        catch (IOException e) {

            e.printStackTrace();

        }

    }

    

    /**

     * 一个一个索引

     * @Author haoning

     */

    public void singleIndex(Document doc) throws Exception {

        writer.addDocument(doc);

    }

    

    /**

     * 一个跟新

     * @Author haoning

     */

    public void singleUpdate(Document doc) throws Exception {

        Term term = new Term("url", doc.get("url"));

        writer.updateDocument(term,doc);

    }

    

    /**

     * 全量索引

     * @Author haoning

     */

    public void fullIndex(Document[] documentes) throws Exception {

        

        writer.deleteAll();

        for (Document document : documentes) {

            writer.addDocument(document);

        }

        writer.commit();

    }

    

    /**

     * 根据id删除索引

     * @Author haoning

     */

    public void deleteIndex(Document document)throws Exception{

        Term term = new Term("url", document.get("url"));//url才是唯一标志

        writer.deleteDocuments(term);

        writer.commit();

    }

    

    /**

     * 根据id增量索引

     * @Author haoning

     */

    public void updateIndex(Document[] documentes) throws Exception{

        for (Document document : documentes) {

            Term term = new Term("url", document.get("url"));

            writer.updateDocument(term, document);

        }

        writer.commit();

    }

    

    /**

     * 直接查询

     * @Author haoning

     */

    public void simpleSearch(String filedStr,String queryStr,int page, int pageSize) throws Exception{

        File indexDir = new File(DISC_URL);  

        //索引目录  

        Directory dir=FSDirectory.open(indexDir);  

        //根据索引目录创建读索引对象  

        IndexReader reader = IndexReader.open(dir);  

        //搜索对象创建  

        IndexSearcher searcher = new IndexSearcher(reader);

        TopScoreDocCollector topCollector = TopScoreDocCollector.create(searcher.maxDoc(), false);

        

        Term term = new Term(filedStr, queryStr);

        Query query = new TermQuery(term);

        searcher.search(query, topCollector);

        ScoreDoc[] docs = topCollector.topDocs((page-1)*pageSize, pageSize).scoreDocs;

        

        printScoreDoc(docs, searcher);

    }

    

    /**

     * 高亮查询

     * @Author haoning

     */

    public Map<String, Object> highLightSearch(String filed,String keyWord,int curpage, int pageSize) throws Exception{

        List<SerachResult> list=new ArrayList<SerachResult>();

        Map<String,Object> map = new HashMap<String,Object>();

        if (curpage <= 0) {

            curpage = 1;

        }

        if (pageSize <= 0 || pageSize>20) {

             pageSize = PAPGESIZE;

        }

        File indexDir = new File(DISC_URL); //索引目录   

        Directory dir=FSDirectory.open(indexDir);//根据索引目录创建读索引对象    

        IndexReader reader = IndexReader.open(dir);//搜索对象创建    

        IndexSearcher searcher = new IndexSearcher(reader);

        

        int start = (curpage - 1) * pageSize;

        

        Analyzer analyzer = new IKAnalyzer(true);

        QueryParser queryParser = new QueryParser(Version.LUCENE_36, filed, analyzer);

        queryParser.setDefaultOperator(QueryParser.AND_OPERATOR);

        Query query = queryParser.parse(keyWord);

        

        int hm = start + pageSize;

        TopScoreDocCollector res = TopScoreDocCollector.create(hm, false);

        searcher.search(query, res);

        

        SimpleHTMLFormatter simpleHTMLFormatter = new SimpleHTMLFormatter("<span style=‘color:red‘>""</span>");

        Highlighter highlighter = new Highlighter(simpleHTMLFormatter, new QueryScorer(query));

        

        long amount = res.getTotalHits();

        //long pages = (rowCount - 1) / pageSize + 1; //计算总页数

        

        map.put("amount",amount);//总共多少条记录

        

        TopDocs tds = res.topDocs(start, pageSize);

        ScoreDoc[] sd = tds.scoreDocs;

        

        for (int i = 0; i < sd.length; i++) {

            Document doc = searcher.doc(sd[i].doc);

            String temp=doc.get("name");

            //做高亮处理

            TokenStream ts = analyzer.tokenStream("name"new StringReader(temp));

            

            SerachResult record=new SerachResult();

            String name = highlighter.getBestFragment(ts,temp); 

            String skydirverName=doc.get("skydirverName");

            String username=doc.get("username");

            String shareTime=doc.get("shareTime");

            String describ=doc.get("describ");

            String typeId=doc.get("typeId");

            String id=doc.get("id");

            String url=doc.get("url");

            

            record.setName(name);

            record.setSkydriverName(skydirverName);

            record.setUsername(username);

            record.setShareTime(DateFormater.getFormatDate(shareTime,"yyyy-MM-dd HH:mm:ss"));

            record.setDescrib(describ);

            record.setTypeId(Integer.parseInt(typeId));

            record.setId(new BigInteger(id));

            record.setUrl(url);

            list.add(record);

            

            /*System.out.println("name:"+name);

            System.out.println("skydirverName:"+skydirverName);

            System.out.println("username:"+username);

            System.out.println("shareTime:"+shareTime);

            System.out.println("describ:"+describ);

            System.out.println("typeId:"+typeId);

            System.out.println("id:"+id);

            System.out.println("url:"+url);*/

        }

        map.put("source",list);

        return map;

    }

    

    /**

     * 根据前缀查询

     * @Author haoning

     */

    public void prefixSearch(String filedStr,String queryStr) throws Exception{

        File indexDir = new File(DISC_URL);  

        //索引目录  

        Directory dir=FSDirectory.open(indexDir);  

        //根据索引目录创建读索引对象  

        IndexReader reader = IndexReader.open(dir);  

        //搜索对象创建  

        IndexSearcher searcher = new IndexSearcher(reader);

        

        Term term = new Term(filedStr, queryStr);

        Query query = new PrefixQuery(term);

        

        ScoreDoc[] docs = searcher.search(query, 3).scoreDocs;

        printScoreDoc(docs, searcher);

    }

    

    /**

     * 通配符查询

     * @Author haoning

     */

    public void wildcardSearch(String filedStr,String queryStr) throws Exception{

        File indexDir = new File(DISC_URL);  

        //索引目录  

        Directory dir=FSDirectory.open(indexDir);  

        //根据索引目录创建读索引对象  

        IndexReader reader = IndexReader.open(dir);  

        //搜索对象创建  

        IndexSearcher searcher = new IndexSearcher(reader);

        

        Term term = new Term(filedStr, queryStr);

        Query query = new WildcardQuery(term);

        ScoreDoc[] docs = searcher.search(query, 3).scoreDocs;

        printScoreDoc(docs, searcher);

    }

    

    /**

     * 分词查询

     * @Author haoning

     */

    public void analyzerSearch(String filedStr,String queryStr) throws Exception{

        File indexDir = new File(DISC_URL);  

        //索引目录  

        Directory dir=FSDirectory.open(indexDir);  

        //根据索引目录创建读索引对象  

        IndexReader reader = IndexReader.open(dir);  

        //搜索对象创建  

        IndexSearcher searcher = new IndexSearcher(reader);

        

        QueryParser queryParser = new QueryParser(version, filedStr, analyzer);

        Query query = queryParser.parse(queryStr);

        

        ScoreDoc[] docs = searcher.search(query, 3).scoreDocs;

        printScoreDoc(docs, searcher);

    }

    

    /**

     * 多属性分词查询

     * @Author haoning

     */

    public void multiAnalyzerSearch(String[] filedStr,String queryStr) throws Exception{

        File indexDir = new File(DISC_URL);  

        //索引目录  

        Directory dir=FSDirectory.open(indexDir);  

        //根据索引目录创建读索引对象  

        IndexReader reader = IndexReader.open(dir);  

        //搜索对象创建  

        IndexSearcher searcher = new IndexSearcher(reader);

        QueryParser queryParser = new MultiFieldQueryParser(version, filedStr, analyzer);

        Query query = queryParser.parse(queryStr);

        

        ScoreDoc[] docs = searcher.search(query, 3).scoreDocs;

        printScoreDoc(docs, searcher);

    }

    

    public void printScoreDoc(ScoreDoc[] docs,IndexSearcher searcher)throws Exception{

        for (int i = 0; i < docs.length; i++) {

            List<Fieldable> list = searcher.doc(docs[i].doc).getFields();

            for (Fieldable fieldable : list) {

                String fieldName = fieldable.name();

                String fieldValue = fieldable.stringValue();

                System.out.println(fieldName+" : "+fieldValue);

            }

        }

    }

}

注意由于去转盘网(http://www.quzhuanpan.com)是部署到linux上的,所以DISC_URL可以更具系统变换,我是通过url来判定索引文件是否唯一的,你可以更具id来判断,具体情况具体对待吧。

package com.tray.indexData;

import java.sql.SQLException;

import org.apache.lucene.document.Document;

import org.apache.lucene.document.Field;

import com.mysql.jdbc.Connection;

import com.mysql.jdbc.ResultSet;

import com.mysql.jdbc.Statement;

public class IndexFile {

    

     private static Connection conn = null;     

     private static Statement stmt = null;  

     private final int NUM=500000;

     private LuceneSearch ls;

     private long count=0;

     

     public ResultSet deal6SourceTable(String tableName) throws SQLException{

           String sql = "SELECT distinct `NAME`,SKYDRIVER_NAME,USERNAME,SHARE_TIME,DESCRIB,TYPE_ID,ID,URL FROM "+tableName+" where STATUS=1 and TYPE_ID !=‘-1‘ and (TYPE_NAME is null or TYPE_NAME!=1) limit "+NUM;

           //System.out.println(sql);

           ResultSet rs = (ResultSet) stmt.executeQuery(sql);

           return rs;

     }

     

     public void update6SourceTable(String tableName) throws SQLException{

           Statement st = (Statement) conn.createStatement();

           String sql = "update "+tableName+" set TYPE_NAME=1 where STATUS=1 and TYPE_ID !=‘-1‘ and (TYPE_NAME is null or TYPE_NAME!=1) limit "+NUM;

           //System.out.println("update"+sql);

            try {

                st.executeUpdate(sql);

            catch (SQLException e) {

                e.printStackTrace();

            }

     }

     

     public void indexInit(){//数据库+lcene初始化

        conn = (Connection) JdbcUtil.getConnection();     

        if(conn == null) {     

            try {

                throw new Exception("数据库连接失败!");

            catch (Exception e) {

                e.printStackTrace();

            }     

        }

        ls=new LuceneSearch();

        try {

            ls.init();

        catch (Exception e2) {

            e2.printStackTrace();

        }

     }

     

     public void indexEnd(){//数据库+lcene关闭

         

         ls.closeWriter();

         try {

                conn.close();//关闭数据库

             catch (SQLException e) {

                e.printStackTrace();

          }

     }

     

     public void Index6Data() throws SQLException{   

            try {

                stmt = (Statement) conn.createStatement();

            catch (SQLException e1) {

                e1.printStackTrace();

            }

            

            ResultSet r1=null;

            ResultSet r2=null;

            ResultSet r3=null;

            ResultSet r4=null;

            ResultSet r5=null;

            ResultSet r6=null;

            

            boolean stop=false;

            do{

                 r1=deal6SourceTable("film_and_tv_info");

                 stop=this.createIndex(r1,ls,"1");   //给数据库创建索引,此处执行一次,不要每次运行都创建索引,以后数据有更新可以后台调用更新索引 

                 if(!stop){

                     ls.commit();//加个判断条件

                 }

                 //System.out.println("stop"+stop);

                

            }while(!stop);

           

            stop=false;

            do{

                 r2=deal6SourceTable("music_and_mv_info");

                 stop=this.createIndex(r2,ls,"2");   //给数据库创建索引,此处执行一次,不要每次运行都创建索引,以后数据有更新可以后台调用更新索引  

                 if(!stop){

                     ls.commit();//加个判断条件

                 }

                

            }while(!stop);

            

            stop=false;

            do{

                 r3=deal6SourceTable("e_book_info");

                 stop=this.createIndex(r3,ls,"3");   //给数据库创建索引,此处执行一次,不要每次运行都创建索引,以后数据有更新可以后台调用更新索引  

                 if(!stop){

                     ls.commit();//加个判断条件

                 }

                

            }while(!stop);

            

            stop=false;

            do{

                 r4=deal6SourceTable("bt_file_info");

                 stop=this.createIndex(r4,ls,"4");   //给数据库创建索引,此处执行一次,不要每次运行都创建索引,以后数据有更新可以后台调用更新索引  

                 if(!stop){

                     ls.commit();//加个判断条件

                 }

                

            }while(!stop);

            

            stop=false;

            do{

                 r5=deal6SourceTable("characteristic_software_info");

                 stop=this.createIndex(r5,ls,"5");   //给数据库创建索引,此处执行一次,不要每次运行都创建索引,以后数据有更新可以后台调用更新索引  

                 if(!stop){

                     ls.commit();//加个判断条件

                 }

                

            }while(!stop);

            

            stop=false;

            do{

                 r6=deal6SourceTable("source_code_info");

                 stop=this.createIndex(r6,ls,"6");   //给数据库创建索引,此处执行一次,不要每次运行都创建索引,以后数据有更新可以后台调用更新索引  

                 if(!stop){

                     ls.commit();//加个判断条件

                 }

                

            }while(!stop);

            stop=false;

           

     }

     

     public ResultSet deal2Share(String tableName) throws SQLException{

        String sql = "SELECT  distinct NAME,SKYDRIVER_NAME,USERNAME,SHARE_TIME,DESCRIB,TYPE_ID,ID,SHORTURL from "+tableName+" where STATUS=1  and FS_ID =‘1‘ limit "+NUM; //利用FS_ID这个字段,没什么用处 

        ResultSet rs = (ResultSet) stmt.executeQuery(sql);

        return rs;

    }

    

    public ResultSet deal3Share(String tableName) throws SQLException{

        String sql = "SELECT  distinct title,channel,uid,ctime,description,port,id,shorturl from "+tableName+" where name =‘1‘ limit "+NUM;  

        ResultSet rs = (ResultSet) stmt.executeQuery(sql);

        return rs;

    }

    

    public void Index3Data() throws SQLException{

            try {

                stmt = (Statement) conn.createStatement();

            catch (SQLException e1) {

                e1.printStackTrace();

            }

            

            ResultSet r1=null;

            ResultSet r2=null;

            ResultSet r3=null;

            

            boolean stop=false;

            do{

                 r1=deal2Share("share1");

                 stop=this.createIndex(r1,ls,"7");   //给数据库创建索引,此处执行一次,不要每次运行都创建索引,以后数据有更新可以后台调用更新索引  

                 if(!stop){

                     ls.commit();//加个判断条件

                 }

                 //System.out.println("stop"+stop);

                

            }while(!stop);

           

            stop=false;

            do{

                 r2=deal2Share("share2");

                 stop=this.createIndex(r2,ls,"8");   //给数据库创建索引,此处执行一次,不要每次运行都创建索引,以后数据有更新可以后台调用更新索引  

                 if(!stop){

                     ls.commit();//加个判断条件

                 }

                

            }while(!stop);

            

            stop=false;

            do{

                 r3=deal3Share("share3");

                 stop=this.createIndex(r3,ls,"9");   //给数据库创建索引,此处执行一次,不要每次运行都创建索引,以后数据有更新可以后台调用更新索引  

                 if(!stop){

                     ls.commit();//加个判断条件

                 }

                

            }while(!stop);

            stop=false;

        }

    

        public void update2ShareTable(String tableName) throws SQLException{

            Statement st = (Statement) conn.createStatement();

           String sql = "update "+tableName+" set FS_ID=0 where STATUS=1  and FS_ID =‘1‘ limit "+NUM; //利用FS_ID这个字段,没什么用处 

           //System.out.println("update"+sql);

            try {

                st.executeUpdate(sql);

            catch (SQLException e) {

                e.printStackTrace();

            }

        }

        

        public void update3ShareTable(String tableName) throws SQLException{

            Statement st = (Statement) conn.createStatement();

           String sql = "update "+tableName+" set name=0 where name =‘1‘ limit "+NUM;  

           //System.out.println("update"+sql);

            try {

                st.executeUpdate(sql);

            catch (SQLException e) {

                e.printStackTrace();

            }

        }

           

        public boolean createIndex(ResultSet rs,LuceneSearch ls,String mark) {

            try {

                String tableName=null;

                if(mark.equals("1")){

                    tableName="film_and_tv_info";

                }

                if(mark.equals("2")){

                    tableName="music_and_mv_info";

                }

                if(mark.equals("3")){

                    tableName="e_book_info";

                }

                if(mark.equals("4")){

                    tableName="bt_file_info";

                }

                if(mark.equals("5")){

                    tableName="characteristic_software_info";

                }

                if(mark.equals("6")){

                    tableName="source_code_info";

                }

                if(mark.equals("7")){

                    tableName="share1";

                }

                if(mark.equals("8")){

                    tableName="share2";

                }

                if(mark.equals("9")){

                    tableName="share3";

                }

                boolean isNull=rs.next();

                //System.out.println("hehe"+isNull);

                if(isNull==false){

                    return true;//处理完毕

                }

                while(isNull){

                    if(Integer.parseInt(mark)>=1&&Integer.parseInt(mark)<=8){

                        Document doc = new Document();  

                        //System.out.println("name"+rs.getString("NAME"));        

                        Field name = new Field("name",rs.getString("NAME"),Field.Store.YES,Field.Index.ANALYZED);

                        String skName=rs.getString("SKYDRIVER_NAME");

                        if(skName==null){

                            skName="百度";

                        }

                        Field skydirverName = new Field("skydirverName",skName, Field.Store.YES,Field.Index.NOT_ANALYZED);

                        Field username = new Field("username",rs.getString("USERNAME"),Field.Store.YES, Field.Index.ANALYZED);    

                        Field shareTime = new Field("shareTime",rs.getString("SHARE_TIME"), Field.Store.YES,Field.Index.NOT_ANALYZED);

                        String desb=rs.getString("DESCRIB");

                        if(desb==null){

                            desb="-1";

                        }

                        Field describ = new Field("describ",desb,Field.Store.NO,Field.Index.NOT_ANALYZED);     

                        Field typeId = new Field("typeId",rs.getString("TYPE_ID"), Field.Store.YES,Field.Index.NOT_ANALYZED); 

                        Field id = new Field("id",rs.getString("ID"),Field.Store.YES,Field.Index.NOT_ANALYZED);

                        Field url =null;

                        if(Integer.parseInt(mark)>=7&&Integer.parseInt(mark)<=8){

                            url = new Field("url",rs.getString("SHORTURL"), Field.Store.YES,Field.Index.ANALYZED); 

                        }

                        else{

                            url = new Field("url",rs.getString("URL"), Field.Store.YES,Field.Index.ANALYZED);  

                        }

                        doc.add(name);

                        doc.add(skydirverName);

                        doc.add(username);

                        doc.add(shareTime);

                        doc.add(describ);

                        doc.add(typeId);

                        doc.add(id);

                        doc.add(url);

                        ls.singleUpdate(doc);//用跟新更为合适     

                        isNull=rs.next();

                    }

                    else{

                        Document doc = new Document();  

                        //System.out.println("title"+rs.getString("title"));        

                        Field name = new Field("name",rs.getString("title"),Field.Store.YES,Field.Index.ANALYZED);

                        String skName=rs.getString("channel");

                        Field skydirverName = new Field("skydirverName",skName, Field.Store.YES,Field.Index.NOT_ANALYZED);

                        Field username = new Field("username",rs.getString("uid"),Field.Store.YES, Field.Index.ANALYZED);     

                        Field shareTime = new Field("shareTime",rs.getString("ctime"), Field.Store.YES,Field.Index.NOT_ANALYZED);

                        String desb=rs.getString("description");

                        if(desb==null){

                            desb="-1";

                        }

                        Field describ = new Field("describ",desb,Field.Store.NO,Field.Index.NOT_ANALYZED);     

                        Field typeId = new Field("typeId",rs.getString("port"), Field.Store.YES,Field.Index.NOT_ANALYZED);

                        Field id = new Field("id",rs.getString("id"),Field.Store.YES,Field.Index.NOT_ANALYZED);    

                        Field url = new Field("url",rs.getString("shorturl"), Field.Store.YES,Field.Index.ANALYZED);  

                        

                        doc.add(name);

                        doc.add(skydirverName);

                        doc.add(username);

                        doc.add(shareTime);

                        doc.add(describ);

                        doc.add(typeId);

                        doc.add(id);

                        doc.add(url);

                        ls.singleUpdate(doc);//用跟新更为合适     

                        isNull=rs.next();

                    }

                    count=count+1;

                }

                if(Integer.parseInt(mark)>=1&&Integer.parseInt(mark)<=6){

                    update6SourceTable(tableName);//处理完成后做标志

                }

                else if(Integer.parseInt(mark)>=7&&Integer.parseInt(mark)<=8){

                    update2ShareTable(tableName);//处理完成后做标志

                }

                else{

                    update3ShareTable(tableName);//处理完成后做标志

                }

                System.out.println("Has index "+count+"条数据,数据来自表"+tableName);

                

            catch (Exception e) {

                e.printStackTrace();

            }

            return false;

        }

}

数据库之类的请不要关心,看思路即可,你如果需要换成你的即可,这里就不多说了。

看最后的部分:

package com.tray.indexData;

import java.sql.SQLException;

public class Application {

    

    public static void main(String[] args){

        /*IndexFile indexFile=new IndexFile();

        indexFile.indexInit();

        try {

            indexFile.Index6Data();

        } catch (SQLException e1) {

            e1.printStackTrace();

        }

        indexFile.indexEnd();*/

        

        IndexFile indexFile1=new IndexFile();

        indexFile1.indexInit();

        try {

            indexFile1.Index3Data();

        catch (SQLException e1) {

            e1.printStackTrace();

        }

        indexFile1.indexEnd();

        

        LuceneSearch lch=new LuceneSearch();

        try {

            long a = System.currentTimeMillis();

            lch.highLightSearch("name""flv"1,3);

            long b = System.currentTimeMillis();

            long c = b - a;

            System.out.println("[高级检索花费时间:" + c + "毫秒]");

        catch (Exception e) {

            e.printStackTrace();

        }

    }

}

你可以在一个applicationic程序中开始索引,也可以写个定时器来定时索引,看需求。以上代码是楼主幸苦的作品,转载请不要改动,本人确保代码完全可用。

时间: 2024-10-12 16:55:57

java+lucene中文分词,来看看百度究竟是怎么找到你想要的(十分重要,楼主幸苦之作)的相关文章

java读取中文分词工具(三)

import java.io.EOFException; import java.io.File; import java.io.FileNotFoundException; import java.io.IOException; import java.io.RandomAccessFile; import java.util.ArrayList; /* * 文件格式:已分词的文本,词语之间用空格,换行等空白符分割. * 到了文件末尾就结束 * 适合读取一行很大的文本,因为这里的缓冲不是一行,

java读取中文分词工具(四)

import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.IOException; import java.io.InputStreamReader; import java.io.RandomAccessFile; import java.io.Serializable; import java.util.ArrayList; import java.ut

11大Java开源中文分词器的使用方法和分词效果对比

本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那要用的人结合自己的应用场景自己来判断. 11大Java开源中文分词器,不同的分词器有不同的用法,定义的接口也不一样,我们先定义一个统一的接口: /** * 获取文本的所有分词结果, 对比不同分词器结果 * @author 杨尚川 */ public interface WordSegmenter {

9大Java开源中文分词器的使用方法和分词效果对比

本文的目标有两个: 1.学会使用9大Java开源中文分词器 2.对比分析9大Java开源中文分词器的分词效果 9大Java开源中文分词器,不同的分词器有不同的用法,定义的接口也不一样,我们先定义一个统一的接口: /**  * 获取文本的所有分词结果, 对比不同分词器结果  * @author 杨尚川  */ public interface WordSegmenter {     /**      * 获取文本的所有分词结果      * @param text 文本      * @retur

当前几个主要的Lucene中文分词器的比较

1. 基本介绍: paoding:Lucene中文分词"庖丁解牛" Paoding Analysis imdict :imdict智能词典所采用的智能中文分词程序 mmseg4j: 用 Chih-Hao Tsai 的 MMSeg 算法 实现的中文分词器 ik :采用了特有的"正向迭代最细粒度切分算法",多子处理器分析模式 2. 开发者及开发活跃度: paoding :qieqie.wang, google code 上最后一次代码提交:2008-06-12,svn

java读取中文分词工具(2)

import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.IOException; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.StringTokenizer; /* * 文件格式:已分词的中文文本,每个词语空格分割,每行一个段落. * 这个类适

[分词]Java开源中文分词器ANSJ_SEG初次试用

近日需要对大众点评网60万+的景点评论进行语义分析,所以必须使用分词工具,刚刚开始时我是选择使用NLPIR汉语分词系统(又名ICTCLAS2014),NLPIR的教程在[分词]NLPIR/ICTCLAS2014分词系统的C++ API 在Windows下初次使用,但是直观上感觉分词效果不怎么理想,所以就选用了另一个工具,同学推荐我用一下ANSJ的中文分词,近来也是在学Java,所以对于java的jar包还是挺能接受的,不像dll的那么烦,在Eclipse直接把包加入classpath是一个很简单

lucene中文分词——(四)

1.分析器的执行过程: 第一个 TokenFilter将大写字母变为小写,第二次分词去掉空格并换行,第三次去掉不要的 and或者标点符号 2.中文分词器介绍: (1)lucene自带的 (2)第三方的 3.查看标准分词器对中文的分词效果: 最终决定使用的是IKAnalyzer()分词器,支持中文扩展与停用. 1 // 查看标准分析器的分词效果 2 @Test 3 public void testTokenStream() throws Exception { 4 // 创建一个标准分析器对象 5

word v1.3 发布,Java 分布式中文分词组件

word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义.能准确识别英文.数字,以及日期.时间等数量词,能识别人名.地名.组织机构名等未登录词.能通过自定义配置文件来改变组件行为,能自定义用户词库.自动检测词库变化.支持大规模分布式环境,能灵活指定多种分词算法,能使用refine功能灵活控制分词结果,还能使用词频统计.词性标注.同义标注.反义标注.拼音标注等功能.提供了10种分词算法,还提供了10种文本相似度算法,同时还无缝和Lucene