如果我们需要在海量的结构未知的网页库中找到和指定的网页相似度比较高的一些网页,我们该怎么办呢?本文提出的“一种通用的网页相似度检测算法”就是专门解决这个问题。
算法如下:
1、提取网页文本。这个提取步骤不要求精确,也没办法精确,因为你面对的是未知结构的网页,所以只需要提取去掉标签之后的文本即可。
2、对提取的文本进行分词。我们使用开源的中文分词组件word分词。
3、为每一个网页建立一个词向量,向量的维度就是两个网页的不重复词的并集,每一个维度的权重就是词频TF,我们这里忽略IDF也不影响。
4、计算词向量的余弦相似度或简单共有词。
5、相似度分值超过0.5的基本上可以视为这两个网页拥有相同的内容。
算法的实现代码来自本人的rank项目:
我的ITEYE(http://yangshangchuan.iteye.com)和OSCHINA(http://my.oschina.net/apdplat/blog)博客有很多同样的博文,主要目的是备份,这里刚好用来测试相似度检测算法的效果,从测试效果来看,相似度分值低于0.5的两篇博文,一篇是由于正文内容太少,不足以抵消干扰信息,另一篇是由于博文不是完整的内容,具体两种相似度判定情况如下所示:
判定相似性的方式一:简单共有词
检查的博文数:103,相似度大于等于0.5的博文数:103,相似度小于0.5的博文数:0
1、检查博文:一个月的时间让你的词汇量翻一翻,相似度分值:0.99
博文地址1:http://my.oschina.net/apdplat/blog/379303
博文地址2:http://yangshangchuan.iteye.com/blog/2186301
2、检查博文:1208个合成词,相似度分值:0.99
博文地址1:http://my.oschina.net/apdplat/blog/393724
博文地址2:http://yangshangchuan.iteye.com/blog/2197556
3、检查博文:分析996个词根在各大考纲词汇中的作用(五)总结精选篇,相似度分值:0.99
博文地址1:http://my.oschina.net/apdplat/blog/391865
博文地址2:http://yangshangchuan.iteye.com/blog/2195991
4、检查博文:根据76大细分词性对单词进行归组(二),相似度分值:0.99
博文地址1:http://my.oschina.net/apdplat/blog/393774
博文地址2:http://yangshangchuan.iteye.com/blog/2197877
5、检查博文:根据76大细分词性对单词进行归组(一),相似度分值:0.99
博文地址1:http://my.oschina.net/apdplat/blog/393771
博文地址2:http://yangshangchuan.iteye.com/blog/2197874
6、检查博文:2000个软件开发领域的高频特殊词及精选例句(一),相似度分值:0.99
博文地址1:http://my.oschina.net/apdplat/blog/389200
博文地址2:http://yangshangchuan.iteye.com/blog/2195665
7、检查博文:JDK源代码中最重要的4646个英语单词,相似度分值:0.98
博文地址1:http://my.oschina.net/apdplat/blog/390915
博文地址2:http://yangshangchuan.iteye.com/blog/2195664
8、检查博文:利用1189个精选句子彻底掌握2190个单词,相似度分值:0.98
博文地址1:http://my.oschina.net/apdplat/blog/394941
博文地址2:http://yangshangchuan.iteye.com/blog/2199287
9、检查博文:词组习语3054组,相似度分值:0.97
博文地址1:http://my.oschina.net/apdplat/blog/393374
博文地址2:http://yangshangchuan.iteye.com/blog/2197555
10、检查博文:英语单词后缀规则总结,相似度分值:0.97
博文地址1:http://my.oschina.net/apdplat/blog/379330
博文地址2:http://yangshangchuan.iteye.com/blog/2186326
11、检查博文:英语单词音近形似转化规律研究,相似度分值:0.97
博文地址1:http://my.oschina.net/apdplat/blog/378569
博文地址2:http://yangshangchuan.iteye.com/blog/2186300
12、检查博文:英语单词前缀规则总结,相似度分值:0.96
博文地址1:http://my.oschina.net/apdplat/blog/378753
博文地址2:http://yangshangchuan.iteye.com/blog/2186327
13、检查博文:192本软件著作用词分析(五)用词最复杂99级,相似度分值:0.95
博文地址1:http://my.oschina.net/apdplat/blog/388816
博文地址2:http://yangshangchuan.iteye.com/blog/2194214
14、检查博文:分析151个后缀在各大考纲词汇中的作用(三)总结精选篇,相似度分值:0.95
博文地址1:http://my.oschina.net/apdplat/blog/392466
博文地址2:http://yangshangchuan.iteye.com/blog/2196690
15、检查博文:二百多部软件著作中最重要的9224个英语单词,相似度分值:0.94
博文地址1:http://my.oschina.net/apdplat/blog/391023
博文地址2:http://yangshangchuan.iteye.com/blog/2195559
16、检查博文:JDK源代码以及200多部软件著作中出现的以连字符构造的1011个合成词,相似度分值:0.94
博文地址1:http://my.oschina.net/apdplat/blog/394495
博文地址2:http://yangshangchuan.iteye.com/blog/2199283
17、检查博文:分析在各大考纲词汇中既没有词根也没有前缀和后缀的独立单词,相似度分值:0.94
博文地址1:http://my.oschina.net/apdplat/blog/392483
博文地址2:http://yangshangchuan.iteye.com/blog/2196691
18、检查博文:分析113个前缀在各大考纲词汇中的作用(二)总结精选篇,相似度分值:0.94
博文地址1:http://my.oschina.net/apdplat/blog/392456
博文地址2:http://yangshangchuan.iteye.com/blog/2195996
19、检查博文:OSCHINA博文抄袭检查,相似度分值:0.94
博文地址1:http://my.oschina.net/apdplat/blog/396414
博文地址2:http://yangshangchuan.iteye.com/blog/2200451
20、检查博文:ITEYE博文抄袭检查,相似度分值:0.93
博文地址1:http://my.oschina.net/apdplat/blog/396411
博文地址2:http://yangshangchuan.iteye.com/blog/2199536
21、检查博文:一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法,相似度分值:0.92
博文地址1:http://my.oschina.net/apdplat/blog/398338
博文地址2:http://yangshangchuan.iteye.com/blog/2200810
22、检查博文:分析在各大考纲词汇中同时拥有前缀后缀和词根的词(一),相似度分值:0.91
博文地址1:http://my.oschina.net/apdplat/blog/392490
博文地址2:http://yangshangchuan.iteye.com/blog/2198571
23、检查博文:软件业的奥斯卡奖:JOLT奖 之 最好的书,相似度分值:0.9
博文地址1:http://my.oschina.net/apdplat/blog/395681
博文地址2:http://yangshangchuan.iteye.com/blog/1837328
24、检查博文:计算ITEYE博文在百度的收录与排名情况,相似度分值:0.87
博文地址1:http://my.oschina.net/apdplat/blog/395970
博文地址2:http://yangshangchuan.iteye.com/blog/2199419
25、检查博文:APDPlat中数据库备份恢复的设计与实现,相似度分值:0.84
博文地址1:http://my.oschina.net/apdplat/blog/196912
博文地址2:http://yangshangchuan.iteye.com/blog/2010680
26、检查博文:中文分词算法 之 基于词典的逆向最大匹配算法,相似度分值:0.84
博文地址1:http://my.oschina.net/apdplat/blog/210427
博文地址2:http://yangshangchuan.iteye.com/blog/2033843
27、检查博文:Java中文分词组件 - word分词,相似度分值:0.84
博文地址1:http://my.oschina.net/apdplat/blog/228619
博文地址2:http://yangshangchuan.iteye.com/blog/2056959
28、检查博文:网络爬虫面临的挑战 之 链接构造,相似度分值:0.84
博文地址1:http://my.oschina.net/apdplat/blog/208716
博文地址2:http://yangshangchuan.iteye.com/blog/2031642
29、检查博文:APDPlat中的用户密码安全策略,相似度分值:0.83
博文地址1:http://my.oschina.net/apdplat/blog/207124
博文地址2:http://yangshangchuan.iteye.com/blog/2029367
30、检查博文:Hadoop发行版的比较与选择,相似度分值:0.81
博文地址1:http://my.oschina.net/apdplat/blog/397625
博文地址2:http://yangshangchuan.iteye.com/blog/1972846
31、检查博文:APDPlat拓展搜索之集成ElasticSearch,相似度分值:0.81
博文地址1:http://my.oschina.net/apdplat/blog/197012
博文地址2:http://yangshangchuan.iteye.com/blog/2010755
32、检查博文:大数据系列11:Gora – 大数据持久化,相似度分值:0.81
博文地址1:http://my.oschina.net/apdplat/blog/396684
博文地址2:http://yangshangchuan.iteye.com/blog/1953733
33、检查博文:APDPlat拓展搜索之集成Solr,相似度分值:0.81
博文地址1:http://my.oschina.net/apdplat/blog/197020
博文地址2:http://yangshangchuan.iteye.com/blog/2010760
34、检查博文:APDPlat如何自动建库建表并初始化数据?,相似度分值:0.8
博文地址1:http://my.oschina.net/apdplat/blog/197703
博文地址2:http://yangshangchuan.iteye.com/blog/2012220
35、检查博文:中文分词算法 之 基于词典的正向最大匹配算法,相似度分值:0.8
博文地址1:http://my.oschina.net/apdplat/blog/209211
博文地址2:http://yangshangchuan.iteye.com/blog/2031813
36、检查博文:Java应用系统中自动实时检测资源文件内容变化,相似度分值:0.78
博文地址1:http://my.oschina.net/apdplat/blog/312609
博文地址2:http://yangshangchuan.iteye.com/blog/2115461
37、检查博文:采集电子报纸,相似度分值:0.78
博文地址1:http://my.oschina.net/apdplat/blog/397051
博文地址2:http://yangshangchuan.iteye.com/blog/1996911
38、检查博文:Java开源项目cws_evaluation:中文分词器分词效果评估,相似度分值:0.78
博文地址1:http://my.oschina.net/apdplat/blog/308391
博文地址2:http://yangshangchuan.iteye.com/blog/2059040
39、检查博文:APDPlat中业务日志和监控日志的设计与实现,相似度分值:0.78
博文地址1:http://my.oschina.net/apdplat/blog/196604
博文地址2:http://yangshangchuan.iteye.com/blog/2010571
40、检查博文:APDPlat的系统启动和关闭流程剖析,相似度分值:0.77
博文地址1:http://my.oschina.net/apdplat/blog/197067
博文地址2:http://yangshangchuan.iteye.com/blog/2010808
41、检查博文:The Future of Compass & ElasticSearch,相似度分值:0.77
博文地址1:http://my.oschina.net/apdplat/blog/397148
博文地址2:http://yangshangchuan.iteye.com/blog/2010721
42、检查博文:APDPlat中领域模型的自描述机制与事件通知机制,相似度分值:0.76
博文地址1:http://my.oschina.net/apdplat/blog/196973
博文地址2:http://yangshangchuan.iteye.com/blog/2010734
43、检查博文:APDPlat中备份文件异地容灾机制之FTP上传,相似度分值:0.76
博文地址1:http://my.oschina.net/apdplat/blog/197005
博文地址2:http://yangshangchuan.iteye.com/blog/2010750
44、检查博文:QuestionAnsweringSystem v1.1 发布,人机问答系统,相似度分值:0.76
博文地址1:http://my.oschina.net/apdplat/blog/308392
博文地址2:http://yangshangchuan.iteye.com/blog/2101533
45、检查博文:APDPlat中的机器码生成机制,相似度分值:0.75
博文地址1:http://my.oschina.net/apdplat/blog/197805
博文地址2:http://yangshangchuan.iteye.com/blog/2012401
46、检查博文:大数据系列4:Hive – 基于HADOOP的数据仓库,相似度分值:0.74
博文地址1:http://my.oschina.net/apdplat/blog/396582
博文地址2:http://yangshangchuan.iteye.com/blog/1950178
47、检查博文:基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎,相似度分值:0.73
博文地址1:http://my.oschina.net/apdplat/blog/308396
博文地址2:http://yangshangchuan.iteye.com/blog/2103664
48、检查博文:软件熵:软件开发中推倒重来的过程就是软件熵不断增加的过程,相似度分值:0.73
博文地址1:http://my.oschina.net/apdplat/blog/311291
博文地址2:http://yangshangchuan.iteye.com/blog/2113923
49、检查博文:大数据系列1:在win7上安装配置Hadoop伪分布式集群,相似度分值:0.72
博文地址1:http://my.oschina.net/apdplat/blog/396579
博文地址2:http://yangshangchuan.iteye.com/blog/1953929
50、检查博文:new一个Object对象占用多少内存?,相似度分值:0.72
博文地址1:http://my.oschina.net/apdplat/blog/208456
博文地址2:http://yangshangchuan.iteye.com/blog/2021423
51、检查博文:中文分词效果对比,相似度分值:0.72
博文地址1:http://my.oschina.net/apdplat/blog/228614
博文地址2:http://yangshangchuan.iteye.com/blog/2043184
52、检查博文:运行nutch提示:0 records selected for fetching, exiting,相似度分值:0.72
博文地址1:http://my.oschina.net/apdplat/blog/396699
博文地址2:http://yangshangchuan.iteye.com/blog/2033009
53、检查博文:Amazon Dynamo的NWR模型,相似度分值:0.71
博文地址1:http://my.oschina.net/apdplat/blog/393783
博文地址2:http://yangshangchuan.iteye.com/blog/2010574
54、检查博文:配置Nutch模拟浏览器以绕过反爬虫限制,相似度分值:0.71
博文地址1:http://my.oschina.net/apdplat/blog/208457
博文地址2:http://yangshangchuan.iteye.com/blog/2030741
55、检查博文:Ubuntu上安装HADOOP多机完全分布式集群,相似度分值:0.7
博文地址1:http://my.oschina.net/apdplat/blog/397146
博文地址2:http://yangshangchuan.iteye.com/blog/1840481
56、检查博文:Java实现的基于模板的网页结构化信息精准抽取组件:HtmlExtractor,相似度分值:0.7
博文地址1:http://my.oschina.net/apdplat/blog/308400
博文地址2:http://yangshangchuan.iteye.com/blog/2110604
57、检查博文:APDPlat旗下10大开源项目,欢迎大家一起来参与,相似度分值:0.7
博文地址1:http://my.oschina.net/apdplat/blog/395498
博文地址2:http://yangshangchuan.iteye.com/blog/2200130
58、检查博文:中文分词算法 之 词典机制性能优化与测试,相似度分值:0.7
博文地址1:http://my.oschina.net/apdplat/blog/213968
博文地址2:http://yangshangchuan.iteye.com/blog/2035007
59、检查博文:给JAVA源代码文件统一地添加licence信息头,相似度分值:0.7
博文地址1:http://my.oschina.net/apdplat/blog/396415
博文地址2:http://yangshangchuan.iteye.com/blog/1841150
60、检查博文:技术框架太多,多的眼花缭乱,如何在众多选择中找到自己的方向?,相似度分值:0.7
博文地址1:http://my.oschina.net/apdplat/blog/393810
博文地址2:http://yangshangchuan.iteye.com/blog/2197217
61、检查博文:大数据系列6:HBase – 基于Hadoop的分布式数据库,相似度分值:0.69
博文地址1:http://my.oschina.net/apdplat/blog/396587
博文地址2:http://yangshangchuan.iteye.com/blog/1954018
62、检查博文:运行nutch报错:unzipBestEffort returned null,相似度分值:0.69
博文地址1:http://my.oschina.net/apdplat/blog/207653
博文地址2:http://yangshangchuan.iteye.com/blog/2030096
63、检查博文:JAVA调用CSDN接口发博文,相似度分值:0.69
博文地址1:http://my.oschina.net/apdplat/blog/200145
博文地址2:http://yangshangchuan.iteye.com/blog/2017751
64、检查博文:The Design of HDFS,相似度分值:0.68
博文地址1:http://my.oschina.net/apdplat/blog/397149
博文地址2:http://yangshangchuan.iteye.com/blog/2002898
65、检查博文:大数据系列7:Storm – 流计算,相似度分值:0.68
博文地址1:http://my.oschina.net/apdplat/blog/396589
博文地址2:http://yangshangchuan.iteye.com/blog/1950165
66、检查博文:使用JSoup+CSSPath采集和讯网人物信息,相似度分值:0.68
博文地址1:http://my.oschina.net/apdplat/blog/397143
博文地址2:http://yangshangchuan.iteye.com/blog/1966497
67、检查博文:大数据系列5:Pig – 大数据分析平台,相似度分值:0.68
博文地址1:http://my.oschina.net/apdplat/blog/396584
博文地址2:http://yangshangchuan.iteye.com/blog/1950274
68、检查博文:如何在你的应用中集成人机问答系统QuestionAnsweringSystem?,相似度分值:0.67
博文地址1:http://my.oschina.net/apdplat/blog/308397
博文地址2:http://yangshangchuan.iteye.com/blog/2108250
69、检查博文:如何解决BUG?,相似度分值:0.67
博文地址1:http://my.oschina.net/apdplat/blog/394216
博文地址2:http://yangshangchuan.iteye.com/blog/1960489
70、检查博文:Windows上安装HADOOP单机伪分布式集群,相似度分值:0.67
博文地址1:http://my.oschina.net/apdplat/blog/397147
博文地址2:http://yangshangchuan.iteye.com/blog/1839814
71、检查博文:分布式内存文件系统:Tachyon,相似度分值:0.66
博文地址1:http://my.oschina.net/apdplat/blog/377832
博文地址2:http://yangshangchuan.iteye.com/blog/2199538
72、检查博文:30个JDK类库源代码中最频繁出现的词的深度分析,相似度分值:0.65
博文地址1:http://my.oschina.net/apdplat/blog/390615
博文地址2:http://yangshangchuan.iteye.com/blog/2194885
73、检查博文:Ubuntu上安装HADOOP单机伪分布式集群,相似度分值:0.65
博文地址1:http://my.oschina.net/apdplat/blog/397145
博文地址2:http://yangshangchuan.iteye.com/blog/1839809
74、检查博文:使用CountDownLatch来模拟马拉松比赛,相似度分值:0.64
博文地址1:http://my.oschina.net/apdplat/blog/385448
博文地址2:http://yangshangchuan.iteye.com/blog/2198572
75、检查博文:大数据系列10:Spark – 内存计算,相似度分值:0.64
博文地址1:http://my.oschina.net/apdplat/blog/396683
博文地址2:http://yangshangchuan.iteye.com/blog/1950276
76、检查博文:Java8全新打造,英语学习supertool,相似度分值:0.64
博文地址1:http://my.oschina.net/apdplat/blog/393187
博文地址2:http://yangshangchuan.iteye.com/blog/2196853
77、检查博文:模拟浏览器的神器 - HtmlUnit,相似度分值:0.64
博文地址1:http://my.oschina.net/apdplat/blog/217586
博文地址2:http://yangshangchuan.iteye.com/blog/2036809
78、检查博文:对Nutch2.1抽象存储层的一些看法,相似度分值:0.64
博文地址1:http://my.oschina.net/apdplat/blog/396129
博文地址2:http://yangshangchuan.iteye.com/blog/1835074
79、检查博文:动态索引结构和索引更新机制,相似度分值:0.63
博文地址1:http://my.oschina.net/apdplat/blog/308393
博文地址2:http://yangshangchuan.iteye.com/blog/2103647
80、检查博文:大数据系列2:建立开发环境编写HDFS和Map Reduce程序,相似度分值:0.63
博文地址1:http://my.oschina.net/apdplat/blog/396580
博文地址2:http://yangshangchuan.iteye.com/blog/1950158
81、检查博文:Nutch的发展历程,相似度分值:0.63
博文地址1:http://my.oschina.net/apdplat/blog/397151
博文地址2:http://yangshangchuan.iteye.com/blog/1949212
82、检查博文:使用Java调用百度搜索,相似度分值:0.63
博文地址1:http://my.oschina.net/apdplat/blog/397129
博文地址2:http://yangshangchuan.iteye.com/blog/1961058
83、检查博文:分布式搜索算法,相似度分值:0.63
博文地址1:http://my.oschina.net/apdplat/blog/396196
博文地址2:http://yangshangchuan.iteye.com/blog/1965212
84、检查博文:Nutch抓取需要登录的网站,相似度分值:0.63
博文地址1:http://my.oschina.net/apdplat/blog/208723
博文地址2:http://yangshangchuan.iteye.com/blog/2031742
85、检查博文:Cygwin运行nutch报错:Failed to set permissions of path,相似度分值:0.62
博文地址1:http://my.oschina.net/apdplat/blog/396698
博文地址2:http://yangshangchuan.iteye.com/blog/1839784
86、检查博文:使用Java调用谷歌搜索,相似度分值:0.62
博文地址1:http://my.oschina.net/apdplat/blog/397127
博文地址2:http://yangshangchuan.iteye.com/blog/1961059
87、检查博文:HBase on CAP,相似度分值:0.6
博文地址1:http://my.oschina.net/apdplat/blog/397628
博文地址2:http://yangshangchuan.iteye.com/blog/2002544
88、检查博文:APDPlat的日志国际化实现方式,相似度分值:0.6
博文地址1:http://my.oschina.net/apdplat/blog/196605
博文地址2:http://yangshangchuan.iteye.com/blog/1974027
89、检查博文:Hadoop分布式文件系统HDFS和OpenStack对象存储系统Swift有何不同?,相似度分值:0.6
博文地址1:http://my.oschina.net/apdplat/blog/396126
博文地址2:http://yangshangchuan.iteye.com/blog/1969491
90、检查博文:大数据系列12:Hadoop2 – 全新的Hadoop,相似度分值:0.6
博文地址1:http://my.oschina.net/apdplat/blog/396685
博文地址2:http://yangshangchuan.iteye.com/blog/1967994
91、检查博文:SOLR4.2+NUTCH1.6,相似度分值:0.6
博文地址1:http://my.oschina.net/apdplat/blog/397150
博文地址2:http://yangshangchuan.iteye.com/blog/2200131
92、检查博文:大数据系列9:Mahout – 机器学习,相似度分值:0.59
博文地址1:http://my.oschina.net/apdplat/blog/396682
博文地址2:http://yangshangchuan.iteye.com/blog/1950172
93、检查博文:中文分词算法 之 基于词典的正向最小匹配算法,相似度分值:0.59
博文地址1:http://my.oschina.net/apdplat/blog/217588
博文地址2:http://yangshangchuan.iteye.com/blog/2040423
94、检查博文:中文分词算法 之 基于词典的逆向最小匹配算法,相似度分值:0.59
博文地址1:http://my.oschina.net/apdplat/blog/217589
博文地址2:http://yangshangchuan.iteye.com/blog/2040431
95、检查博文:使用Java8实现自己的个性化搜索引擎,相似度分值:0.59
博文地址1:http://my.oschina.net/apdplat/blog/396193
博文地址2:http://yangshangchuan.iteye.com/blog/2199420
96、检查博文:nutch2.1+mysql报错及解决,相似度分值:0.58
博文地址1:http://my.oschina.net/apdplat/blog/397144
博文地址2:http://yangshangchuan.iteye.com/blog/1839782
97、检查博文:搜索引擎的分片(shard)和副本(replica)机制,相似度分值:0.58
博文地址1:http://my.oschina.net/apdplat/blog/308395
博文地址2:http://yangshangchuan.iteye.com/blog/2103650
98、检查博文:Java中的null引用,超乎你想象,相似度分值:0.58
博文地址1:http://my.oschina.net/apdplat/blog/217587
博文地址2:http://yangshangchuan.iteye.com/blog/2038163
99、检查博文:配置Cygwin支持无密码SSH登陆,相似度分值:0.57
博文地址1:http://my.oschina.net/apdplat/blog/397057
博文地址2:http://yangshangchuan.iteye.com/blog/1839812
100、检查博文:给LUKE增加word分词器,相似度分值:0.57
博文地址1:http://my.oschina.net/apdplat/blog/397069
博文地址2:http://yangshangchuan.iteye.com/blog/2200077
101、检查博文:word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估,相似度分值:0.57
博文地址1:http://my.oschina.net/apdplat/blog/228615
博文地址2:http://yangshangchuan.iteye.com/blog/2056537
102、检查博文:大数据系列3:用Python编写MapReduce,相似度分值:0.56
博文地址1:http://my.oschina.net/apdplat/blog/396581
博文地址2:http://yangshangchuan.iteye.com/blog/1950157
103、检查博文:大数据系列8:Sqoop – HADOOP和RDBMS数据交换,相似度分值:0.55
博文地址1:http://my.oschina.net/apdplat/blog/396681
博文地址2:http://yangshangchuan.iteye.com/blog/1950171
判定相似性的方式二:余弦相似度
检查的博文数:103,相似度大于等于0.5的博文数:101,相似度小于0.5的博文数:2
1、检查博文:二百多部软件著作中最重要的9224个英语单词,相似度分值:0.99
博文地址1:http://my.oschina.net/apdplat/blog/391023
博文地址2:http://yangshangchuan.iteye.com/blog/2195559
2、检查博文:JDK源代码中最重要的4646个英语单词,相似度分值:0.99
博文地址1:http://my.oschina.net/apdplat/blog/390915
博文地址2:http://yangshangchuan.iteye.com/blog/2195664
3、检查博文:JDK源代码以及200多部软件著作中出现的以连字符构造的1011个合成词,相似度分值:0.99
博文地址1:http://my.oschina.net/apdplat/blog/394495
博文地址2:http://yangshangchuan.iteye.com/blog/2199283
4、检查博文:一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法,相似度分值:0.99
博文地址1:http://my.oschina.net/apdplat/blog/398338
博文地址2:http://yangshangchuan.iteye.com/blog/2200810
5、检查博文:利用1189个精选句子彻底掌握2190个单词,相似度分值:0.99
博文地址1:http://my.oschina.net/apdplat/blog/394941
博文地址2:http://yangshangchuan.iteye.com/blog/2199287
6、检查博文:分析在各大考纲词汇中同时拥有前缀后缀和词根的词(一),相似度分值:0.98
博文地址1:http://my.oschina.net/apdplat/blog/392490
博文地址2:http://yangshangchuan.iteye.com/blog/2198571
7、检查博文:采集电子报纸,相似度分值:0.98
博文地址1:http://my.oschina.net/apdplat/blog/397051
博文地址2:http://yangshangchuan.iteye.com/blog/1996911
8、检查博文:Java开源项目cws_evaluation:中文分词器分词效果评估,相似度分值:0.98
博文地址1:http://my.oschina.net/apdplat/blog/308391
博文地址2:http://yangshangchuan.iteye.com/blog/2059040
9、检查博文:大数据系列11:Gora – 大数据持久化,相似度分值:0.98
博文地址1:http://my.oschina.net/apdplat/blog/396684
博文地址2:http://yangshangchuan.iteye.com/blog/1953733
10、检查博文:2000个软件开发领域的高频特殊词及精选例句(一),相似度分值:0.97
博文地址1:http://my.oschina.net/apdplat/blog/389200
博文地址2:http://yangshangchuan.iteye.com/blog/2195665
11、检查博文:ITEYE博文抄袭检查,相似度分值:0.97
博文地址1:http://my.oschina.net/apdplat/blog/396411
博文地址2:http://yangshangchuan.iteye.com/blog/2199536
12、检查博文:OSCHINA博文抄袭检查,相似度分值:0.97
博文地址1:http://my.oschina.net/apdplat/blog/396414
博文地址2:http://yangshangchuan.iteye.com/blog/2200451
13、检查博文:中文分词算法 之 基于词典的逆向最大匹配算法,相似度分值:0.97
博文地址1:http://my.oschina.net/apdplat/blog/210427
博文地址2:http://yangshangchuan.iteye.com/blog/2033843
14、检查博文:网络爬虫面临的挑战 之 链接构造,相似度分值:0.97
博文地址1:http://my.oschina.net/apdplat/blog/208716
博文地址2:http://yangshangchuan.iteye.com/blog/2031642
15、检查博文:英语单词音近形似转化规律研究,相似度分值:0.97
博文地址1:http://my.oschina.net/apdplat/blog/378569
博文地址2:http://yangshangchuan.iteye.com/blog/2186300
16、检查博文:APDPlat中数据库备份恢复的设计与实现,相似度分值:0.96
博文地址1:http://my.oschina.net/apdplat/blog/196912
博文地址2:http://yangshangchuan.iteye.com/blog/2010680
17、检查博文:1208个合成词,相似度分值:0.96
博文地址1:http://my.oschina.net/apdplat/blog/393724
博文地址2:http://yangshangchuan.iteye.com/blog/2197556
18、检查博文:分析996个词根在各大考纲词汇中的作用(五)总结精选篇,相似度分值:0.96
博文地址1:http://my.oschina.net/apdplat/blog/391865
博文地址2:http://yangshangchuan.iteye.com/blog/2195991
19、检查博文:中文分词算法 之 基于词典的正向最大匹配算法,相似度分值:0.96
博文地址1:http://my.oschina.net/apdplat/blog/209211
博文地址2:http://yangshangchuan.iteye.com/blog/2031813
20、检查博文:分析113个前缀在各大考纲词汇中的作用(二)总结精选篇,相似度分值:0.96
博文地址1:http://my.oschina.net/apdplat/blog/392456
博文地址2:http://yangshangchuan.iteye.com/blog/2195996
21、检查博文:分析151个后缀在各大考纲词汇中的作用(三)总结精选篇,相似度分值:0.96
博文地址1:http://my.oschina.net/apdplat/blog/392466
博文地址2:http://yangshangchuan.iteye.com/blog/2196690
22、检查博文:Java应用系统中自动实时检测资源文件内容变化,相似度分值:0.96
博文地址1:http://my.oschina.net/apdplat/blog/312609
博文地址2:http://yangshangchuan.iteye.com/blog/2115461
23、检查博文:Java中文分词组件 - word分词,相似度分值:0.96
博文地址1:http://my.oschina.net/apdplat/blog/228619
博文地址2:http://yangshangchuan.iteye.com/blog/2056959
24、检查博文:英语单词后缀规则总结,相似度分值:0.96
博文地址1:http://my.oschina.net/apdplat/blog/379330
博文地址2:http://yangshangchuan.iteye.com/blog/2186326
25、检查博文:英语单词前缀规则总结,相似度分值:0.96
博文地址1:http://my.oschina.net/apdplat/blog/378753
博文地址2:http://yangshangchuan.iteye.com/blog/2186327
26、检查博文:APDPlat中领域模型的自描述机制与事件通知机制,相似度分值:0.95
博文地址1:http://my.oschina.net/apdplat/blog/196973
博文地址2:http://yangshangchuan.iteye.com/blog/2010734
27、检查博文:词组习语3054组,相似度分值:0.95
博文地址1:http://my.oschina.net/apdplat/blog/393374
博文地址2:http://yangshangchuan.iteye.com/blog/2197555
28、检查博文:APDPlat中的用户密码安全策略,相似度分值:0.95
博文地址1:http://my.oschina.net/apdplat/blog/207124
博文地址2:http://yangshangchuan.iteye.com/blog/2029367
29、检查博文:APDPlat拓展搜索之集成Solr,相似度分值:0.95
博文地址1:http://my.oschina.net/apdplat/blog/197020
博文地址2:http://yangshangchuan.iteye.com/blog/2010760
30、检查博文:根据76大细分词性对单词进行归组(一),相似度分值:0.94
博文地址1:http://my.oschina.net/apdplat/blog/393771
博文地址2:http://yangshangchuan.iteye.com/blog/2197874
31、检查博文:大数据系列6:HBase – 基于Hadoop的分布式数据库,相似度分值:0.94
博文地址1:http://my.oschina.net/apdplat/blog/396587
博文地址2:http://yangshangchuan.iteye.com/blog/1954018
32、检查博文:大数据系列4:Hive – 基于HADOOP的数据仓库,相似度分值:0.94
博文地址1:http://my.oschina.net/apdplat/blog/396582
博文地址2:http://yangshangchuan.iteye.com/blog/1950178
33、检查博文:运行nutch提示:0 records selected for fetching, exiting,相似度分值:0.94
博文地址1:http://my.oschina.net/apdplat/blog/396699
博文地址2:http://yangshangchuan.iteye.com/blog/2033009
34、检查博文:计算ITEYE博文在百度的收录与排名情况,相似度分值:0.93
博文地址1:http://my.oschina.net/apdplat/blog/395970
博文地址2:http://yangshangchuan.iteye.com/blog/2199419
35、检查博文:软件业的奥斯卡奖:JOLT奖 之 最好的书,相似度分值:0.92
博文地址1:http://my.oschina.net/apdplat/blog/395681
博文地址2:http://yangshangchuan.iteye.com/blog/1837328
36、检查博文:192本软件著作用词分析(五)用词最复杂99级,相似度分值:0.91
博文地址1:http://my.oschina.net/apdplat/blog/388816
博文地址2:http://yangshangchuan.iteye.com/blog/2194214
37、检查博文:APDPlat中的机器码生成机制,相似度分值:0.91
博文地址1:http://my.oschina.net/apdplat/blog/197805
博文地址2:http://yangshangchuan.iteye.com/blog/2012401
38、检查博文:APDPlat拓展搜索之集成ElasticSearch,相似度分值:0.91
博文地址1:http://my.oschina.net/apdplat/blog/197012
博文地址2:http://yangshangchuan.iteye.com/blog/2010755
39、检查博文:APDPlat中业务日志和监控日志的设计与实现,相似度分值:0.91
博文地址1:http://my.oschina.net/apdplat/blog/196604
博文地址2:http://yangshangchuan.iteye.com/blog/2010571
40、检查博文:根据76大细分词性对单词进行归组(二),相似度分值:0.9
博文地址1:http://my.oschina.net/apdplat/blog/393774
博文地址2:http://yangshangchuan.iteye.com/blog/2197877
41、检查博文:使用JSoup+CSSPath采集和讯网人物信息,相似度分值:0.9
博文地址1:http://my.oschina.net/apdplat/blog/397143
博文地址2:http://yangshangchuan.iteye.com/blog/1966497
42、检查博文:APDPlat中备份文件异地容灾机制之FTP上传,相似度分值:0.89
博文地址1:http://my.oschina.net/apdplat/blog/197005
博文地址2:http://yangshangchuan.iteye.com/blog/2010750
43、检查博文:使用CountDownLatch来模拟马拉松比赛,相似度分值:0.89
博文地址1:http://my.oschina.net/apdplat/blog/385448
博文地址2:http://yangshangchuan.iteye.com/blog/2198572
44、检查博文:配置Nutch模拟浏览器以绕过反爬虫限制,相似度分值:0.89
博文地址1:http://my.oschina.net/apdplat/blog/208457
博文地址2:http://yangshangchuan.iteye.com/blog/2030741
45、检查博文:一个月的时间让你的词汇量翻一翻,相似度分值:0.87
博文地址1:http://my.oschina.net/apdplat/blog/379303
博文地址2:http://yangshangchuan.iteye.com/blog/2186301
46、检查博文:APDPlat如何自动建库建表并初始化数据?,相似度分值:0.87
博文地址1:http://my.oschina.net/apdplat/blog/197703
博文地址2:http://yangshangchuan.iteye.com/blog/2012220
47、检查博文:给JAVA源代码文件统一地添加licence信息头,相似度分值:0.87
博文地址1:http://my.oschina.net/apdplat/blog/396415
博文地址2:http://yangshangchuan.iteye.com/blog/1841150
48、检查博文:Amazon Dynamo的NWR模型,相似度分值:0.85
博文地址1:http://my.oschina.net/apdplat/blog/393783
博文地址2:http://yangshangchuan.iteye.com/blog/2010574
49、检查博文:Ubuntu上安装HADOOP多机完全分布式集群,相似度分值:0.84
博文地址1:http://my.oschina.net/apdplat/blog/397146
博文地址2:http://yangshangchuan.iteye.com/blog/1840481
50、检查博文:Java实现的基于模板的网页结构化信息精准抽取组件:HtmlExtractor,相似度分值:0.83
博文地址1:http://my.oschina.net/apdplat/blog/308400
博文地址2:http://yangshangchuan.iteye.com/blog/2110604
51、检查博文:new一个Object对象占用多少内存?,相似度分值:0.83
博文地址1:http://my.oschina.net/apdplat/blog/208456
博文地址2:http://yangshangchuan.iteye.com/blog/2021423
52、检查博文:Hadoop发行版的比较与选择,相似度分值:0.83
博文地址1:http://my.oschina.net/apdplat/blog/397625
博文地址2:http://yangshangchuan.iteye.com/blog/1972846
53、检查博文:大数据系列5:Pig – 大数据分析平台,相似度分值:0.83
博文地址1:http://my.oschina.net/apdplat/blog/396584
博文地址2:http://yangshangchuan.iteye.com/blog/1950274
54、检查博文:大数据系列1:在win7上安装配置Hadoop伪分布式集群,相似度分值:0.82
博文地址1:http://my.oschina.net/apdplat/blog/396579
博文地址2:http://yangshangchuan.iteye.com/blog/1953929
55、检查博文:中文分词算法 之 词典机制性能优化与测试,相似度分值:0.82
博文地址1:http://my.oschina.net/apdplat/blog/213968
博文地址2:http://yangshangchuan.iteye.com/blog/2035007
56、检查博文:运行nutch报错:unzipBestEffort returned null,相似度分值:0.81
博文地址1:http://my.oschina.net/apdplat/blog/207653
博文地址2:http://yangshangchuan.iteye.com/blog/2030096
57、检查博文:使用Java调用百度搜索,相似度分值:0.81
博文地址1:http://my.oschina.net/apdplat/blog/397129
博文地址2:http://yangshangchuan.iteye.com/blog/1961058
58、检查博文:The Future of Compass & ElasticSearch,相似度分值:0.8
博文地址1:http://my.oschina.net/apdplat/blog/397148
博文地址2:http://yangshangchuan.iteye.com/blog/2010721
59、检查博文:APDPlat的系统启动和关闭流程剖析,相似度分值:0.79
博文地址1:http://my.oschina.net/apdplat/blog/197067
博文地址2:http://yangshangchuan.iteye.com/blog/2010808
60、检查博文:JAVA调用CSDN接口发博文,相似度分值:0.78
博文地址1:http://my.oschina.net/apdplat/blog/200145
博文地址2:http://yangshangchuan.iteye.com/blog/2017751
61、检查博文:模拟浏览器的神器 - HtmlUnit,相似度分值:0.78
博文地址1:http://my.oschina.net/apdplat/blog/217586
博文地址2:http://yangshangchuan.iteye.com/blog/2036809
62、检查博文:使用Java调用谷歌搜索,相似度分值:0.77
博文地址1:http://my.oschina.net/apdplat/blog/397127
博文地址2:http://yangshangchuan.iteye.com/blog/1961059
63、检查博文:分析在各大考纲词汇中既没有词根也没有前缀和后缀的独立单词,相似度分值:0.76
博文地址1:http://my.oschina.net/apdplat/blog/392483
博文地址2:http://yangshangchuan.iteye.com/blog/2196691
64、检查博文:中文分词效果对比,相似度分值:0.76
博文地址1:http://my.oschina.net/apdplat/blog/228614
博文地址2:http://yangshangchuan.iteye.com/blog/2043184
65、检查博文:中文分词算法 之 基于词典的逆向最小匹配算法,相似度分值:0.76
博文地址1:http://my.oschina.net/apdplat/blog/217589
博文地址2:http://yangshangchuan.iteye.com/blog/2040431
66、检查博文:Ubuntu上安装HADOOP单机伪分布式集群,相似度分值:0.76
博文地址1:http://my.oschina.net/apdplat/blog/397145
博文地址2:http://yangshangchuan.iteye.com/blog/1839809
67、检查博文:动态索引结构和索引更新机制,相似度分值:0.75
博文地址1:http://my.oschina.net/apdplat/blog/308393
博文地址2:http://yangshangchuan.iteye.com/blog/2103647
68、检查博文:大数据系列9:Mahout – 机器学习,相似度分值:0.75
博文地址1:http://my.oschina.net/apdplat/blog/396682
博文地址2:http://yangshangchuan.iteye.com/blog/1950172
69、检查博文:中文分词算法 之 基于词典的正向最小匹配算法,相似度分值:0.75
博文地址1:http://my.oschina.net/apdplat/blog/217588
博文地址2:http://yangshangchuan.iteye.com/blog/2040423
70、检查博文:基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎,相似度分值:0.75
博文地址1:http://my.oschina.net/apdplat/blog/308396
博文地址2:http://yangshangchuan.iteye.com/blog/2103664
71、检查博文:大数据系列7:Storm – 流计算,相似度分值:0.74
博文地址1:http://my.oschina.net/apdplat/blog/396589
博文地址2:http://yangshangchuan.iteye.com/blog/1950165
72、检查博文:大数据系列10:Spark – 内存计算,相似度分值:0.74
博文地址1:http://my.oschina.net/apdplat/blog/396683
博文地址2:http://yangshangchuan.iteye.com/blog/1950276
73、检查博文:大数据系列12:Hadoop2 – 全新的Hadoop,相似度分值:0.74
博文地址1:http://my.oschina.net/apdplat/blog/396685
博文地址2:http://yangshangchuan.iteye.com/blog/1967994
74、检查博文:Nutch的发展历程,相似度分值:0.74
博文地址1:http://my.oschina.net/apdplat/blog/397151
博文地址2:http://yangshangchuan.iteye.com/blog/1949212
75、检查博文:分布式内存文件系统:Tachyon,相似度分值:0.73
博文地址1:http://my.oschina.net/apdplat/blog/377832
博文地址2:http://yangshangchuan.iteye.com/blog/2199538
76、检查博文:软件熵:软件开发中推倒重来的过程就是软件熵不断增加的过程,相似度分值:0.72
博文地址1:http://my.oschina.net/apdplat/blog/311291
博文地址2:http://yangshangchuan.iteye.com/blog/2113923
77、检查博文:APDPlat的日志国际化实现方式,相似度分值:0.71
博文地址1:http://my.oschina.net/apdplat/blog/196605
博文地址2:http://yangshangchuan.iteye.com/blog/1974027
78、检查博文:Windows上安装HADOOP单机伪分布式集群,相似度分值:0.71
博文地址1:http://my.oschina.net/apdplat/blog/397147
博文地址2:http://yangshangchuan.iteye.com/blog/1839814
79、检查博文:技术框架太多,多的眼花缭乱,如何在众多选择中找到自己的方向?,相似度分值:0.7
博文地址1:http://my.oschina.net/apdplat/blog/393810
博文地址2:http://yangshangchuan.iteye.com/blog/2197217
80、检查博文:QuestionAnsweringSystem v1.1 发布,人机问答系统,相似度分值:0.69
博文地址1:http://my.oschina.net/apdplat/blog/308392
博文地址2:http://yangshangchuan.iteye.com/blog/2101533
81、检查博文:Java8全新打造,英语学习supertool,相似度分值:0.69
博文地址1:http://my.oschina.net/apdplat/blog/393187
博文地址2:http://yangshangchuan.iteye.com/blog/2196853
82、检查博文:APDPlat旗下10大开源项目,欢迎大家一起来参与,相似度分值:0.65
博文地址1:http://my.oschina.net/apdplat/blog/395498
博文地址2:http://yangshangchuan.iteye.com/blog/2200130
83、检查博文:Nutch抓取需要登录的网站,相似度分值:0.65
博文地址1:http://my.oschina.net/apdplat/blog/208723
博文地址2:http://yangshangchuan.iteye.com/blog/2031742
84、检查博文:大数据系列8:Sqoop – HADOOP和RDBMS数据交换,相似度分值:0.64
博文地址1:http://my.oschina.net/apdplat/blog/396681
博文地址2:http://yangshangchuan.iteye.com/blog/1950171
85、检查博文:Cygwin运行nutch报错:Failed to set permissions of path,相似度分值:0.64
博文地址1:http://my.oschina.net/apdplat/blog/396698
博文地址2:http://yangshangchuan.iteye.com/blog/1839784
86、检查博文:大数据系列3:用Python编写MapReduce,相似度分值:0.64
博文地址1:http://my.oschina.net/apdplat/blog/396581
博文地址2:http://yangshangchuan.iteye.com/blog/1950157
87、检查博文:大数据系列2:建立开发环境编写HDFS和Map Reduce程序,相似度分值:0.64
博文地址1:http://my.oschina.net/apdplat/blog/396580
博文地址2:http://yangshangchuan.iteye.com/blog/1950158
88、检查博文:给LUKE增加word分词器,相似度分值:0.63
博文地址1:http://my.oschina.net/apdplat/blog/397069
博文地址2:http://yangshangchuan.iteye.com/blog/2200077
89、检查博文:分布式搜索算法,相似度分值:0.63
博文地址1:http://my.oschina.net/apdplat/blog/396196
博文地址2:http://yangshangchuan.iteye.com/blog/1965212
90、检查博文:如何解决BUG?,相似度分值:0.62
博文地址1:http://my.oschina.net/apdplat/blog/394216
博文地址2:http://yangshangchuan.iteye.com/blog/1960489
91、检查博文:nutch2.1+mysql报错及解决,相似度分值:0.61
博文地址1:http://my.oschina.net/apdplat/blog/397144
博文地址2:http://yangshangchuan.iteye.com/blog/1839782
92、检查博文:The Design of HDFS,相似度分值:0.61
博文地址1:http://my.oschina.net/apdplat/blog/397149
博文地址2:http://yangshangchuan.iteye.com/blog/2002898
93、检查博文:如何在你的应用中集成人机问答系统QuestionAnsweringSystem?,相似度分值:0.6
博文地址1:http://my.oschina.net/apdplat/blog/308397
博文地址2:http://yangshangchuan.iteye.com/blog/2108250
94、检查博文:30个JDK类库源代码中最频繁出现的词的深度分析,相似度分值:0.59
博文地址1:http://my.oschina.net/apdplat/blog/390615
博文地址2:http://yangshangchuan.iteye.com/blog/2194885
95、检查博文:Hadoop分布式文件系统HDFS和OpenStack对象存储系统Swift有何不同?,相似度分值:0.59
博文地址1:http://my.oschina.net/apdplat/blog/396126
博文地址2:http://yangshangchuan.iteye.com/blog/1969491
96、检查博文:SOLR4.2+NUTCH1.6,相似度分值:0.58
博文地址1:http://my.oschina.net/apdplat/blog/397150
博文地址2:http://yangshangchuan.iteye.com/blog/2200131
97、检查博文:搜索引擎的分片(shard)和副本(replica)机制,相似度分值:0.57
博文地址1:http://my.oschina.net/apdplat/blog/308395
博文地址2:http://yangshangchuan.iteye.com/blog/2103650
98、检查博文:配置Cygwin支持无密码SSH登陆,相似度分值:0.54
博文地址1:http://my.oschina.net/apdplat/blog/397057
博文地址2:http://yangshangchuan.iteye.com/blog/1839812
99、检查博文:HBase on CAP,相似度分值:0.54
博文地址1:http://my.oschina.net/apdplat/blog/397628
博文地址2:http://yangshangchuan.iteye.com/blog/2002544
100、检查博文:对Nutch2.1抽象存储层的一些看法,相似度分值:0.53
博文地址1:http://my.oschina.net/apdplat/blog/396129
博文地址2:http://yangshangchuan.iteye.com/blog/1835074
101、检查博文:使用Java8实现自己的个性化搜索引擎,相似度分值:0.52
博文地址1:http://my.oschina.net/apdplat/blog/396193
博文地址2:http://yangshangchuan.iteye.com/blog/2199420
102、检查博文:Java中的null引用,超乎你想象,相似度分值:0.49
博文地址1:http://my.oschina.net/apdplat/blog/217587
博文地址2:http://yangshangchuan.iteye.com/blog/2038163
103、检查博文:word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估,相似度分值:0.26
博文地址1:http://my.oschina.net/apdplat/blog/228615
博文地址2:http://yangshangchuan.iteye.com/blog/2056537