中文分词之9577组同义词

这9577组同义词出自Java分布式中文分词组件 - word分词,这里列出50组同义词,更多同义词请看这里

一一 逐一
一下子 一会儿
一丝不动 纹丝不动
一举成名 一鸣惊人
一乾二净 六根清净
一人得道 鸡犬升天
一再 几回再三
一古脑儿 一股脑儿
一叶知秋 尝鼎一脔
一名 一位
一呼百应 一呼百诺
一呼百诺 前呼后拥
一命呜呼 与世长辞
一唱一和 遥相呼应
一块儿 一起
一壁 一面
一声不响 一言不发
一孔之见 一知半解
一定 必然
一尘不染 一乾二净
一帆风顺 风平浪静
一往无前 勇往直前
一往直前 百折不回
一律 一概
一得之愚 一孔之见
一意孤行 独行其是
一成不变 原封不动
一扫而光 一网打尽
一扫而空 一网打尽
一拥而上 蜂拥而上
一掷千金 挥金如土
一无可取 一无是处
一无所取 一无是处
一无所得 一无所获
一日三餐 每日三餐
一日千里 进步神速
一时哄动 哄传一时
一晚上 一夜
一枕黄粱 南柯一梦
一样平常 一般 日常
一槌定音 一锤定音
一模一样 如出一辙
一泻千里 一落千丈
一清二楚 一览无余
一生 平生
一目十行 目下十行
一直 一向
一矢之地 弹丸之地
一石二鸟 一举两得
一穷二白 一贫如洗
时间: 2024-10-24 18:24:02

中文分词之9577组同义词的相关文章

中文分词之9271组反义词

这9271组反义词出自Java分布式中文分词组件 - word分词,这里列出50组反义词,更多同义词请看这里. 一丘之貉 比众不同 一丝不苟 草草了事 粗心大意 敷衍了事 粗枝大叶 一举两得 事倍功半 顾此失彼 一了百了 没完没了 一事无成 卓有成效 一会儿 长时间 好一阵 一元论 多元论 一再 不再 一刀两断 藕断丝连 拖泥带水 一切 少数 部分 一劳永逸 徒劳无功 劳而无功 一厢情愿 两相情愿 一反常态 一如既往 一发千钧 安如泰山 一同 分开 混合 一向 有时 偶尔 一命呜呼 枯木逢春 绝

NLP︱中文分词技术小结、几大分词引擎的介绍与比较

笔者想说:觉得英文与中文分词有很大的区别,毕竟中文的表达方式跟英语有很大区别,而且语言组合形式丰富,如果把国外的内容强行搬过来用,不一样是最好的.所以这边看到有几家大牛都在中文分词以及NLP上越走越远.哈工大以及北大的张华平教授(NLPIR)的研究成果非常棒! 但是商业应用的过程中存在的以下的问题: 1.是否先利用开源的分词平台进行分词后,再自己写一些算法进行未登录词.歧义词的识别? 2.或者直接调用下文介绍的分词引擎来进行分词呢?缴费使用固然很棒,但是是否值得? ---------------

漫话中文分词

出处:http://www.matrix67.com/blog/archives/4212 漫话中文自动分词和语义识别(上):中文分词算法 记得第一次了解中文分词算法是在 Google 黑板报 上看到的,当初看到那个算法时我彻底被震撼住了,想不到一个看似不可能完成的任务竟然有如此神奇巧妙的算法.最近在詹卫东老师的<中文信息处理导论>课上再次学到中文分词算法,才知道这并不是中文分词算法研究的全部,前前后后还有很多故事可讲.在没有建立统计语言模型时,人们还在语言学的角度对自动分词进行研究,期间诞生

搜索引擎技术揭密:中文分词技术

http://www.williamlong.info/archives/333.html 信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google.百度.中国搜索等大型搜索引擎一直是人们讨论的话题.随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索.8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点. 搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及altvista.overture.g

中文分词与搜索引擎

看到题目就知道我要说什么了,这个话题好像已经被讨论过n次了,看雅虎搜索blog上在06年就有过专题系列文章,地址为:http://ysearchblog.cn/2006/07/post_16.html,文中详细的介绍了有关中文分词的意义,算法,跟搜索引擎的关系等等.个人认为文章质量非常不错.其实我所写的也不外乎这些东西,可我为什么还要写呢?是因为我花了将近一周的时间来理解中文分词,收集有关资料,为了不让努力白费,我还是总结一下吧. 一.为什么要中文分词? 对啊,为何要分词,不分词行不行?要讨论这

(转)Sphinx中文分词安装配置及API调用

这几天项目中需要重新做一个关于商品的全文搜索功能,于是想到了用Sphinx,因为需要中文分词,所以选择了Sphinx for chinese,当然你也可以选择coreseek,建议这两个中选择一个,暂时不要选择原版Sphinx(对中文的支持不是很好).又因为服务器所用 MySQL在当时编译时并没有编译Sphinx扩展,而重新编译MySQL并加入Sphinx暂时又无法实现(项目用到了多台服务器,在不影响现有业务的 情况下不可能去重新编译MySQL的),所以采用的是程序通过API来外部调用Sphin

模式识别之中文分词---简介

Lucene系列介绍 Lucene:分词器和索引文件 目录 分词器 索引文件结构 常用的中文分词器 1.分词器 分词器,对文本资源进行切分,将字符文本串按照一定的规则切分为一个个可以进行索引的最小单位(关键词),以便检索时使用. 建立索引和进行检索时都要用到分词器.为了保证能正确的检索到结果,在建立索引与进行检索时使用的分词器应是同一个. 2.索引文件结构 索引库是一组索引文件的集合. 索引文件的检索:索引表规模相对较小,文档集合规模较大.进行检索时,先从检索索引表开始,然后找到相对应的文档.如

模式识别之中文分词

概率论只不过是把常识用数学公式表达了出来. ——拉普拉斯 记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛就是好几个小时:有一次,在书店看到一本书,名叫贝叶斯方法.当时数学系的课程还没有学到概率统计.我心想,一个方法能够专门写出一本书来,肯定很牛逼.后来,我发现当初的那个朴素归纳推理成立了——这果然是个牛逼的方法. ——题记 0. 前言 这是一篇关于贝叶斯方法的科普文,我会尽量少用公式,多用平白的语言叙述,多举实际例子.更严格的公式和计算我会在相应的地方注明参考资料.贝叶斯方法被证明是

二阶和三阶隐马尔柯夫过程(HMM)进行中文分词的效果对比

第一部分 引言 关于隐马尔柯夫模型的详细内容在此就不详细介绍了,介绍HMM模型的文章很多,请读者自行去学习.二阶隐马尔柯夫模型解决问题有两个假设:其一是当前的状态仅与它前面相邻的状态有关:其二是状态转换和从某个状态发射某个观察符号的概率与时间t无关(即不动性假设).HMM是在这两个假设的前提下解决各种各样的问题的. 对于第二个假设,我们不去讨论它.现在来看第一个假设,二阶马尔柯夫过程假设当前状态仅与前面相邻的一个状态有关,那么对于分词来说,有些词可能会满足这样的情况,但也有可能会有些词并不这么简