LTP 分词算法实践

参考链接:

https://github.com/HIT-SCIR/ltp/blob/master/doc/install.rst

http://www.xfyun.cn/index.php/services/ltp/detail?&app_id=NTZmYzg5ZWE=

http://www.ltp-cloud.com/document/#api_rest_format_json

其他分词算法参考链接:

NLPIR:http://www.nlpir.org/    http://www.datatang.com/data/13483

bosonnlp: http://bosonnlp.com/

下面针对LTP分词算法 实践

1.登录官网 获取授权码api_key

2.分词接口操作

接口参数:

 StringBuilder sb = new StringBuilder();
            sb.Append(" 本报讯 (记者 王少勇)3月28日,国土资源部部长、党组书记、国家土地总督察姜大明主持召开第10次部党组会议,传达学习习xx总书记在北京市考察工作时的重要讲话精神。会议提出,要深刻理解习xx总书记重要讲话精神,充分发挥国土资源部门的服务和保障作用,推进京津冀协同发展。  xx平总书记高度重视北京发展和京津冀协同发展,今年2月下旬专程到北京市调研考察,并发表重要讲话,从做好北京发展和管理工作、推动京津冀协同发展两个方面进行了深刻阐述。会议指出,习xx总书记的重要讲话,对于实现京津冀优势互补、促进环渤海经济区发展、带动北方腹地发展,意义重大、影响深远,要认真学习,深刻领会。 会议提出,国土资源部门要进一步解放思想,加大改革创新力度,");
            string url = "http://ltpapi.voicecloud.cn/analysis/";
            string data = "api_key=xxx&text=" + sb.ToString() + "&pattern=ws&format=xml";
            string returnValue= HttpHelper.HttpPost(url,data);
            Console.WriteLine(returnValue);
            Console.ReadKey();
 /// <summary>
        /// Post请求 webClient
        /// </summary>
        /// <param name="Url">地址</param>
        /// <param name="postString">这里即为传递的参数,可以用工具抓包分析,也可以自己分析,主要是form里面每一个name都要加进来  </param>
        /// <returns></returns>
        public static string HttpPost(string url, string postString)
        {
            byte[] postData = Encoding.UTF8.GetBytes(postString);//编码,尤其是汉字,事先要看下抓取网页的编码方式
            WebClient webClient = new WebClient();
            webClient.Headers.Add("Content-Type", "application/x-www-form-urlencoded");//采取POST方式必须加的header,如果改为GET方式的话就去掉这句话即可
            byte[] responseData = webClient.UploadData(url, "POST", postData);//得到返回字符流
            string srcString = Encoding.UTF8.GetString(responseData);//解码
            return srcString;
        }

3.测试结果

<?xml version="1.0" encoding="utf-8" ?>
<xml4nlp>
    <note sent="y" word="y" pos="n" ne="n" parser="n" wsd="n" srl="n" />
    <doc>
        <para id="0">
            <sent id="0" cont="本报讯 (记者 王少勇)3月28日,国土资源部部长、党
组书记、国家土地总督察姜大明主持召开第10次部党组会议,传达学习习xx总书记在北京
市考察工作时的重要讲话精神。">
                <word id="0" cont="本报" />
                <word id="1" cont="讯" />
                <word id="2" cont="(" />
                <word id="3" cont="记者" />
                <word id="4" cont="王少勇" />
                <word id="5" cont=")" />
                <word id="6" cont="3月" />
                <word id="7" cont="28日" />
                <word id="8" cont="," />
                <word id="9" cont="国土" />
                <word id="10" cont="资源部" />
                <word id="11" cont="部长" />
                <word id="12" cont="、" />
                <word id="13" cont="党组" />
                <word id="14" cont="书记" />
                <word id="15" cont="、" />
                <word id="16" cont="国家" />
                <word id="17" cont="土地" />
                <word id="18" cont="总督" />
                <word id="19" cont="察姜" />
                <word id="20" cont="大明" />
                <word id="21" cont="主持" />
                <word id="22" cont="召开" />
                <word id="23" cont="第10" />
                <word id="24" cont="次" />
                <word id="25" cont="部党组" />
                <word id="26" cont="会议" />
                <word id="27" cont="," />
                <word id="28" cont="传达" />
                <word id="29" cont="学习" />
                <word id="30" cont="习" />
                <word id="31" cont="近平" />
                <word id="32" cont="总书记" />
                <word id="33" cont="在" />
                <word id="34" cont="北京市" />
                <word id="35" cont="考察" />
                <word id="36" cont="工作" />
                <word id="37" cont="时" />
                <word id="38" cont="的" />
                <word id="39" cont="重要" />
                <word id="40" cont="讲话" />
                <word id="41" cont="精神" />
                <word id="42" cont="。" />
            </sent>
            <sent id="1" cont="会议提出,要深刻理解习xx总书记重要讲话精神,充
分发挥国土资源部门的服务和保障作用,推进京津冀协同发展。">
                <word id="0" cont="会议" />
                <word id="1" cont="提出" />
                <word id="2" cont="," />
                <word id="3" cont="要" />
                <word id="4" cont="深刻" />
                <word id="5" cont="理解" />
                <word id="6" cont="习" />
                <word id="7" cont="近平" />
                <word id="8" cont="总书记" />
                <word id="9" cont="重要" />
                <word id="10" cont="讲话" />
                <word id="11" cont="精神" />
                <word id="12" cont="," />
                <word id="13" cont="充分" />
                <word id="14" cont="发挥" />
                <word id="15" cont="国土" />
                <word id="16" cont="资源" />
                <word id="17" cont="部门" />
                <word id="18" cont="的" />
                <word id="19" cont="服务" />
                <word id="20" cont="和" />
                <word id="21" cont="保障" />
                <word id="22" cont="作用" />
                <word id="23" cont="," />
                <word id="24" cont="推进" />
                <word id="25" cont="京" />
                <word id="26" cont="津" />
                <word id="27" cont="冀" />
                <word id="28" cont="协同" />
                <word id="29" cont="发展" />
                <word id="30" cont="。" />
            </sent>
            <sent id="2" cont="习xx总书记高度重视北京发展和京津冀协同发展,今
年2月下旬专程到北京市调研考察,并发表重要讲话,从做好北京发展和管理工作、推动京
津冀协同发展两个方面进行了深刻阐述。">
                <word id="0" cont="习" />
                <word id="1" cont="近平" />
                <word id="2" cont="总书记" />
                <word id="3" cont="高度" />
                <word id="4" cont="重视" />
                <word id="5" cont="北京" />
                <word id="6" cont="发展" />
                <word id="7" cont="和" />
                <word id="8" cont="京" />
                <word id="9" cont="津" />
                <word id="10" cont="冀" />
                <word id="11" cont="协同" />
                <word id="12" cont="发展" />
                <word id="13" cont="," />
                <word id="14" cont="今年" />
                <word id="15" cont="2月" />
                <word id="16" cont="下旬" />
                <word id="17" cont="专程" />
                <word id="18" cont="到" />
                <word id="19" cont="北京市" />
                <word id="20" cont="调研" />
                <word id="21" cont="考察" />
                <word id="22" cont="," />
                <word id="23" cont="并" />
                <word id="24" cont="发表" />
                <word id="25" cont="重要" />
                <word id="26" cont="讲话" />
                <word id="27" cont="," />
                <word id="28" cont="从" />
                <word id="29" cont="做好" />
                <word id="30" cont="北京" />
                <word id="31" cont="发展" />
                <word id="32" cont="和" />
                <word id="33" cont="管理" />
                <word id="34" cont="工作" />
                <word id="35" cont="、" />
                <word id="36" cont="推动" />
                <word id="37" cont="京" />
                <word id="38" cont="津" />
                <word id="39" cont="冀" />
                <word id="40" cont="协同" />
                <word id="41" cont="发展" />
                <word id="42" cont="两" />
                <word id="43" cont="个" />
                <word id="44" cont="方面" />
                <word id="45" cont="进行" />
                <word id="46" cont="了" />
                <word id="47" cont="深刻" />
                <word id="48" cont="阐述" />
                <word id="49" cont="。" />
            </sent>
            <sent id="3" cont="会议指出,习xx总书记的重要讲话,对于实现京津冀
优势互补、促进环渤海经济区发展、带动北方腹地发展,意义重大、影响深远,要认真学习
,深刻领会。">
                <word id="0" cont="会议" />
                <word id="1" cont="指出" />
                <word id="2" cont="," />
                <word id="3" cont="习xx" />
                <word id="4" cont="总书记" />
                <word id="5" cont="的" />
                <word id="6" cont="重要" />
                <word id="7" cont="讲话" />
                <word id="8" cont="," />
                <word id="9" cont="对于" />
                <word id="10" cont="实现" />
                <word id="11" cont="京" />
                <word id="12" cont="津" />
                <word id="13" cont="冀" />
                <word id="14" cont="优势" />
                <word id="15" cont="互补" />
                <word id="16" cont="、" />
                <word id="17" cont="促进" />
                <word id="18" cont="环" />
                <word id="19" cont="渤海" />
                <word id="20" cont="经济区" />
                <word id="21" cont="发展" />
                <word id="22" cont="、" />
                <word id="23" cont="带动" />
                <word id="24" cont="北方" />
                <word id="25" cont="腹地" />
                <word id="26" cont="发展" />
                <word id="27" cont="," />
                <word id="28" cont="意义" />
                <word id="29" cont="重大" />
                <word id="30" cont="、" />
                <word id="31" cont="影响" />
                <word id="32" cont="深远" />
                <word id="33" cont="," />
                <word id="34" cont="要" />
                <word id="35" cont="认真" />
                <word id="36" cont="学习" />
                <word id="37" cont="," />
                <word id="38" cont="深刻" />
                <word id="39" cont="领会" />
                <word id="40" cont="。" />
            </sent>
            <sent id="4" cont="会议提出,国土资源部门要进一步解放思想,加大改革
创新力度,">
                <word id="0" cont="会议" />
                <word id="1" cont="提出" />
                <word id="2" cont="," />
                <word id="3" cont="国土" />
                <word id="4" cont="资源" />
                <word id="5" cont="部门" />
                <word id="6" cont="要" />
                <word id="7" cont="进一步" />
                <word id="8" cont="解放思想" />
                <word id="9" cont="," />
                <word id="10" cont="加大" />
                <word id="11" cont="改革" />
                <word id="12" cont="创新" />
                <word id="13" cont="力度" />
                <word id="14" cont="," />
            </sent>
        </para>
    </doc>
</xml4nlp>
时间: 2024-11-09 06:43:11

LTP 分词算法实践的相关文章

Mmseg中文分词算法解析

@author linjiexing 开发中文搜索和中文词库语义自己主动识别的时候,我採用都是基于mmseg中文分词算法开发的Jcseg开源project.使用场景涉及搜索索引创建时的中文分词.新词发现的中文分词.语义词向量空间构建过程的中文分词和文章特征向量提取前的中文分词等,整体使用下来,感觉jcseg是一个非常优秀的开源中文分词工具,并且可配置和开源的情况下,能够满足非常多场景的中文分词逻辑.本文先把jcseg使用到最主要的mmseg算法解析一下. 1. 中文分词算法之争 在分析mmseg

在Hadoop上运行基于RMM中文分词算法的MapReduce程序

原文:http://xiaoxia.org/2011/12/18/map-reduce-program-of-rmm-word-count-on-hadoop/ 在Hadoop上运行基于RMM中文分词算法的MapReduce程序 23条回复 我知道这个文章标题很“学术”化,很俗,让人看起来是一篇很牛B或者很装逼的论文!其实不然,只是一份普通的实验报告,同时本文也不对RMM中文分词算法进行研究.这个实验报告是我做高性能计算课程的实验里提交的.所以,下面的内容是从我的实验报告里摘录出来的,当作是我学

计蒜之道2015程序设计大赛初赛第一场——搜狗输入法的分词算法

(一)题面 计蒜之道2015程序设计大赛初赛第一场——搜狗输入法的分词算法 搜狗输入法最近的用户输入中出现了一种新的输入模式,形如 “0k1234567”,搜狗的工程师发现这一模式后了解到,这是一种新被提出的对于十五进制数字的标记模式,其中 “0k” 是标记进制为15的前缀标记,之后的部分 “1234567” 是实际的十五进制的数字串. 在发现这一标记模式后,搜狗的工程师开始尝试在已有的分词算法上进一步加入对于十五进制数字串的处理,把网页上的这种形式的 15 进制数正确地提取出来.我们知道,标记

NLP: 中文分词算法--正向最大匹配 Forward Maximum Matching

最近接触NLP中文分词, 在lunr.js的基础上, 实现了中文的最大正向匹配分词. 某些情况下, 我们在服务器端进行中文文本分词可以使用完整的基于mmseg算法的分词模块, 例如nodejieba, node-segment, 盘古分词等等,  但是在客户端环境下, 我们不能使用这些复杂的分词算法进行分词, 这个时候可以根据已经生成的索引进行简单的客户端分词, 就是所说的FMM (Forward Maximum Matching, 正向最大匹配), 有时候也可以使用正向匹配. 在做FMM的时候

自然语言处理 最大逆向匹配分词算法

输入例句:S1="计算语言学课程有意思" : 定义:最大词长MaxLen = 5:S2= " ":分隔符 = “/”: 假设存在词表:…,计算语言学,课程,意思,…: 最大逆向匹配分词算法过程如下: (1)S2="":S1不为空,从S1右边取出候选子串W="课程有意思": (2)查词表,W不在词表中,将W最左边一个字去掉,得到W="程有意思": (3)查词表,W不在词表中,将W最左边一个字去掉,得到W=&q

搜狗输入法的分词算法

搜狗输入法的分词算法 搜狗输入法最近的用户输入中出现了一种新的输入模式,形如 "0k1234567",搜狗的工程师发现这一模式后了解到,这是一种新被提出的对于十五进制数字的标记模式,其中 "0k" 是标记进制为15的前缀标记,之后的部分 "1234567" 是实际的十五进制的数字串. 在发现这一标记模式后,搜狗的工程师开始尝试在已有的分词算法上进一步加入对于十五进制数字串的处理,把网页上的这种形式的 15 进制数正确地提取出来.我们知道,标记十五

NLP: 中文分词算法---交集歧义检测 (cross ambiguity detect)

在 文章 http://blog.csdn.net/watkinsong/article/details/37697451 里面提到的FM中文分词算法中, 最大的问题就是将用户的query切分的太碎, 切分太碎也会对检索结果造成一定的影响. 这里, 可以采用FMM算法进行切分, 首先切分出最大的正向匹配, 然后进行交集歧义检测, 如果检测到存在交集歧义, 那么对可能存在歧义的一段文字进行FM切分, 获取所有的可能切分结果: 然后对剩下的query子句重复进行FMM切分, 直到query == n

[迷宫中的算法实践]关于一个数据结构与算法实践作业的总结

最近听闻数据结构与算法实践课的老师又出了和上年一样的选题,不禁想起了去年自己完成作业时的点点滴滴,遗憾当时没有写博客的习惯,之前的一些心得这一年实践的过去也逐渐淡忘了,突然就有了总结一下的想法,希望能有新的收获吧. 由于当时也没注意保存,软件完成过程中的一些文档早已丢失了,幸运的是Winform版源码还在,Unity3D版程序也还幸存,虽然由于时间紧张只完成了大概框架,但美观程度也远非Winform可以相比的,先上几张软件图吧: 生成算法 软件实现了普利姆算法.递归回溯算法.递归分割算法和深度遍

java中文分词算法

我想只要是学过数据库的孩纸,不管是mysql,还是sqlsever,一提到查找,本能的想到的便是like关键字,其实去转盘网(分类模式)之前也是采用这种算法,但我可以告诉大家一个很不幸的事情,like匹配其实会浪费大量的有用资源,原因这里不说了请自己想一想,我们还是直接摆事实验证. 现在用去转盘网搜:hello 找个单词,如下: http://www.quzhuanpan.com/source/search.action?q=hello&currentPage=1 翻页你会发现只要是包含hell