关于NLPIR应用在KETTLE中的探索

一:什么是NLPIR?

NLPIR汉语分词系统(自然语言处理与信息检索共享平台),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。

全球用户突破20万,先后获得了2010年钱伟长中文信息处理科学技术奖一等奖,2003年国际SIGHAN分词大赛综合第一名,2002年国内973评测综合第一名。

二:我们使用NLPIR可以做什么?

三:如何把分词算法用到我们的ETL工作中?

下面我们以KETTLE为例来说明

3.1:利用NLPIR接口开发Java Project

首先使用NLPIR提供的demo开发一个java project,通过在main函数中测试可以完成简单的分词功能,如下图所示

3.2:导出Java Project为jar包

把开发的java project导出为 fenci.jar放入到......\pdi-ce-6.0.1.0-386\data-integration\lib下面

3.3:kettle中引用nlpir分词算法

在kettle的ktr中拖入一个Java 代码的控件,代码如下图所示

具体代码为:

import test.TestFunction;
import nlpir.NlpirTest;
public boolean processRow(StepMetaInterface smi, StepDataInterface sdi) throws KettleException
{
    Object[] r = getRow();
    TestFunction tf=new TestFunction();
    NlpirTest    nt=new  NlpirTest();
    if (r == null) {
        setOutputDone();
        return false;
    }

    if (first){
        first = false;
    }

    r = createOutputRow(r, data.outputRowMeta.size());

    // Get the value from an input field

    String test_value2 = get(Fields.In, "zd").getString(r);

    // play around with it
    String s_value =nt.FenCi(test_value2);

    // Set a value in a new output field
   get(Fields.Out, "splitword_value").setValue(r,s_value);
   // Send the row on to the next step.
    putRow(data.outputRowMeta, r);

    return true;
}

这样输出中就会新增加一列字段名为 "splitword_value"的输出,如下图所示,左侧和下面显示正常则说明类书写正常

3.4:测试效果

3.5:难点解析

从下载的官方文件中得知:

1.分词和提取关键词在一起jnaTest是新词发现和关键词提取在一起。
2.如果加载项目后无法运行请配置classpath中的lib路径为jna包的路径。
3.loadlibrary中的dll路径为你项目中dll的路径,该路径可以是绝对路径或者相对路径。
4.如果出现未提示错误,可以F5刷新项目查看日志文件。
5.建议jdk使用32,因为jna在32jdk上更稳定。

所以本人在64bit jdk下面没有成功,在kettle环境引用32bit的jdk后一切都可以跑起来了

另:由于是32bit的jdk,需要修改kettle的启动文件 spoon.bat中的默认设置修改如下

原来的值:if "%PENTAHO_DI_JAVA_OPTIONS%"=="" set PENTAHO_DI_JAVA_OPTIONS="-Xms1024m" "-Xmx2048m" "-XX:MaxPermSize=256m"

修改后为:if "%PENTAHO_DI_JAVA_OPTIONS%"=="" set PENTAHO_DI_JAVA_OPTIONS="-Xms512m" "-Xmx1024m" "-XX:MaxPermSize=256m"

保存spoon.bat再次启动  一切正常

时间: 2024-08-02 10:01:04

关于NLPIR应用在KETTLE中的探索的相关文章

kettle中denormalizer(列转行)的使用

需要列转行的数据分为两种:有主键和无主键,先说无主键的 转以前的内容 转以后的内容 看到了吧,转过来了,好来张整体流程图 开始分析: 第一个图标打开后为 这是第一步里面主要的一步,这里配置好了就可以进行第二步了. 因为没有主键,所以要给城市那一列添加一个相同的主键,这样数据在转成行的时候就可以转到同一行了,如果主键不同,转成行后,每一个主键为一行,这不是我们想要的. 打开列转行的界面为 图中的dummy是我们前一步添加的常量,关键字段选择城市,关键字段值就为城市的value,数据字段为人数的ke

kettle中调用java类

有时需要在kettle调用java类,如:验证.查询或自定义加密等.有时甚至连基本的数据访问都不那么简单,如获取一个存储文件或使用一个数据库连接,某些数据源可能封装在应用程序中,手工使用自定义的java客户端访问是唯一的方法.本文介绍如何在kettle中调用java类.示例代码在这里下载. 注:如果你使用kettle4.0及以上版本,也你也可以使用user defined java class 步骤实现.   Modified Java ScriptValue 步骤 关键要在kettle中使用M

kettle中使用JavaScript的一个例子

最近在使用kettle的时候遇到一个问题,需要对输入的一个字段进行格式化,逻辑比较复杂(需要做替换掉指定的字符串,然后将数字部分不足四位的数前边补0等操作),kettle中没有提供直接的插件来支持复杂的业务逻辑处理,所以就自己写代码来处理. kettle中可以支持Java代码和JavaScript代码,java代码我尝试了几次,不是太稳定,所以就使用了JavaScript 1.在左侧选择脚本中的 JavaScript代码 2.上个步骤传过来的字段 都在Input fields中,在JavaScr

kettle中实现动态SQL查询

kettle中实现动态SQL查询 在ETL项目中,通常有根据运行时输入参数去执行一些SQL语句,如查询数据.本文通过kettle中的表输入("table input")步骤来说明动态查询.参数查询.示例代码使用内存数据库(H2),下载就可以直接运行,通过示例学习更轻松. SQL查询语句中占位符绑定字段值 第一个接近动态语句的是大家熟悉的从SQL代码中执行,开始写一个SQL查询,包含一些占位符,然后绑定值到占位符,使之成为一个有效的查询并执行.根据需要可以绑定多个值并循环执行.本示例的名

在kettle中使用内存数据库H2

先前一直使用的是postgresql,因为网速的原因,所以打算将数据统一放到HDFS上,但是一条一条写HDFS是很慢的,全部写到本地文件再传到HDFS上也是一样慢,这样一来就有了本文,将部分先放到内存数据库中,然后再写到HDFS上,这样数据抽取和写入的速度一下翻了好几倍!好了,说说怎么在kettle中使用H2 先去下载H2,点击下载 我测试的时候下的是windows版本,解压后,执行h2/bin/h2.bat,执行成功后,会打开下图的界面 红框中的内容输入什么见下面代码 Database URL

kettle中访问前一行数据

 kettle中访问前一行数据 在kettle中,当需要访问数据流前一行数据时,很多人都是用javascript步骤的特性:实际上没有必要,不是说javascript步骤不好,主要是性能低,同时也增加了复杂度,因为写代码让javascript步骤难以理解,最好是使用kettle标准步骤实现.我们的原则是代码最小化,过程轻松. (The Analytic Query Step)分析查询步骤 TheAnalytic Query 步骤可以查找数据流中的前面行或后面行,并且取值到当前行,很多场合是非

Kettle中txt类型数据源作为输入需要注意的地方

文本类型在kettle中作为数据源的时候,需要注意的几点,ktr的机构如下图 1:txt文本的格式 2:文本输入控件的设置 --2.1:选择文件所在物理位置 --2.2:设置分隔符,注意头部数量去掉,不然第一行可能会丢掉,当然也可以根据这里设置从第几行开始抽取 --2.3:设置数据类型和字段名 PS:需要特别注意的就是文本文件的格式,文本中用:或者 | 或者 /做分割,那么设置分割字符后,数据就是分割后的多个列组成的一行数据每一个列名是在 文本输入控件中随意指定好的,在后面的data flow里

在kettle中实现数据验证和检查

在kettle中实现数据验证和检查 在ETL项目,输入数据通常不能保证一致性.在kettle中有一些步骤能够实现数据验证或检查.验证步骤能够在一些计算的基础上验证行货字段:过滤步骤实现数据过滤:javascript步骤能够实现更复杂的计算. 通常以某种方式查看那些数据是有缺陷的也是实用的,由于大多数ETL是无人值守执行的,所以通常ETL程序会把这些缺陷数据通知给ETL开发人员或管理员.建议把这些问题数据行保存到一个特定的公共表格中,以便跟踪这些数据:那么该表格应该包含一些元信息,如:执行转换的名

kettle中使用javascript步骤和fireToDB函数实现自定义数据库查询

kettle中使用javascript步骤和fireToDB函数实现自定义数据库查询 假设你需要实现非传统的数据库查询操作,为了讨论这种情景,我们假设你需要读取数据库中的正则表达式,然后检查输入的每行的字段匹配表达式的个数. 在javascript步骤执行数据库查询 在javascript步骤初始化的时候,查询数据库,获取正则表达式记录集.然后每一行的输入数据循环检查是否匹配表达式,如果匹配,记录变量加一,最后把结果写到到前行的新增字段中.思路很清楚,但是如何在javascript步骤实现数据库