关键词模块部分说明文档

void denoiseWord(string path, int trd)

Require:path要求是一个字符串,其为一个word文档的绝对地址,trd要求是一个整型变

量,是当前线程的线程编号。

Effect:读取path路径下的word文档,读取其中的文字内容,去掉其他无关信息,将降噪后

的文本信息保存在当前运行路径下文件名为content+trd.txt和temp+trd.txt中。

Modified:会在当前运行目录下创建两个文本文件,分别名为content+trd.txt和temp+tr

d.txt,并向其中写入word文档内去噪后的文本信息,如果已经存在同名的文本文件,那么不

会创建其他额外的文档,而是直接向其中写入Word文档内去噪后的文本信息。

 

相关信息:

  对于word文档的操作需要引用微软对于office.word的库,在VS2013中,右键

选择添加引用,然后选择将这个包加入到引用中。之后加入引用:

using Microsoft.Office.Interop.Word;
using MSWord = Microsoft.Office.Interop.Word;

  在读取Word阶段,首先需要实例化Microsoft.Office.Interop.Word.Application,

使用Documents.Open函数读取word文件,这个函数需要12个参数,第一个为Word文件

的绝对地址,第2到12个参数为Type.Missing的object,函数返回word文档内的文本内容。

 

void cutwords(int trd, string analyzer = "Lucene.China.ChineseAnalyzer")

Require:trd要求是一个整型变量,为当前线程的线程编号,analyzer要求是一个字符串,

为选择的分词器的名称,默认为"Lucene.China.ChineseAnalyzer"。

Effect:将当前运行目录下名为temp+trd.txt文件中的文本信息读取出来,进行分词操作,

将分词后的结果保存进当前运行目录下名为temp+trd.txt文件中。

Modified:改变当前运行目录下名为temp+trd.txt文件中内容。

 

相关信息:

  在分词部分,使用了Lucene的中文分词器,所以需要引入这两

个包,将这两个包放在工程文件夹中。在使用的时候实例化这个中文分词器,实例化TokenS

tream,将待分词的字符串传入流中,从流中读取结果遍历输出到文件。

 

void key(string Path, int trd) 

Require:path是一个字符串,为语料库文件的绝对地址,trd是一个整型变量,为当前线程

的线程编号。

Effect:将当前运行目录下名为temp+trd.txt文件中的分词结果中提取关键词,将提取后的

关键词存进当前运行目录下名为temp+trd.txt文件中。

Modified:更新当前运行目录下名为temp+trd.txt文件中内容为关键词。

 

相关信息:

  在读取excel文件的语料库操作中,需要用到OleDb的库,在将OleDb的库添加到工程得

引用中之后,在开头加入

using System.Data.OleDb;

  类似于Mysql的操作,利用指令读取到语料库中相关词条在文件集中的出现频率,修正词

条在文件中的重要程度,将更新后各个词汇的重要程度排序,选取较高的几个作为关键词输出

到文件。

 

 void translate(int trd)

Require:trd为一个整型变量,为当前线程的线程编号。

Effect:将关键词进行中英互译,将中文和英文关键词存入将当前运行目录下名为temp+trd

.txt文件中。

Modified:更新当前运行目录下名为temp+trd.txt文件中内容为关键词。

 

相关信息:

  在翻译模块调用了百度翻译的api,在调用的时候,需要根据当前时间、用户名和密码等生

成签名,还需要传入要翻译的词汇等信息生成url,在生成url的阶段,由于百度翻译要求的url

必须是UTF-8编码格式,这一点在传入待翻译的字符串前,需要将中文编码成UTF-8格式,除

此之外,在生成签名的时候,也需要将解码的方式调整成UTF-8,将从url下载下来的格式化字

符串重新提取信息后可以得到翻译后的结果。

 

时间: 2024-11-05 14:39:10

关键词模块部分说明文档的相关文章

详细设计说明文档

1引言 1.1编写目的 本文档为软件<自习任我行>的详细设计说明书,向阅读人员介绍本软件的整体框架和详细设计. 1.2背景 说明: 项目名称:自习任我行 开发人员:杨波.崔海营.周亚豪.闵芮.高琪.张丹丹.蔡容玉 用户:铁道大学全体学生 运行:安卓手机 系统描述:自习任我行软件为铁道大学的学生提供了一个方便查询自习室上自习的快速平台.该软件分为查询自习室模块和安排自习室模块.自习任我行软件是一套功能简单实用的的专门用于学生自习的软件,具有操作方便高效迅速等特点.该软件采用eclipse开发工具

概要设计说明文档

一. 引言 1.1编写目的 软件开发中的概要设计,主要解决实现该软件需求的程序模块设计问题.包括如何把该软件程序划分成若干个模块.决定哥哥模块之间的接口.模块之间传递的信息,以及模块构造的设计等.体现了用户需求与应用软件之间的关系,在设计过程中起到了提纲挈领的作用. 1.2背景 开发软件名称:基于安卓开发的<自习任我行> 项目开发成员:杨波.崔海营.周亚豪.闵芮.高琪.蔡容玉.张丹丹 用户:所有铁道大学的学生 项目开发环境: 1.3参考资料 (1)Android编程宝典 (2)网上资料 二.总

Java Servlet API中文说明文档

Java Servlet API中文说明文档译者前言:       近来在整理有关Servlet资料时发现,在网上竟然找不到一份中文的Java Servlet API的说明文档,而在有一本有关JSP的书后面附的Java Servlet API说明竟然不全,而这份文档的2.1a版在1998年的11月份就已定稿.所以我决定翻译一份中文的文档(其中一些与技术关系不大的部分已被略去),有兴趣的读者可以从http: //java.sun.com/products/servlet/2.1/servletsp

perl学习笔记之:模式匹配,模块,文档

Perl语言的最大特点,也是Perl作为CGI首选语言的最大特点,是它的模式匹配操作符.Perl语言的强大的文本处理能力正是通过其内嵌的对模式匹配的支持体现的.模式通过创建正则表达式实现.Perl的正则表达式与模式匹配的特点一是内嵌于语言之中,而不是通过库或函数来实现,因此使用更简便:二是比一般的正则表达式与模式匹配功能强大. 模式匹配操作符简介 操作符 意义 实例 =~ 匹配(包含) !~ 不匹配(不包含) m// 匹配 $haystack =~ m/needle/ $haystack =~

分享个人预算系统源码(含说明文档)

一. 描述 本文档用于简单描述预算系统使用操作过程. 预算系统可用于账户金额的管理,包括账户管理,支出记录,收入记录,支出分类,收入分类,转账,封帐,支出配置,存储计划,计划管理. 源代码和文档为个人原创,仅供个人学习使用,请勿用于其他商业目的,创转载和分享请标明出处!O(∩_∩)O谢谢! 二.适用平台 Windows all,.net formwork4.5,mssql2008 r2及以上版本,iis7, 三.应用技术 Mvc.4.5.EF.T4模板.Quartz.net定时任务框架.简单工厂

H3 BPM接口说明文档

H3 BPM接口说明文档 二〇一七年四月 目 录 1 引擎接口唯一入口:OThinker.H3.IEngine 3 1.1 构造Engine对象 3 1.2 属性 4 2 类:OThinker.H3.Acl.IBizRuleAclManager 6 3 类:OThinker.H3.Acl.IFunctionAclManager 8 4 类:OThinker.H3.Acl.ISystemOrgAclManager 12 5 类:OThinker.H3.Acl.ISystemAclManager 1

Linux安装Oracle11g说明文档

Linux安装Oracle11G说明文档 一.          安装软件环境准备: n  Centos-6.5-X64.iso n  SecureCRT.exe n  FileZilla.exe n  linux.x64_11gR2_database_1of2.zip n  linux.x64_11gR2_database_2of2.zip     二.          安装Centos6.5系统 1:配置网络环境 根据需求设定为固定IP地址 [[email protected] ~]# v

原创SQlServer数据库生成简单的说明文档小工具(附源码)

这是一款简单的数据库文档生成工具,主要实现了SQlServer生成说明文档的小工具,目前不够完善,主要可以把数据库的表以及表的详细字段信息,导出到 Word中,可以方便开发人员了解数据库的信息或写技术说明文档. 技术上主要采用的 C#+Dapper+Npod ,开发工具为Vs2015,基于Net4.5框架. 实现思路: 1.首先获取数据库的字符串,测试链接是否成功, 2.通过脚本获取该服务器的数据库列表. 3.根据数据库找到该数据库的所有数据表 4.通过脚本找到该数据表所有的字段信息 5.使用N

ICE中间件说明文档

1       ICE中间件简介 2       平台核心功能 2.1        接口描述语言(Slice) 2.2        ICE运行时 2.2.1         通信器 2.2.2         对象适配器 2.2.3         位置透明性 2.3        异步编程模型 2.3.1         异步方法调用 2.3.2         异步方法分派 2.4        订阅/发布编程模型 2.5        动态服务管理(IceBox) 2.6