新闻标签提取的评价方法

新闻标签提取的评价方法

一、  目标:

用于评价不同的标签提取算法的优劣,以及算法中参数选取的效果评价。

二、  困难:

标签提取效果的好坏具有强烈的主观性,对一条新闻提取标签的价好坏,通过机器来做的话,比较困难。

三、  解决方案:

选取一定数量的新闻集,经过标签提取得到标签集,通过比较标签集的分布,来分析标签提取算法在不同评价指标上的表现。具体评价指标有:

  1. 覆盖率:

覆盖率 = 结果集标签的数目/系统标签集的数目 * 100%

  1. 准确率:

每条新闻的结果标签若与原标签重合一个便认为正确。按照这样的方式计算准确率,同时可以调整重合个数。

同时,通过抽样检查单个新闻标签的符合程度,给出一个评价。

时间: 2024-10-12 14:40:54

新闻标签提取的评价方法的相关文章

基于TF-IDF的新闻标签提取

基于TF-IDF的新闻标签提取 1. 新闻标签 新闻标签是一条新闻的关键字,可以由编辑上传,或者通过机器提取.新闻标签的提取主要用于推荐系统中,所以,提取的准确性影响推荐系统的有效性.同时,对于将标签展示出来的新闻网站,标签的准确性也会影响用户体验. 2. 新闻标签提取算法 新闻首先是一段文本,新闻的标签首先是这一段文本的关键字.在文本关键字提取当中,TD-IDF是首先可以想到的算法.TF-IDF算法的优点是:简单快速,结果比较符合实际情况:缺点是,单纯以"词频"衡量一个词的重要性,不

Deep Learning(深度学习)之(九)词向量的内部任务评价和外部任务评价方法

关键词: 内部任务评价(Intrinsic Evaluation)和 外部任务评价(extrinsic evaluations).超参数影响下的类比评价任务.人类决策和词向量距离的相关性.结合上下文处理歧义.窗口分类. 这个课堂笔记我们将会对词向量(也就是词嵌入)的内部任务评价和外部任务评价方法进行讨论.主要的内容是单词类比(word analogies)技术,我们会把它当做内部任务评价的技术并展示其相关示例,它会在词向量的调谐(tune)中发挥重要作用.我们还会讨论如何训练模型的权重/参数,并

自动补全 多输入, 适合新闻标签

2015年5月12日 20:16:48 星期二 js+css 1 <script type="text/javascript"> 2 var ac_domain = 'http://'+document.domain+'/'; 3 initAutoComplete(); 4 function initAutoComplete() 5 { 6 var ac_input = document.getElementById('auto_complete_input'); 7 if

HTML标签&lt;a&gt;的使用方法

1.普通用法: <a href="">this is a link</a> a标签中的属性: ·href:值为URL ·target:说明在何处打开目标URL,取值为:_blank :_parent:_self :_top :framename ·name:规定锚的名称 ,用href=#name可以跳转到指定的地方 ·onclick:指定点击响应函数 2.特殊用法: ·实现下载功能 <a href="要下载的文件的路径"><

使用html &lt;a href=&quot;&quot;/&gt;标签连接action的方法

<a href="<s:url action="blogList"/>">XXXX</a>即可 更简单的写法是 <a href="blogDelete.action?id=XXX">直接写就行了 如果这个Action在struts里面声明的时候有命名空间如/user 那么写成<a href="user/blogDelete.action?id=XXX"> 使用stru

CSS实现pre标签中内容换行方法

CSS实现pre标签中内容换行方法技术 maybe yes 发表于2015-01-25 18:35 原文链接 : http://blog.lmlphp.com/archives/70  来自 : LMLPHP后院 HTML 中的 PRE 标签默认是不会换行的,即使声明了 word-wrap 和 word-break 属性也没有效果:DIV 标签可以很方便的换行,不会把页面撑破.因为这个原因,很多网站在显示代码的时候使用 DIV 来作为容器.使用 DIV 标签装载代码有个弊端,就是冗余内容太多,换

复杂网络节点重要性评价方法初探

在一个网络中,不同的节点起着大小不同的作用.以社交网络为例,有意见领袖的大V,有死寂沉沉的僵尸粉:以交通网络为例,有至关重要的交通枢纽,有无关痛痒的备用中转站.在使用复杂网络分析业务问题时,如何区分网络中不同节点的重要性程度,就是一个需要考虑的问题.为了解决我们自己的业务问题,顺便了解了一下相关的方法,特记录一下,若有益于相关领域的同学,则幸甚. 一.要实现的目标 对网络中的节点定义一个指标,可用来定量地衡量每个节点在网络中重要性的大小. 二.相关的一些方法总结 分析节点的重要性,业界较多地从网

获取body标签的两种方法

获取body标签的两种方法 引用body标签有两做法: 第一种:使用DOM Core 即引用某个给定文档的第一个(也是仅有的一个)body标签 代码如下: document.getElementsByTagName("body")[0] 第二种:使用HTML-DOM,即引用某个给定文档的body属性: 代码如下: doucumnet.body

PHP汉字转拼音的两种方法+PHP提取汉字(中文)方法

方法一:根据ASCII码转换,GB2312库对多音字也无能为力. GB2312标准共收录6763个汉字,不在范围内的汉字是无法转换,如:中国前总理朱镕基的"镕"字. GB2312中对所收汉字进行了"分区"处理,每区含有94个汉字/符号.这种表示方式也称为区位码.01-09区为特殊符号.16-55区为一级汉字,按拼音排序.(3755个)56-87区为二级汉字,按部首/笔画排序.(3008个)10-15区及88-94区则未有编码.占用的码位是72*94=6768.其中有