NTCIR-13 We Want Web 任务概述

NTCIR-13 We Want Web 任务概述

原文来源:http://research.nii.ac.jp/ntcir/workshop/OnlineProceedings13/pdf/ntcir/01-NTCIR13-OV-WWW-LuoC.pdf
摘要:
本文给出了NTCIR We Want Web(WWW)任务的概述,该任务包括中文和英语子任务。WWW任务是一个经典的ad-hoc 文本检索任务。这次的WWW收到了4个队伍提交的19个中文任务运行结果,三个队伍提交的13个英语任务运行结果。在这篇概述中,我们描述了任务细节、数据、评测方法以及官方结果报告。
关键词:
    ad hoc retrival;click data; evaluation;information retrieval;test collection; web search
     ad hoc 检索;点击数据;评测;信息检索;测试集;网页搜索

1 引言
    信息获取任务已经多样化了; 现在NTCIR、TREC、CLEF等评测中有各种新的赛道(track)或者任务(task)。 这和早期的TREC形成了鲜明的对比,那时只有一些赛道(track),其中 ad hoc track(在一个静态的文档集上查询一个新话题集)处于中心位置。但是ad hoc任务是一个已经解决了的问题吗?看起来似乎是这样,研究者们已经转向新的任务不是因为他们已经完全解决这个问题,而是因为他们已经到了一个停滞期。Ad hoc Web搜索尤有其实践上的重要性。Web搜索引擎如Baidu、Bing、Google给我们做了很优秀的工作,但是他们是黑盒。我们相信IR研究者们应该继续研究并理解排序检索的核心问题并推进最新技术(the state of art)。如果我们能改进ad hoc IR的性能,其它任务也会受益于它。
直接的ad hoc web 搜索任务已经从NTCIR和TREC消失。我们相信研究者们仍然需要处理基本的web搜索问题并且走得比BM25F更远。而且,一个稳定的评测论坛,其涉及NTCIR或者TREC的好几轮,以期监控IR算法的进展,看起来是在安排中。还有,从评测方面来看,研究者们(搜索引擎公司也是这样)需要一个能体现用户体验的度量,而不是那些基于排好序的文档ID列表的产生的一些数字。
最近,深度神经网络在很多机器学习任务中取得了极大的改进,如语音识别、计算机视觉、自然语言处理等等。已经有人提出一些研究来解决IR中的一些挑战,特别是ad hoc search。我们相信是时候提供一个评测论坛并在时间维度上跟踪神经IR模型的发展。
基于这些考虑,我们决定在NTCIR-12中运行一个ad hoc 评测任务,起名为 We Want Web (WWW)。任务的名字启发于社会媒体的一次鼓噪,当时在TREC 2014上 Web Track被宣布结束了,媒体们说:“We want Web”、“Web ad hoc now!”等等。
WWW的主要任务是一个传统的ad hoc任务。参加者需要在一个给定的语料库上构建他们自己的排序系统。然后他们需要对一个给定的话题集提交几次运行结果。这一轮的WWW(NTCIR-13)有中文和英语两个子任务。两个子任务在不同的数据集上采用相似的任务配置(参见第三部分)。在两个查询集上略有重合,这可以用来支持潜在的跨语言IR研究。在我们的计划中,在将来的WWW中还会运行一个日语的子任务,更多的任务定义细节将在第二部分给出。查询系统的性能评估将采用经典的TREC方式。我们在4.1节 提供相关性判断的细节,在第六部分提供官方结果。
 NTCIR-13的WWW的安排参见表1。虽然有很多队伍在这个任务中注册了,但最后我们只收到了四支队伍的19个中文运行结果和三支队伍的13个英语运行结果。我们猜测造成可怜的参与度的潜在原因是基于机器学习的web搜索的方法缺少训练数据。我们在第7部分讨论WWW将来的计划。
2 任务定义
2.1 主任务定义
WWW的主任务是一个经典的ad hoc 搜索任务。组织者将提供一个语料库,其中包括大量的文档(web pages)和一个查询集(query set)。然后参加者需要基于语料库构建他们自己的排序系统。每一个查询的查询结果以排好序的列表形式提交。收到这些参加者的运行结果后,组织者将从所有结果中汇集top k 结果来构建一个结果池(result pool)。当比较不同提交者的性能时池的深度决定了多少结果将会被考虑。举例来说,如果我们选择20,我们只能计算哪些截止点小于20的度量。池的深度也会受限于相关性判断的开销,这意外者时间和金钱。相关性判断安排在结果池上进行。我们在WWW中采用典型的TREC相关性判断设置。一旦相关性判断完成了,组织者可以计算各种评测指标(如Precision、Recall、nDCG等等)来比较不同提交结果的性能。
考虑到在一个大型语料库上构建一个索引系统颇具挑战且很耗费时间,我们给参加者提供了一个简单得多的方案。我们提供一个基准排序系统,参加者可以使用他们自己的算法来对结果重新排序。更具体一点来说,对每一个查询,我们提供了top 1000 个检索结果及对应的相关性分数和原始的HTML。

2.2  子任务
    在NTCIR_13的WWW任务中,我们提供了中文和英语子任务。考虑到NTCIR INTENT/Imine中有相对少部分日本的子任务参加者,我们将保留日语子任务直到NTCIR-14.
中文子任务和英语子任务基本上采用了相同的任务配置。主要区别就是我们提供的数据
对中文子任务,我们提供了一个包括200个中文查询的训练集。这些查询从一个商业搜索引擎的查询日志抽样获得。训练集包括两部分数据。第一部分是从商业搜索引擎的点击日志收集的。搜集的点击日志的时间范围是2017年3月到2017年4月。数据的第二部分是训练集中查询的相关性判断。不幸的是,对英语子任务,我们没有训练数据。这也阻止了参加者建立更复杂的排序系统。
2.3   WWW的长期计划
我们计划在NTCIR运行WWW至少三个轮次,以期跟踪排序技术的相对长期的发展。我们也想在NTCIR-14引入日语子任务,如果有充分的需求的话。在NTCIR-15,我们会基于参加者的需求决定是否要在NTCIR-16继续进行。

3  数据
3.1 语料库(Corpus)
在中文子任务中,我们采用了SogouT-16作为文档集。SogouT-16 包括了1.17B 网页,这些是从Sogou索引中抽样出来的,搜狗是中国第二大商业搜索引擎。考虑到原始SogouT对一些研究小组来说也许是一个困难(解压后差不多80TB),我们准备了一个SougouT-16的类别B版本,标注为“SougouT-16 B”。这个子集包含大概15(B的数据)。
在英语子任务中,我们采用了ClueWEB12-B13作为文档集。这个语料库可以以研究为目的免费试用。你只需要支付磁盘费和运费。更多信息见于Clueweb-12的主页。Clueweb-12有一个在线的检索/页面渲染服务,只要签署协议就可以被使用。
3.2 查询集(Query set)
中文子任务的查询来自于一个商业搜索引擎2017年3月某一天查询日志的抽样。几乎所有查询是torso查询,这意思是它们某天的频度在10~1000。尽管高频和低频查询同样需要调研,我们认为这些torso查询对这样一个评测任务更合适。查询的内容、intent types(意图类型:导航/信息&事务)、查询是否与英语子任务共享见表2。
英语子任务的查询有两个来源。第一部分来自于一些中文查询的翻译。尽管WWW不是一个跨语言信息检索(CLIR)的任务,数据(相关性判断、运行结果等)也许在将来会使CLIR研究收益。第二部分从另外一个国际搜索引起的查询查询抽样获取而来(注意它不同于中文子任务中的搜索引擎)。这个索索引擎的用户主要位于讲英语的国家。我们使用的查询日志只是一天记录中的一小部分。这样我们从频度在1到100之间的查询里随机抽样一部分。查询内容、意图类型、是否与中文子任务共享参见表3.
对英语和中文查询集,我们都没有使用很多导航型查询。由于SogouT和Clueweb都是整个Web的一个小的子集,很可能导航型查询的最近答案并不在语料库中。
应该指出的是,在相关性评测过程中,我们发现英语查询集的0014查询被错误拼写为“equation edior”。正确的拼写为”equation editor”。我们保留了发布给参加者的原始拼写。
3.3 训练数据
对中文子任务我们提供了一个用于训练的用户行为数据集。行为数据集包括两部分。
对训练集我们有200个查询,这些和中文子任务的查询集没有重叠。对每个查询,我们提供用户点击、展示结果的URL以及每一个点击记录的停留时间。
更具体一点说,对训练集中的每一条记录,我们有如下数据:
anonymized User ID query a list of URLs presented to the users clicked urltimestamps of actions
对每一个查询我们也提供了一些相关性标注。这些相关性标注由来自于搜索引擎额质量评估部门的专业评测者完成。
对中文子任务查询集的查询来说,我们提供了相似的行为数据,除了没有相关性判断。所有这些行为数据来自于一个商业搜索引擎从2016年3月到4月的收集。考虑到隐私问题,用户ID匿名了。对每一个查询,最多提供了500条行为数据(500个session),我们认为500对特征抽取和模型训练已经足够了。
4. 运行结果、池化、相关性评测
4.1 收到的运行结果
表4汇总了我们的运行结果统计
4.2 相关性评测
中文相关性评测被安排在中国清华大学举行。相关性判断通过一个基于WEB的系统实施,该系统由清华大学的 Weixuan WU先生开发。所有文档被划分为25个标注任务。每个任务包括大约800个文档,这些文档最多属于两个查询。任务之间没有重叠。我们通过海报、邮件列表、社交媒体等在校园里招聘了51个评测者。51个评测者中37人只完成了一个任务,其余的完成了多个任务,最多的完成了5个任务。每个任务需要花费大约2小时时间,评测者每个任务的报酬是200RMB(大约30USD)。我们鼓励评测者尽可能参加更多的任务,因为我们认为他们判读的文档越多,他们内部的相关性模型越稳定。
评测安排在实验室环境进行。评测开始前,评测者首先接受关于相关性判断标准的大约15分钟的指导:
    NONREL Nonrelevant –就是使用者如果进入了这个搜索查询会认为这个页面相关的可能性是*unlikely* 。
    MARGREL Marginally relevant – 用户从这个页面会获得一些相关信息。但是,她依然需要浏览更多页面来满足信息需求。
    REL Relevant -  就是用户如果进入了这个搜索查询会认为这个页面相关的可能性是*possible*。
    HIGHREL Highly relevant -就是用户如果进入了这个搜索查询会认为这个页面相关的可能性是*likely*。
尽管我们招聘的评测者不像训练过的专业评测者稳定,我们发现在可接受的质量下这个更快。最后,NONREL标签映射到0;MARGREL标签映射到1;REL标签映射到2;HIGHREL标签映射到3.
英语相关性评测被安排在日本Waseda University举行。相关性判断通过一个基于WEB的系统实施,该系统由该大学的Sakai Laboratory开发,称为PLY。9个主要评测者是通过日本众包服务Lancer招聘来的;对50个奇数话题,我们为了研究众包工作者和学生之间的互评一致性另外招聘了5个学生。官方的qrels并不反映出学生们的判断。每个评测者在判断界面上只给展示查询:附加信息如描述和叙述性信息都没有给出。给每个评测者的相关性判断标准如下:
    ERROR 右边的面板没有展示如何内容,即使在等待内容加载几秒后。
    H.REL Highly relevant -就是用户如果进入了这个搜索查询会认为这个页面相关的可能性是*likely*。
    REL Relevant -  就是用户如果进入了这个搜索查询会认为这个页面相关的可能性是*possible*。
    NONREL Nonrelevant –就是使用者如果进入了这个搜索查询会认为这个页面相关的可能性是*unlikely* 。
最后,ERROR和NONREL映射到0,REL映射到1,H.REL映射到2,相关性等级的L0到L4通过把每一个话题的两个评测者的判断加起来获得(译者备注:0+0=0,0+1=1,1+1=2,1+2=3,2+2=4)。
5. 评测度量和工具
我们使用NTCIREVAL工具3来计算[email protected] (Microsoft version of nDCG at cutoff 10), [email protected] (Q-measure at cutoff 10), and [email protected] (normalised expected reciprocal rank at cutoff 10) [3].我们使用了Linear gain values,例如9用于L9-relevant, 1用于L1=relevant。
Discpower工具用来实施随机化的Tukey HSD 测试,每个的B = 10,000 trials[3].
6. 官方结果
6.1 中文运行结果
表6给出了所有中文运行结果的平均有效性分数。表7汇总了统计显著性测试结果。随机化的Tukey HSD p-values和effect sizes (i.e., standardised mean differences)也给出了,基于两路ANOVA (没有复制) residual variances (0.0279 for [email protected], 0.0315 for [email protected], and 0.0466 for [email protected]) [4].例如从[email protected]方面来看RUCIR-C-NU-Base-1和THUIR-C-CUBase- 1之间差异的effect size可以通过这个公式给出: ESHSD = (0.6323-0.4828)/√0.0279   = 0.895.
根据有三个测试度量的官方中文结果,可以观察到:
RUCIR和CMUIR是性能最好的队伍,因为他们统计显著性地超过了THUIR和SLWWW,但两者之间没有统计显著差异。
THUIR统计显著超过了SLWWW。
表8基于Kendall’s г角度的三个评测度量比较了系统排序以及它们的95%置信区间。可以观察到三个排序在统计上是相等的。
6.2 英语运行结果
表9给出了所有英语运行结果的平均有效分数(effectiveness scores)。表10汇总了统计显著性测试结果。随机化的Tukey HSD p-values和effect sizes (i.e., standardised mean differences)也给出了,基于两路ANOVA (没有复制) residual variances (0.0297 for [email protected], 0.0360 for [email protected], and 0.0520 for [email protected]) [4].
从官方的英语结果[email protected]和[email protected]来看,可以观察到RMIT是性能最好的队伍,统计显著性地超过了THUIR和RUCIR。另一方面,三个队伍在[email protected]上的统计表现相当。
表11比较了基于Kendall’s г角度的三个评测度量比较了系统排序以及它们的95%置信区间。可以观察到三个排序在统计上是相等的。
7 更深入的讨论
   发起WWW的原始动机包括两方面:(1)TREC的Web track已经停止了。但是,我们相信,需要一个测试平台来跟踪搜索技术的进展,尤其是在神经IR方法快速发展的情况下;(2)我们需要通过NTCIR的几轮会议来量化文本搜索算法的进展,尤其是在利用分数标准化(score standardidation)的情况下,分数标准化是基于系统的一个已知集合使得所有话题具有可比性。
不幸的是,尽管有不少队伍(20)WWW,但是只有5个队伍(其中四支来自组织方的机构)最终参加了。这阻止了我们实施有效的分数标准化实验,因为该技术依赖于系统的大数据集来确保一个标准化分数(例如:标准化的nDCG)的0.5意味着一个“average”的系统。pre-NTCIR-13失败分析研讨会也取消了。
导致可怜参加率的一个主要原因也许是缺少web 搜索用于机器学习方法的训练数据。近来研究者们主要集中于基于神经网络的方法,这些是数据饥渴的方法。在WWW的未来会议中,我们计划给参加者提供更多的训练数据。我们正寻求与业界的公司合作。

原文地址:https://www.cnblogs.com/xiaohong0204/p/10929822.html

时间: 2024-11-09 00:41:30

NTCIR-13 We Want Web 任务概述的相关文章

Html5之高级-12 Web Workers(概述、 API)

一.Web Workers 概述 Web Workers 简介 - Web Workers 是运行在后台的 JavaScript - 充分利用多核 CPU 的优势 - 对多线程支持非常好 - 不会影响页面的性能 - 不能访问Web页面 和 DOM API 二.Web Workers API Web Workers API - 检测浏览器对 Web Worker 的支持性 - 创建 Web Worker 文件 - 创建 Web Worker 对象 - 与 Web Worker 进行通信 - onM

Html5之高级-14 Web Socket(概述、API、示例)

一.Web Socket 概述 Web Socket 简介 - Web Socket 是 HTML5 提供的在 Web应用程序中客户端与服务器端之间进行的非 HTTP 的通信机制 - Web Socket 实现了用 HTTP 不容易实现的服务器端的数据推送等智能通讯技术 Web Socket 的特点 - Web Socket 可以在服务器与客户端之间建立一个非 HTTP 的双向连接 - 这个连接时实时的,也是永久的 - 服务器端可以主动推送消息 - 服务器端不再需要轮询客户端的请求 - 服务器端

让人爱不释手的13套精美 Web 应用程序图标素材(转)

图标用于向用户传递信息,不管是在网页还是 Web 应用程序中都非常需要.这些小小的图标元素能够告诉用户怎么到下一页,如何添加.删除和取消等等各种操作.设计精美的图标不仅能增加界面的美观,也能够让应用程序更加易用.下面收集的13套精美 Web 应用程序图标可以免费下载使用,相信你会喜欢!(温馨提示:点击图片即可下载) 01. Crisp Icon Set 小清新风格图标,提供 16x16,32x32,48x48 三种尺寸,有 CSH.Retina.PSD 和 PNG 四种格式. 02. Pixel

Web 应用概述

Web 应用概述 互联网由遍布全世界的各种各样的网络连接成的一个松散结合的全球网.它使网络上的各计算机可以互相交换信息.互联网(Internet)它使网络上的各台计算机可以互相交换信息.Internet为用户提供了各种各样的服务,如WWW,Email,FTP,即时通信等 WWW的含义是全球信息网(World Wide Web) 简称为Web或“万维网 ? Web应用简单举例 使用浏览器浏览新浪新闻 使用浏览器进行网上银行 点击微信中的链接访问网页 点击微信中的链接访问网页 使用浏览器收发邮件 非

Haproxy搭建Web群集概述

博文目录一.Haproxy概述1.HTTP请求2.负载均衡常用调度算法3.常见的Web群集调度器二.Haproxy配置项介绍1.global配置项通常有下面配置参数:2.defaults配置项配置默认参数,一般会被应用组件继承,如果在应用组件中没有特别的声明,将安装默认配置参数:3.listen配置项一般配置应用模块参数:三.Haproxy的参数优化 一.Haproxy概述 Haproxy是目前比较流行的一种群集调度工具,同类群集调度工具有很多,如LVS和Nginx.相比较而言,LVS性能最好,

ASP.NET MVC Web API 学习笔记---Web API概述及程序示例

1. Web API简单说明 近来很多大型的平台都公开了Web API.比如百度地图 Web API,做过地图相关的人都熟悉.公开服务这种方式可以使它易于与各种各样的设备和客户端平台集成功能,以及通过在浏览器中使用 JavaScript来创建更丰富的HTML体验.所以我相信Web API会越来越有它的用武之地. 说道Web API很多人都会想到Web服务,但是他们仍然有一定的区别:Web API服务是通过一般的 HTTP公开了,而不是通过更正式的服务合同 (如SOAP) 2. ASP.NET W

Web安全 概述

转载自 "余弦"大牛的评论 https://www.zhihu.com/question/21606800 大牛的个人blog:http://evilcos.me/ 作者:余弦链接:https://www.zhihu.com/question/21606800/answer/22268855来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 一. 首先你得了解Web Web分为好几层,一图胜千言: 事实是这样的:如果你不了解这些研究对象是不可能搞好安全研究的

web前端概述

首先我谈谈自己对web前端的关注和看法.对于前端,行业内公认说法是从2005年开始的,从那个时候国内it界才有一部分人了解前端,而之前web网页都是以表现为主,都是静态型的页面,不像现在实现了那么多功能和复杂交互. 而也正是AJax技术发布之后,把前端推向了新的高度,局部刷新的技术,给用户带来了前所未有的用户体验. 最近几年前端发展很迅速,新技术发展的很快,前端的技术又很碎,作为前端行业的人员,要保持着学习进取的心,但如今很多开发人员疲于学习新技术而忽略了最基础的技术,导致了很多人员对新技术讲的

13.python中web框架概念的引入。

一.什么是web框架? 框架,就是一个为解决一个开放性问题而设计的具有一定约束性的支撑结构,使用框架可以帮你快速开发特定的系统,简单地说,就是你用别人搭建好的舞台来做表演. 对于所有的Web应用,本质上其实就是一个socket服务端,用户的浏览器其实就是一个socket客户端. 最简单的Web应用就是先把HTML用文件保存好,用一个现成的HTTP服务器软件,接收用户请求,从文件中读取HTML,返回. 如果要动态生成HTML,就需要把上述步骤自己来实现.不过,接受HTTP请求.解析HTTP请求.发