大数据产业发展创新技术新书《数据之翼》收录自然语言处理工具HanLP

在12月20日由中国电子信息产业发展研究院主办的2018中国软件大会上,大快搜索获评“2018中国大数据基础软件领域领军企业”,并成功入选中国数字化转型TOP100服务商。

图:大快搜索获评“2018中国大数据基础软件领域领军企业”
在本届2018中国软件大会上,不仅宣传并成立了数字转型促进会,还发布了由中国大数据产业生态联盟副秘书长、《软件和集成电路》杂志社总编辑郭嘉凯编辑的新书——《数据之翼-引领中国大数据产业发展的创新技术》。在本书的第一章节收录介绍了大快搜索自主研发的Hanlp技术。

图:数据之翼-引领中国大数据产业发展的创新技术
Hanlp是由大快搜索高级研究员何晗主导开发的完全开源的项目,具有精度高、速度快、内存省的特点。
2014年,还在攻读日语本科的何晗(大快搜索高级研究员)一定没想到,机缘巧合研发的一款中文分词器,在随后几年中几经迭代,并在商用市场大放异彩。
而看似是“无心插柳柳成荫”的事情,却凝聚着何晗对Hanlp工匠式的锤炼。
Hanlp是由一系列模型与算法组成的工具包,目标是普及自然语言处理(NLP)在生产环境中的应用。Hanlp具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点:能够提供词法分析(中文分词、词性标注、命名实体识别)、句法分析、文本分类和情感分析等功能。

原文地址:http://blog.51cto.com/13993767/2334384

时间: 2024-08-24 18:54:40

大数据产业发展创新技术新书《数据之翼》收录自然语言处理工具HanLP的相关文章

准独角兽袋鼠云:入围“浙江大数据灵杰榜”,获评“星禾奖创新技术企业”!

2018年7月15日,由工信部.科技部.民政厅等相关主管单位指导,浙江省大数据科技协会主办的"2018浙江省大数据产业峰会(Zhejiang Big Data Industry Conference 2018)"在杭州JW万豪酒店隆重召开. 本届"2018浙江省大数据产业峰会"以"聚智慧·创未来"为主题,内容涵盖大数据政策规划.技术创新.行业应用实践等议题,吸引了包括阿里云.科大讯飞.网易.百度.等各地知名企业参加,袋鼠云以浙江省大数据科技协会理

陕西西咸新区沣西新城大数据产业发展思考

短短两年时间,陕西西咸新区大数据产业已经初具规模.注重基础设施建设,与应用对接,建立创新和人才培育机制是西咸新区成功的秘诀. 2012年12月6日,陕西西咸新区在北京举办了第一届西咸新区大数据论坛,正式发布了沣西大数据产业规划,在全国范围内率先扛起了大数据的旗帜. 两年后的11月10日,2014西咸新区大数据高峰论坛在西安举行.两年时间,沣西大数据产业规划的落实情况如何?作为国内大数据园区的标杆之一,西咸新区在大数据应用和产业化方面的探索又有哪些成功的经验值得借鉴呢? 大数据产业有了好基础 在参

【大数据论文笔记】大数据系统和分析技术综述

1.大数据处理与系统   简介 特征 典型应用 代表性的处理系统 适用场景 批量数据处理系统 首要任务:1.利用批量数据挖掘合适的模式2.得出具体的含义3.制定明智的决策4.做出有效的应对措施5.实现业务目标 1.数据体量巨大2.数据精确度高3.数据价值密度低 1.互联网领域:      a.社交网络      b.电子商务      c.搜索引擎2.安全领域      a.IT安全      b.欺诈检测      c.识别恶意软件和网络攻击模式3.公共服务领域      a.能源(eg.石油

华为企业云重磅亮相 “大数据产业周”,推进京津冀大数据产业发展

2015年12月7-13日, 中国(廊坊) 大数据产业周(以下简称大数据产业周)在河北省廊坊市项目中心正式启幕,本次大数据产业周活动是继党的十八届五中全会提出实施“国家大数据战略” 与8 月31 日国务院印发<促进大数据发展行动纲要>后, 国内首次举办的以大数据为主题的产业周活动,共吸引百余家知名厂商参展,近1000位大数据领域专业观众参加.华为企业云在大数据产业周亮相,展示了一系列面向政府.智能制造.金融.交通.医疗.能源等领域的大数据和云计算服务. 河北省政府党组成员吴显国.廊坊市市委书记

了解大数据开发及和大数据相关的技术

在现如今,随着互联网技术飞速的发展,目前有不少朋友询问关于大数据方面的问题,比如什么是大数据开发啊,和大数据相关的技术是什么呢等问题,我们今天就浅谈一下大数据开发及和大数据相关的技术的问题. 浅谈大数据开发及和大数据相关的技术 大数据学习QQ群:716581014 首先,大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的信息资产. 那么和大数据相关的技术有哪些?

大数据开发及和大数据相关的技术

在现如今,随着互联网技术飞速的发展,目前有不少朋友询问关于大数据方面的问题,比如什么是大数据开发啊,和大数据相关的技术是什么呢等问题,我们今天就浅谈一下大数据开发及和大数据相关的技术的问题. 首先,大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的信息资产. 那么和大数据相关的技术有哪些? 1.云技术 大数据常和云计算联系到一起,因为实时的大型数据集分析需要分布式

大数据究竟是什么?大数据有哪些技术呢?

大数据究竟是什么?大数据有哪些技术呢?科多大数据来带你看看大数据的发展趋势是什么.今天的数据不是大,真正有意思的是数据变得在线了,这个恰恰是互联网的特点.""非互联网时期的产品,功能一定是它的价值,今天互联网的产品,数据一定是它的价值.""你千万不要想着拿数据去改进一个业务,这不是大数据.你一定是去做了一件以前做不了的事情."有人把数据比喻为蕴藏能量的煤矿.煤炭按照性质有焦煤.无烟煤.肥煤.贫煤等分类,而露天煤矿.深山煤矿的挖掘成本又不一样.与此类似,大数

领跑BI赛道!永洪科技荣登中国大数据产业创新百强

1月9日,在"2020中国大数据应用年会暨中国电子商会大数据委员会成立大会"上,<2019-2020年度中国大数据产业创新百强>榜单正式发布,百强企业覆盖了数据采集.数据存储.数据计算.数据中台.数据加工分析.数据可视化等大数据全产业生态.在数据分析与商业智能领域,永洪科技持续保持领先者地位. 大数据产业创新百强榜单基于饮鹿网的一手数据和赛智产业研究院前沿产业研究报告,结合业内产业专家的调研访谈,按照"创新性.高成长性.产业影响力.高盈利能力"等维度建立

云计算和大数据时代网络技术揭秘(十五)大数据网络

大数据网络设计要点 对大数据,Gartner的定义是:需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的信息资产. 维基百科的定义是:无法在可承受的时间范围内用常规软件工具进行捕捉.管理和处理的数据集合. 大数据的4V特点:Volume(大量).Velocity(高速).Variety(多样).Value(价值). 大数据的研究非常热门,也产生了很多理论和实践,本章不是探索大数据实现的技术原理,而是从一个典型的大数据模型Hadoop为例,重点 放在其对网络的要