到目前为止,主要完成了地域维度标准化和关键值的提取。
地域维度标准化主要是根据表中联系单位地址一栏给出的详细地区数据,进行字符串分割得到想要的地域维度。
联系单位地址栏原始数据:
我们要把这些地域信息规范到县区一级,就可以用java中的split函数进行分割,就可以得到标准地域维度。
接下来就是行政编码,我们需要从网络上寻找一个国家标准的行政编码表,然后对应标准维度进行匹配。
2.关键字的提取:
题目要求在每个表的项目简介字段中提取相应的关键字。经过观察,这些字段的描述内容都是中文,所以关键字的提取需要机器学习和自然语言学习相结合,通过
分析语法和结构,才可以得出关键字。
在这里给大家推荐一个提取关键字非常简单的库。
库函数提供两种提取关键字的办法,经过测试,我觉得TextRank的提取结果更接近我自己认为的关键字。但是对于数量不是很多的信息,提取结果大同小异,都很方便。
原文地址:https://www.cnblogs.com/Aduorisk/p/12495876.html
时间: 2024-11-09 03:01:00