第八周打算对正规新闻进行提取时间、地点、人物、话题、动作,之后进行关联图可视化展示。
话题的提取打算采用精确提取关键字接近话题的方法,主要参考神策杯2018的赛题流程进行提取。
其他内容的提取继续进行优化,争取精准一点。
关联图初步打算采用较为简单的关联图。
如果时间合适,打算继续接着整体流程:并行爬虫、清洗、切割、入库;全网关联、内容分析展示、话题追踪。
原文地址:https://www.cnblogs.com/mm20/p/11746202.html
时间: 2024-10-09 15:08:33