09 信息化领域热词分类分析及解释第三步将清洗完毕的热词添加百度百科解释

功能要求为：1，数据采集，定期从网络中爬取信息领域的相关热词

　　　　　　2，数据清洗：对热词信息进行数据清洗，并采用自动分类技术生成自动分类计数生成信息领域热词目录。

　　　　　　3，热词解释：针对每个热词名词自动添加中文解释（参照百度百科或维基百科）

　　　　　　4，热词引用：并对近期引用热词的文章或新闻进行标记，生成超链接目录，用户可以点击访问；

　　　　　　5，数据可视化展示：① 用字符云或热词图进行可视化展示；② 用关系图标识热词之间的紧密程度。
　　　　　　6，数据报告：可将所有热词目录和名词解释生成 WORD 版报告形式导出。

本次完成第三步的部分功能，针对每个热词名词自动添加中文解释，这里我选择的是使用百度百科来解释热词名词。

具体思路是：读取爬取的热词文件，按行读取，读取完毕后根据获得的line来确定搜索的关键词，将关键词变量结合百度百科的固定url生成需要的url地址

再运用xpath获取相应的位置的解释，输出即可。需要注意的是，要运用xpath的获取一个标签下的所有文本的知识点。

代码如下：

import requests
from lxml import etree

def climing(line):
    line1=line.replace(‘\n‘,‘‘)
    print(line1)
    url = "https://baike.baidu.com/item/"+str(line1)
    print(url)
    head = {
        ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36‘,
        ‘cookie‘:‘BAIDUID=AB4524A16BFAFC491C2D9D7D4CAE56D0:FG=1; BIDUPSID=AB4524A16BFAFC491C2D9D7D4CAE56D0; PSTM=1563684388; MCITY=-253%3A; BDUSS=jZnQkVhbnBIZkNuZXdYd21jMG9VcjdoanlRfmFaTjJ-T1lKVTVYREkxVWp2V2RlSVFBQUFBJCQAAAAAAAAAAAEAAACTSbM~Z3JlYXTL3tGpwOTS9AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAACMwQF4jMEBed; pcrightad9384=showed; H_PS_PSSID=1454_21120; delPer=0; PSINO=3; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; __yjsv5_shitong=1.0_7_a3331e3bd00d7cbd253c9e353f581eb2494f_300_1581332649909_58.243.250.219_d03e4deb; yjs_js_security_passport=069e28a2b81f7392e2f39969d08f61c07150cc18_1581332656_js; Hm_lvt_55b574651fcae74b0a9f1cf9c8d7c93a=1580800784,1581160267,1581268654,1581333414; BK_SEARCHLOG=%7B%22key%22%3A%5B%22%E7%96%AB%E6%83%85%22%2C%22%E6%95%B0%E6%8D%AE%22%2C%22%E9%9D%9E%E6%AD%A3%E5%BC%8F%E6%B2%9F%E9%80%9A%22%2C%22mapper%22%5D%7D; Hm_lpvt_55b574651fcae74b0a9f1cf9c8d7c93a=1581334123‘
    }
    r = requests.get(url,headers = head)
    print(r.status_code)
    html = r.content.decode("utf-8")
    #print(html)
    html1 = etree.HTML(html)
    #print(html1)
    content1 = html1.xpath(‘//div[@class="lemma-summary"]‘)
    #print(content1[0])
    if len(content1)==0:
        #custom_dot  para-list list-paddingleft-1
        content1 =html1.xpath(‘string(//ul[@class="custom_dot  para-list list-paddingleft-1"])‘)
        print(content1)
        if len(content1)==0:
            pring(‘未找到解释‘)
            content1 = ‘未找到解释‘
    else:
        content2 =content1[0].xpath (‘string(.)‘).replace(‘&nbsp‘,‘‘).replace(‘\n‘,‘‘)

        print(content2)
if __name__ == ‘__main__‘:
    for line in open("words.txt",encoding=‘utf-8‘):
        #print(line, end = ‘‘)
        climing(line)

运行截图（部分）：

原文地址：https://www.cnblogs.com/xcl666/p/12293342.html

时间： 2024-11-08 23:22:55

09 信息化领域热词分类分析及解释第三步将清洗完毕的热词添加百度百科解释的相关文章

11 信息化领域热词分类分析及解释第五步按目录爬取热词

功能要求为:1,数据采集,定期从网络中爬取信息领域的相关热词 2,数据清洗:对热词信息进行数据清洗,并采用自动分类技术生成自动分类计数生成信息领域热词目录. 3,热词解释:针对每个热词名词自动添加中文解释(参照百度百科或维基百科) 4,热词引用:并对近期引用热词的文章或新闻进行标记,生成超链接目录,用户可以点击访问: 5,数据可视化展示:① 用字符云或热词图进行可视化展示:② 用关系图标识热词之间的紧密程度. 6,数据报告:可将所有热词目录和名词解释生成 WORD 版报告形式导出. 这次完成了按

08 信息化领域热词分类分析及解释第二步将爬取的数据使用jieba分词处理并清洗

直接上代码: import jieba import pandas as pd import re from collections import Counter if __name__=='__main__': filehandle = open("news.txt", "r",encoding='utf-8'); mystr = filehandle.read() seg_list = jieba.cut(mystr) # 默认是精确模式 print(seg_l

Python 爬取热词并进行分类数据分析-[热词分类+目录生成+关系演示+报告生成]

日期:2020.02.04 博客期:143 星期二 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 如下图,我已经解决的需求是标黄的部分,剩余需求就只有热词分类.目录生成.热词关系图展示.数据报告导出四部分了,这些需求是最紧要完成的,呼~撸起袖子加油干! 1.热词分类 2.热词目录生成 3.热词关系图展示 4.Word模板报告撰写 5.分析格式,制作自动生成报告的 Java 程序 [今日中午12:00更新进度] 原文地址:https://www.cnblo

用词云图分析一带一路峰会哪3个词说的最多

前言最近几日关注度最高的新闻莫过于一带一路峰会相关的消息,会议结束后,一带一路峰会联合公告已经公布出来了.本文通过词云分析,了解本次公告以及习大大在峰会开幕式上主要都讲了哪些关键内容. 1 一带一路峰会联合公告词云图 5月17日公布的一带一路峰会联合公告的词云分析结果图,如下: 词云图上,字体越大表示该词语在文件中出现的次数越多. 从上图可以看出,出现次数最多的3个词语为“合作”.“我们”以及“加强” ,基本可以看出,本次峰会是一个新的起点,今后需要做的事情还很多,需要各方务实合作,哈. 2

【转】class卸载、热替换和Tomcat的热部署的分析

这篇文章主要是分析Tomcat中关于热部署和JSP更新替换的原理,在此之前先介绍class的热替换和class的卸载的原理. 一 class的热替换ClassLoader中重要的方法 loadClass ClassLoader.loadClass(...) 是ClassLoader的入口点.当一个类没有指明用什么加载器加载的时候,JVM默认采用AppClassLoader加载器加载没有加载过的class,调用的方法的入口就是loadClass(...).如果一个class被自定义的ClassLo

（4.2.32）各大热补丁方案分析和比较

选自: [腾讯bugly干货分享]微信Android热补丁实践演进之路各大热补丁方案分析和比较继插件化后,热补丁技术在2015年开始爆发,目前已经是非常热门的Android开发技术.其中比较著名的有淘宝的Dexposed.支付宝的AndFix以及QZone的classloader超级热补丁方案. 为什么需要热补丁热补丁:让应用能够在无需重新安装的情况实现更新,帮助应用快速建立动态修复能力从上面的定义来看,热补丁节省Android大量应用市场发布的时间.同时用户也无需重新安装,只要上线就能

数学建模：2.监督学习--分类分析- KNN最邻近分类算法

1.分类分析分类(Classification)指的是从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类的分析方法. 分类问题的应用场景:分类问题是用于将事物打上一个标签,通常结果为离散值.例如判断一副图片上的动物是一只猫还是一只狗,分类通常是建立在回归之上. 本文主要讲基本的分类方法 ----- KNN最邻近分类算法 KNN最邻近分类算法 ,简称KNN,最简单的机器学习算法之一. 核心逻辑:在距离空间里,如果一个样本的最接近的K个邻

【python数据挖掘】使用词云分析来分析豆瓣影评数据

概述: 制作词云的步骤: 1.从文件中读取数据 2.根据数据追加在一个字符串里面,然后用jieba分词器将评论分开 3.设置WordCloud词云参数 4.保存最后的结果数据:使用爬取的豆瓣影评数据第一步:引入依赖库 # 1.表格库 import csv # 2.jieba分词器 import jieba # 3.算法运算库 import numpy # 4.图像库 from PIL import Image # 5.词云库 from wordcloud import WordCloud 第

【原】Android热更新开源项目Tinker源码解析系列之二:资源文件热更新

上一篇文章介绍了Dex文件的热更新流程,本文将会分析Tinker中对资源文件的热更新流程. 同Dex,资源文件的热更新同样包括三个部分:资源补丁生成,资源补丁合成及资源补丁加载. 本系列将从以下三个方面对Tinker进行源码解析: Android热更新开源项目Tinker源码解析系列之一:Dex热更新 Android热更新开源项目Tinker源码解析系列之二:资源热更新 Android热更新开源项目Tinker源码解析系类之三:so热更新转载请标明本文来源:http://www.cnblogs

09 信息化领域热词分类分析及解释 第三步 将清洗完毕的热词添加百度百科解释

09 信息化领域热词分类分析及解释 第三步 将清洗完毕的热词添加百度百科解释的相关文章

09 信息化领域热词分类分析及解释第三步将清洗完毕的热词添加百度百科解释

09 信息化领域热词分类分析及解释第三步将清洗完毕的热词添加百度百科解释的相关文章