获取网易全站热点前十及其点击量

import requests
from bs4 import BeautifulSoup
import bs4

ulist=[]#定义一个空列表

def getHTMLText(url):
    try:
        headers =  { ‘User-Agent‘: ‘5498‘}
        r = requests.get(url, timeout=30, headers=headers)#输入获取的url信息，输出是url的内容
        r.raise_for_status()               #用raise_for_status产生异常信息
        r.encoding = r.apparent_encoding  # 修改编码
        return r.text    #将网页的内容返回给程序的其他部分
    except:
        return ""       #出现错误，则返回空字符串

def fillList(ulist, html):
    soup = BeautifulSoup(html, "html.parser")
    for tr in soup.find(‘tbody‘).children:   #for语句查找tbody标签，并且将孩子children遍历
#isinstance对函数进行判断，检测tr标签的类型，如果tr不是bs4定义的Tag类型，
#将过滤掉（并且为了代码可以运行需要引入一个新的类型bs4）
        if isinstance(tr, bs4.element.Tag):
            tds = tr(‘td‘)    #将所有的td 标签存为一个列表类型
            ulist.append([tds[1].string, tds[2].string])

def printList(ulist, num):           #将ulist信息打印出来
    print("{:^6}\t{:^10}".format("            标题", "                         点击量"))
    #下面实现对其他信息的打印
    for i in range(num):
        u = ulist[i]
        print("{:^6}\t{:^10}".format(u[0], u[1]))

def main():
    # 新闻信息放到列表中
    uinfo = []
    url = "https://tophub.today/n/G2me35rvwj"
    # 将url转换成html
    html = getHTMLText(url)
    fillList(uinfo, html)
    printList(uinfo, 10)    

main()

main()

原文地址：https://www.cnblogs.com/L787979852/p/12539115.html

时间： 2024-10-08 12:52:04

获取网易全站热点前十及其点击量的相关文章

获取知乎热点前十

import requests from bs4 import BeautifulSoup import time import os import urllib #需要爬取的目标网页 link='https://www.zhihu.com/hot' #对网页进行解析 soup=BeautifulSoup(r.text,'lxml') #获取到热榜对应的那部分内容 title_list=soup.find_all('section',class_='HotItem') #循环爬取相关内容 for

爬取百度实时热点前十排行榜

import requests#导入相应库from bs4 import BeautifulSoupimport pandas as pdurl = 'http://top.baidu.com/buzz?b=1&c=513&fr=topbuzz_b341_c513'#要爬取的网址headers = {'User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/

排名前十的开源安全项目

搜寻安全相关的开源软件最好的地方显然是 GitHub.你可以使用该网站上的搜索功能来找到这些有用的工具,但是有一个地方可以让你找到那些安全方面最流行的项目,那就是 GitHub 的展示区,可能知道它的人不多. 从 2014 年开始,GitHub 展示区就会按照分类陈列这些最流行的项目.在展示区中,项目以其所获得的星标数排名,这个列表会不断更新当前最流行的项目.展示区包含的"安全"分类中包含了 24 个项目,这里我们列出了在 GitHub 上排名前十的安全项目. 1. osquery -

python统计前十出现最多的词

一.描述这是一道python面试题: "一个可读文件,有一万行,一行只有一个单词,单词可以重复的,求出这一万行中出现频繁次数最多的前10个单词" 二.思路先读取文件变为列表,再用集合去重得到一个参照的列表,逆排序取前10(最大即最多的的10个元素),再用参照列表中的每个元素从文件中去统计,把参照列表中的元素作为键,统计到的结果为值,放入字典,打印出来. 三.代码 #!/usr/bin/python #coding:utf-8 all_C = [] with open("w

全国高校学科评估：各专业排名前十的高校

全国高校学科评估:各专业排名前十的高校考试点考研2016-03-07 17:06:08考研资讯考研辅导研院信息阅读(33332)评论(2) 声明:本文由入驻搜狐公众平台的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场.举报文章来源于考试点转载请注明出处 2017考研已经逐渐提上日程,择校择专业也成为许多同学关心的头等大事.现下各种各种的高校排名不在少数,各式榜单很容易使人眼花缭乱.下面是教育部公布的各专业排名前十的高校,也是目前较为权威可信的高校专业评估,大家可以以此做

担保公司前十排名

希财网整理了2015担保公司的前十排名,其中,拔得头筹的长安保证担保公司.2015担保公司前十排名评价标准包括代偿承诺兑现性.风险控制.资金实力.强制公证等.以下是2015担保公司前十排名的详情. 1.长安保证担保公司长安保证担保公司于1998年7月成立,注册资本金95044.9682万元.长安保证担保公司以工程保证担保.质量保证担保为经营特色.自成立以来,先后承保了总投资近千亿元人民币的国家重点建设工程的保证担保业务. 2.中国投融资担保有限公司中国投融资担保有限公司于1993年经国务院批

融资担保公司前十排名

希财网小编整理了2015融资担保公司的前十排名,其中,拔得头筹的为中国投资担保有限公司,成立时间逾20年,累计担保总额达到了260亿元.以下是2015融资担保公司前十排名的详情. 1.中国投资担保有限公司中国投资担保有限公司于1993年12月4日成立,是国内首家以信用担保为主要业务的全国性专业担保机构.注册资本金目前已经增至35.21 亿元.在全国范围内开展贸易融资及履约.建设工程.财产保全.世行节能项目融资.海事担保等商业性担保业务.累计担保总额已达到260亿元. 2.深圳投资控股有限公司

linux分析apache日志获取最多访问的前10个IP

apache日志分析可以获得很多有用的信息,现在来试试最基本的,获取最多访问的前10个IP地址及访问次数. 既然是统计,那么awk是必不可少的,好用而高效. 命令如下: awk '{a[$1] += 1;} END {for (i in a) printf("%d %s\n", a[i], i);}' 日志文件 | sort -n | tail 首先用awk统计出来一个列表,然后用sort进行排序,最后用tail取最后的10个. 以上参数可以略作修改显示更多的数据,比如将tail加上-

11月TIOBE编程语言排行榜,OC已经掉出前十

Java 在 TIOBE 指数仍然持续上涨,现在已打败了 20%.因为 10 月底成功召开的 JavaOne 大会,它的受欢迎程度有可能进一步上升.目前 Java 和C两大语言和其余的包之间的差距现在超过 10%.本月前 50 排名上升幅度较大的是 OpenEdge ABL(从 19 上升至 38),VBScript(从 77 上升至 46)和 GO(从 65 上升至 48). TIOBE 编程语言社区排行榜是编程语言流行趋势的一个指标,每月更新,这份排行榜排名基于互联网上有经验的程序员. 课程