python-最好大学排名

# -*- coding: utf-8 -*-
"""
Created on Mon Apr 3 09:37:52 2017

@author: zuihaodaxuepaiming
"""
import bs4
import requests
from bs4 import BeautifulSoup

def getHtmlText(url):
try:
r = requests.get(url, timeout = 30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return ‘‘

def fillUnivText(html,uinfo):
soup = BeautifulSoup(html,"html.parser")
for tr in soup.find(‘tbody‘).children:
if isinstance(tr, bs4.element.Tag):
tds = tr(‘td‘)
uinfo.append([tds[0].string, tds[1].string, tds[3].string])

def printUnivText(uinfo,num):
# tplt = "{}\t{}\t{2:^10}"
print("{:^3}\t{:^3}\t{:^3}".format("排名排名","名称","总分"))
for i in range(num):
u = uinfo[i]
print("{:^5}\t{:^10}\t{:^10}".format(u[0],u[1],u[2]))

def main():
uinfo = []
url = ("http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html")
r = getHtmlText(url)
fillUnivText(r,uinfo)
printUnivText(uinfo,20)

main()

--------------------

10:56:07
‘{0:{3}}‘ 或者 {:^3}
10:56:30
{0:3}也可以
10:56:56
为什么要从0开始？
10:57:28
就是不能{1：^3} , python文档里面没有这种切片格式
10:59:03
{0：3}意思是接着前面的切取第0、1、2个共3*2个位值是吗？
@大大的
10:59:12
^符号就是从头开始，你又制定切片从1开始不矛盾吗？
10:59:14
类似于列表或字符串的切片，只是切空格符切成你想要的长度再通过format填进去（我是这么理解的，不知道对不对。）
切片、中英文对齐问题

待解决==占坑

时间： 2024-10-19 23:34:48

python-最好大学排名的相关文章

Python爬虫——定向爬取“中国大学排名网”

内容整理自中国大学MOOC——北京理工大学-蒿天-Python网络爬虫与信息提取相关实战章节我们预爬取的url如下 http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html 网页节选在浏览器中读取网页源代码可以发现表格数据信息是直接写入HTML页面信息中,所以我们可以直接采取定向爬虫操作. 我们的整体设计思路如下: 1.从网络上获取大学排名网络内容 2.提取网页内容中信息到合适的数据结构 3.利用数据结构展示并输出结果仔细观察可以发现

Python爬虫--2019大学排名数据抓取

Python爬虫--2019大学排名数据抓取准备工作输入:大学排名URL连接输出:大学排名信息屏幕输出所需要用到的库:requests,bs4 思路获取网页信息提取网页中的内容并放到数据结构中利用数据结构展示并输出结果程序设计定义函数getHTMLText()获取网页信息定义函数UnivList()放入数据结构定义函数printUnivList()输出到屏幕总体而言: 写出需要自定义的函数,制作出总体的框架写出主函数框架,实现功能最后调用函数步骤查看url源代码

python爬虫入门---第二篇：获取2019年中国大学排名

我们需要爬取的网站:最好大学网我们需要爬取的内容即为该网页中的表格部分: 该部分的html关键代码为: 其中整个表的标签为<tbody>标签,每行的标签为<tr>标签,每行中的每个单元格的标签为<td>标签,而我们所需的内容即为每个单元格中的内容. 因此编写程序的大概思路就是先找到整个表格的<tbody>标签,再遍历<tbody>标签下的所有<tr>标签,最后遍历<tr>标签下的所有<td>标签, 我们用二维

python,网络爬虫完整示例代码－－抓取中国最好大学排名网站信息，并进行输出显示

import requests,bs4 from bs4 import BeautifulSoup def getHTMLText(url): try: r=requests.get(url) r.raise_for_status() r.encoding=r.apparent_encoding return r.text except: print("request failed") def getObjectData(soup): li=[] for tr in soup.find

自己设计大学排名-数据库实践

1.有关MongoDB库的学习报告 Python有很多库,现在我们来学习MongoDB库 (1)MongoDB的概念 MongoDB基本概念是文档.集合.数据库.如下表: SQL术语/概念 MongoDB术语/概念解释/说明 database database 数据库 table collection 数据库表/集合 row document 数据记录行/文档 column field 数据字段/域 index index 索引 table joins 表连接,MongoDB不支持 prima

爬取中国大学排名

我们需要爬取2019年中国内地的大学排名,这里以物理学科为例,http://www.zuihaodaxue.cn/BCSR/wulixue2019.html. 这个页面比较简单爬取难度不大,这里我们使用python的requests,bs4,BeautifulSoup库,关于BeatutifulSoup库的文档可以在这个网站查询https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/ 先定义一个get函数来爬取相关信息 def get(url): tr

spark学习进度7-Python爬取大学排名实例

利用pc编写python爬取大学排名的数据,如图: import requests from bs4 import BeautifulSoup import bs4 def getHTMLText(url): try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding return r.text except: return "" def fillUnivLis

美国大学排名之本科中最用功的学校top15

美国大学排名之本科中最用功的学校top15 威久留学2016-07-29 13:15:59美国留学留学新闻留学选校阅读(490)评论(1) 去美国留学的同学可能都知道USnews美国大学排名,但是大家听过还有最用功学校排名吗?下面我们随威久留学专家来看看美国大学排名之本科中最用功的学校有哪些吧! 1.麻省理工学院Massachusetts Institute of Technology 关键词:艰辛.紧张.神奇.充实地理位置:Cambridge, Massachusetts 得分: 100

也谈大学排名--为了那些即将伤透脑筋报志愿的家长

也谈大学排名--为了那些即将伤透脑筋报志愿的家长

大学排名爬取

逻辑思路是什么? 1. 获取页面 2. 处理页面,提取信息 3. 格式输出先走面向过程编程: 1. 要定义3个函数,对应以上三个过程 2. 在__main__函数中传入参数,并执行以上三个过程 #!/usr/bin/python3 import bs4 import requests from bs4 import BeautifulSoup def getHTMLText(url): '''获取页面''' try: r = requests.get(url, timeout=30) r.ra

猜你喜欢

作业一：自我介绍

· 兴趣.爱好,未来的职业意向:程序设计,网页后端,意向:全栈工程师.架构师 · 熟悉的编程语言,以前曾编写过的软件:c/python/php,曾写过歌会投票系统,影视资源分享系统,考勤系统 · 估算 ...

结构化方法和面向对象方法的比较

结构化方法和面向对象方法的比较结构化方法 1概述结构化方法(SD方法)是一种传统的软件开发方法,它是由结构化分析.结构化设计和结构化程序设计三部分有机组合而成的.它的基本思想:把一个 ...

Android自定义控件之自定义组合控件（三）

前言: 前两篇介绍了自定义控件的基础原理Android自定义控件之基本原理(一).自定义属性Android自定义控件之自定义属性(二).今天重点介绍一下如何通过自定义组合控件来提高布局的复用,降低开发 ...

第三篇：属性_第一节：控件属性与属性的持久化

一.控件属性首先,属性是各种.net语言的基本语法.而我们常说的控件属性是指控件类中用public修饰的属性. 见Lable的Text属性: [Bindable(true), DefaultValu ...

bootstrap 实现对话框编辑信息

1.对话框代码 <div id="student-edit-modal-form" class="modal fade" aria-hidden=&quo ...

深入浅出MFC——MFC多线程程序设计（七）

1. 从操作系统层面看线程——三个观念:模块(MDB).进程(PDB).线程(TDB) 2. “执行事实”发生在线程身上,而不在进程身上.也就是说,CPU调度单位是线程而非进程.调度器据以排序的,是每 ...

JDBC/连接池连接数据库

import java.io.FileInputStream; import java.sql.Connection; import java.sql.DriverManager; import ja ...

关于渲染流水线的几何变化

看了很多资料,总算是把一个流水线中的几何变化所涉及到的坐标系统和坐标含义搞清楚了. 一个流水线中包含五个坐标系统:物体(模型)坐标系统,世界坐标系统,摄像机坐标系统,裁剪坐标系统,屏幕坐标系统. 对 ...

nginx的源码编译及相关文件配置

Nginx 安装 Ngninx与apache的比较 1.轻量级,同样起web服务,比apache占用更少的内存及资源 2.抗并发,nginx处理请求是异步非阻塞的,而apache是同步阻塞型的,在高并 ...

安装 http://www.sublimetext.com/3 常用操作 Control + Command + F 切换全屏模式 Command + O 打开文件或文件夹 Command + p ...

Socket请求和Http请求的各自特点、区别及适用场景

Socket实现服务器与客户端之间的物理连接,并进行数据传输.主要有TCP/UDP两个协议.Socket处于网络协议的传输层. TCP:传输控制协议,面向连接的的协议,稳定可靠.当客户和服务器彼此交换 ...

Python：关于字典的相关操作

>>> people = {"Tom":170, "Jack":175, "Kite":160, "White& ...

iOS 改变字母的大小写

使用 lowercaseString,uppercaseString - (void)test{ NSString *testString = @"Hello World"; // ...

OPW-00029 (passwordfile in Oracle Database 12c Release 2)

APPLIES TO: Oracle Database - Enterprise Edition - Version 12.2.0.1 and laterInformation in this doc ...

网卡配置文件   网卡别名   网卡bond

网卡配置文件:(红色选项为必有选项) IP.MASK.GW.DNS相关配置文件:/etc/sysconfig/network-scripts/ifcfg-IFACE 路由相关的配置文件: /etc/s ...

Vs2010 配置驱动的开发环境

我已被用来VS2010开发环境,之前曾经与vs2010驱动的开发环境.重装系统,一次又一次的配置,找了好几篇文章,配置没有成功,在配置阶段突然成功了,直接把原来的驱动程序的配置文件将能够接管使用. 当 ...

大数据架构的典型方法和方式

大量的IT组织如今都已自己的数据架构,因为都依赖于传统的数据架构.处理多数据源已不再新鲜:这些架构已经连接了多维度的数据源例如 CRM 系统,文件系统和其他商用系统.主要运行的关系型数据库有 Orac ...

图像卷积与滤波的一些知识点

图像卷积与滤波的一些知识点 [email protected] http://blog.csdn.net/zouxy09 之前在学习CNN的时候,有对卷积进行一些学习和整理,后来就烂尾了,现在稍微整理 ...

JS懒加载

4.如何使用js懒加载图片 a.懒加载图片是基于jquery.js的,所以: <script src="jquery.js" type="text/javascri ...

hdu3665-Seaside(SPFA,dijkstra,floyd)

Seaside Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) Total Su ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.