定向网页爬虫

 1 import requests
 2 from bs4 import BeautifulSoup
 3 import bs4
 4
 5 #爬取定向网页的内容
 6 def getHTMLText(url):
 7     try:
 8         r = requests.get(url, timeout = 30)
 9         r.raise_for_status()
10         r.encoding = r.apparent_encoding
11         return r.text
12     except:
13         print(‘error‘)
14
15
16 def fillUnivList(ulist, html):
17     soup = BeautifulSoup(html, "html.parser")
18     for tr in soup.find(‘tbody‘).children: #遍历tbody下的子标签
19         if isinstance(tr, bs4.element.Tag): #是标签类型,非字符串
20             tds = tr(‘td‘) #简写,输出列表
21             ulist.append([tds[0].string, tds[1].string, tds[2].string])
22
23
24 def printUnivList(ulist, num):
25     tplt = "{0:^10}\t{1:{3}^10}\t{2:^10}" #采用宽度不够,中文空格填充,保证中文对齐
26     print(tplt.format("排名","学校名称","省份", chr(12288)))
27     for i in range(num):
28         u=ulist[i]
29         print(tplt.format(u[0],u[1],u[2],chr(12288)))
30
31 def main():
32     uinfo = []
33     url = ‘http://www.zuihaodaxue.com/zuihaodaxuepaiming2016.html‘
34     html = getHTMLText(url)
35     fillUnivList(uinfo, html)
36     printUnivList(uinfo, 20)
37
38 main()
时间: 2024-11-05 04:01:50

定向网页爬虫的相关文章

定向数据爬虫和搜索引擎(Directional Spider)设计文档

  定向数据网络爬虫和搜索引擎项目设计 (新闻数据抓取.分析.加工.检索) 版本号:            v 1.0.0 编写人:          张  文  豪 日  期:       2014年6月10日 文档说明:这个文档还在编写之中,文章中很多写在“保留”二字的不是每月东西,而是没有写.虽然没有具体实现,但是我觉得我把我的经验和思考都写进去了.虽然对于读者来说这个文档相当粗糙,但是是我一个很看重的东西.如果真的有人愿意认真阅读这篇文章,我会很开心和大家交流探讨,欢迎留言和联系我. [

定向数据爬虫和搜索引擎(Directional Spider)设计(一) —— 元素分析

Insert title here 定向数据爬虫和搜索引擎(Directional Spider)设计(一) -- 元素分析 前言 页面定向数据抓取目的就是尽可能的抓取在互联网中获取到你感兴趣的数据.因为是定向抓取,同时需要保证对抓取的数据进行数据加工处理,做到对应的数据规范,方便后期检索. 简单的说这个的数据基础就是通信领域当中信息获取和信号分析.本文从结构上分析我所理解的做搜索引擎需要涉及到的数据和关系. 对应的程序设计也需要以此为基础进行设计.程序设计在今后会讲到.同时本文会设计到基本的搜

网页抓取:PHP实现网页爬虫方式小结

来源:http://www.ido321.com/1158.html 抓取某一个网页中的内容,需要对DOM树进行解析,找到指定节点后,再抓取我们需要的内容,过程有点繁琐.LZ总结了几种常用的.易于实现的网页抓取方式,如果熟悉JQuery选择器,这几种框架会相当简单. 一.Ganon 项目地址: http://code.google.com/p/ganon/ 文档: http://code.google.com/p/ganon/w/list 测试:抓取我的网站首页所有class属性值是focus的

Python天气预报采集器 python网页爬虫

这个天气预报采集是从中国天气网提取广东省内主要城市的天气并回显.本来是打算采集腾讯天气的,但是貌似它的数据是用js写上去还是什么的,得到的html文本中不包含数据,所以就算了 爬虫简单说来包括两个步骤:获得网页文本.过滤得到数据. 1.获得html文本.  python在获取html方面十分方便,寥寥数行代码就可以实现需要的功能. def getHtml(url): page = urllib.urlopen(url) html = page.read() page.close() return

网页爬虫--scrapy入门

本篇从实际出发,展示如何用网页爬虫.并介绍一个流行的爬虫框架~ 1. 网页爬虫的过程 所谓网页爬虫,就是模拟浏览器的行为访问网站,从而获得网页信息的程序.正因为是程序,所以获得网页的速度可以轻易超过单身多年的手速:).通常适用于需要大量网页信息的场合. 爬取网页的流程为:访问初始url -> 获得返回的网页,从这个网页中得到新的url并放入待爬队列 -> 访问新的url-> ...依次循环.整体上来看就是一个广度优先的过程,当然,新的url也不一定非要从返回的网页中获得. 一个简单的网页

正则表达式--网页爬虫

1 /* 2 * 网页爬虫:其实就一个程序用于在互联网中获取符合指定规则的数据. 3 * 4 * 爬取邮箱地址. 5 * 6 */ 7 public class RegexTest2 { 8 9 /** 10 * @param args 11 * @throws IOException 12 */ 13 public static void main(String[] args) throws IOException { 14 15 16 List<String> list = getMail

Python 网页爬虫

一.要解决的问题 需要解决的是根据自定义的关键词自动搜索google学术,解析搜索到的网页,下载所有相应的论文的PDF链接.这里我们采用Python来实现, 二.Python入门 python 自动缩进:shift+table整块向左缩进,table向右缩进,在修改整块代码时很有用比如将函数变成单独执行时. 了解python的变量,包,函数定义等 三.网页知识 3.1 浏览网页的过程 打开网页的过程其实就是浏览器作为一个浏览的“客户端”,向服务器端发送了 一次请求,把服务器端的文件“抓”到本地,

JAVA之旅(三十四)——自定义服务端,URLConnection,正则表达式特点,匹配,切割,替换,获取,网页爬虫

JAVA之旅(三十四)--自定义服务端,URLConnection,正则表达式特点,匹配,切割,替换,获取,网页爬虫 我们接着来说网络编程,TCP 一.自定义服务端 我们直接写一个服务端,让本机去连接,可以看到什么样的效果 package com.lgl.socket; import java.io.IOException; import java.io.PrintWriter; import java.net.ServerSocket; import java.net.Socket; publ

cURL 学习笔记与总结(2)网页爬虫、天气预报

例1.一个简单的 curl 获取百度 html 的爬虫程序(crawler): spider.php <?php /* 获取百度html的简单网页爬虫 */ $curl = curl_init('http://www.baidu.com'); //resource(2, curl) curl_exec($curl); curl_close($curl); 访问该页面: 例2.下载一个网页(百度)并把内容中的百度替换成'PHP'之后输出 <?php /* 下载一个网页(百度)并把内容中的百度替换