Python爬虫实战七之计算大学本学期绩点

大家好,本次为大家带来的项目是计算大学本学期绩点。首先说明的是,博主来自山东大学,有属于个人的学生成绩管理系统,需要学号密码才可以登录,不过可能广大读者没有这个学号密码,不能实际进行操作,所以最主要的还是获取它的原理。最主要的是了解cookie的相关操作。

本篇目标

1.模拟登录学生成绩管理系统

2.抓取本学期成绩界面

3.计算打印本学期成绩

1.URL的获取

恩,博主来自山东大学~

先贴一个URL,让大家知道我们学校学生信息系统的网站构架,主页是 http://jwxt.sdu.edu.cn:7890/zhxt_bks/zhxt_bks.html,山东大学学生个人信息系统,进去之后,Oh不,他竟然用了frame,一个多么古老的而又任性的写法,真是惊出一身冷汗~

算了,就算他是frame又能拿我怎么样?我们点到登录界面,审查一下元素,先看看登录界面的URL是怎样的?

恩,看到了右侧的frame名称,src=”xk_login.html”,可以分析出完整的登录界面的网址为 http://jwxt.sdu.edu.cn:7890/zhxt_bks/xk_login.html,点进去看看,真是棒棒哒,他喵的竟然是清华大学选课系统,醉了,你说你抄袭就抄袭吧,改改名字也不错啊~

算了,就不和他计较了。现在,我们登录一下,用浏览器监听网络。

我用的是猎豹浏览器,审查元素时会有一个网络的选项,如果大家用的Chrome,也有相对应的功能,Firefox需要装插件HttpFox,同样可以实现。

这个网络监听功能可以监听表单的传送以及请求头,响应头等等的信息。截个图看一下,恩,我偷偷把密码隐藏了,你看不到~

大家看到的是登录之后出现的信息以及NetWork监听,显示了hearders的详细信息。

最主要的内容,我们可以发现有一个表单提交的过程,提交方式为POST,两个参数分别为stuid和pwd。

请求的URL为 http://jwxt.sdu.edu.cn:7890/pls/wwwbks/bks_login2.login,没错,找到表单数据和目标地址就是这么简单。

在这里注意,刚才的 http://jwxt.sdu.edu.cn:7890/zhxt_bks/xk_login.html 只是登录界面的地址,刚刚得到的这个地址才是登录索要提交到的真正的URL。希望大家这里不要混淆。

不知道山大这个系统有没有做headers的检查,我们先不管这么多,先尝试一下模拟登录并保存Cookie。

2.模拟登录

好,通过以上信息,我们已经找到了登录的目标地址为 http://jwxt.sdu.edu.cn:7890/pls/wwwbks/bks_login2.login

有一个表单提交到这个URL,表单的两个内容分别为stuid和pwd,学号和密码,没有其他的隐藏信息,提交方式为POST。

好,现在我们首先构造以下代码来完成登录。看看会不会获取到登录之后的提示页面。

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

__author__ = ‘CQC‘

# -*- coding:utf-8 -*-

import urllib

import urllib2

import cookielib

import re

#山东大学绩点运算

class SDU:

def __init__(self):

self.loginUrl = ‘http://jwxt.sdu.edu.cn:7890/pls/wwwbks/bks_login2.login‘

self.cookies = cookielib.CookieJar()

self.postdata = urllib.urlencode({

‘stuid‘:‘201200131012‘,

‘pwd‘:‘xxxxxx‘

})

self.opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(self.cookies))

def getPage(self):

request  = urllib2.Request(

url = self.loginUrl,

data = self.postdata)

result = self.opener.open(request)

#打印登录内容

print result.read().decode(‘gbk‘)

sdu = SDU()

sdu.getPage()

测试一下,竟然成功了,山大这网竟然没有做headers检查,很顺利就登录进去了。

说明一下,在这里我们利用了前面所说的cookie,用到了CookieJar这个对象来保存cookies,另外通过构建opener,利用open方法实现了登录。如果大家觉得这里有疑惑,请看 Python爬虫入门六之Cookie的使用,这篇文章说得比较详细。

好,我们看一下运行结果

酸爽啊,接下来我们只要再获取到本学期成绩界面然后把成绩抓取出来就好了。

3.抓取本学期成绩

让我们先在浏览器中找到本学期成绩界面,点击左边的本学期成绩。

重新审查元素,你会发现这个frame的src还是没有变,仍然是xk_login.html,引起这个页面变化的原因是在左边的本学期成绩这个超链接设置了一个目标frame,所以,那个页面就显示在右侧了。

所以,让我们再审查一下本学期成绩这个超链接的内容是什么~

恩,找到它了,<a href=”/pls/wwwbks/bkscjcx.curscopre” target=”w_right”>本学期成绩</a>

那么,完整的URL就是 http://jwxt.sdu.edu.cn:7890/pls/wwwbks/bkscjcx.curscopre,好,URL已经找到了,我们继续完善一下代码,获取这个页面。

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

__author__ = ‘CQC‘

# -*- coding:utf-8 -*-

import urllib

import urllib2

import cookielib

import re

#山东大学绩点运算

class SDU:

def __init__(self):

#登录URL

self.loginUrl = ‘http://jwxt.sdu.edu.cn:7890/pls/wwwbks/bks_login2.login‘

#本学期成绩URL

self.gradeUrl = ‘http://jwxt.sdu.edu.cn:7890/pls/wwwbks/bkscjcx.curscopre‘

self.cookies = cookielib.CookieJar()

self.postdata = urllib.urlencode({

‘stuid‘:‘201200131012‘,

‘pwd‘:‘xxxxxx‘

})

#构建opener

self.opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(self.cookies))

#获取本学期成绩页面

def getPage(self):

request  = urllib2.Request(

url = self.loginUrl,

data = self.postdata)

result = self.opener.open(request)

result = self.opener.open(self.gradeUrl)

#打印登录内容

print result.read().decode(‘gbk‘)

sdu = SDU()

sdu.getPage()

上面的代码,我们最主要的是增加了

1

result = self.opener.open(self.gradeUrl)

这句代码,用原来的opener 访问一个本学期成绩的URL即可。运行结果如下

恩,本学期成绩的页面已经被我们抓取下来了,接下来用正则表达式提取一下,然后计算学分即可

4.抓取有效信息

接下来我们就把页面内容提取一下,最主要的便是学分以及分数了。

平均绩点 = ∑(每科学分*每科分数)/总学分

所以我们把每科的学分以及分数抓取下来就好了,对于有些课打了良好或者优秀等级的,我们不进行抓取。

我们可以发现每一科都是TR标签,然后是一系列的td标签

1

2

3

4

5

6

7

8

9

10

<TR>

<td bgcolor="#EAE2F3"><p align="center"><INPUT TYPE="checkbox" NAME="p_pm" VALUE="013320131012015011294 面向对象技术"></p></td>

<td bgcolor="#EAE2F3"><p align="center">0133201310</p></td>

<td bgcolor="#EAE2F3"><p align="center">面向对象技术</p></td>

<td bgcolor="#EAE2F3"><p align="center">1</p></td>

<td bgcolor="#EAE2F3"><p align="center">2.5</p></td>

<td bgcolor="#EAE2F3"><p align="center">20150112</p></td>

<td bgcolor="#EAE2F3"><p align="center">94</p></td>

<td bgcolor="#EAE2F3"><p align="center">必修</p></td>

</TR>

我们用下面的正则表达式进行提取即可,部分代码如下

1

2

3

4

5

page = self.getPage()

myItems = re.findall(‘<TR>.*?<p.*?<p.*?<p.*?<p.*?<p.*?>(.*?)</p>.*?<p.*?<p.*?>(.*?)</p>.*?</TR>‘,page,re.S)

for item in myItems:

self.credit.append(item[0].encode(‘gbk‘))

self.grades.append(item[1].encode(‘gbk‘))

主要利用了findall方法,这个方法在此就不多介绍了,前面我们已经用过多次了。

得到的学分和分数我们都用列表list进行存储,所以用了 append 方法,每获取到一个信息就把它加进去。

5.整理计算最后绩点

恩,像上面那样把学分绩点都保存到列表list中了,所以我们最后用一个公式来计算学分绩点就好了,最后整理后的代码如下:

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

# -*- coding: utf-8 -*-

import urllib

import urllib2

import cookielib

import re

import string

#绩点运算

class SDU:

#类的初始化

def __init__(self):

#登录URL

self.loginUrl = ‘http://jwxt.sdu.edu.cn:7890/pls/wwwbks/bks_login2.login‘

#成绩URL

self.gradeUrl = ‘http://jwxt.sdu.edu.cn:7890/pls/wwwbks/bkscjcx.curscopre‘

#CookieJar对象

self.cookies = cookielib.CookieJar()

#表单数据

self.postdata = urllib.urlencode({

‘stuid‘:‘201200131012‘,

‘pwd‘:‘xxxxx‘

})

#构建opener

self.opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(self.cookies))

#学分list

self.credit = []

#成绩list

self.grades = []

def getPage(self):

req  = urllib2.Request(

url = self.loginUrl,

data = self.postdata)

result = self.opener.open(req)

result = self.opener.open(self.gradeUrl)

#返回本学期成绩页面

return result.read().decode(‘gbk‘)

def getGrades(self):

#获得本学期成绩页面

page = self.getPage()

#正则匹配

myItems = re.findall(‘<TR>.*?<p.*?<p.*?<p.*?<p.*?<p.*?>(.*?)</p>.*?<p.*?<p.*?>(.*?)</p>.*?</TR>‘,page,re.S)

for item in myItems:

self.credit.append(item[0].encode(‘gbk‘))

self.grades.append(item[1].encode(‘gbk‘))

self.getGrade()

def getGrade(self):

#计算总绩点

sum = 0.0

weight = 0.0

for i in range(len(self.credit)):

if(self.grades[i].isdigit()):

sum += string.atof(self.credit[i])*string.atof(self.grades[i])

weight += string.atof(self.credit[i])

print u"本学期绩点为:",sum/weight

sdu = SDU()

sdu.getGrades()

好,最后就会打印输出本学期绩点是多少,小伙伴们最主要的了解上面的编程思路就好。

最主要的内容就是Cookie的使用,模拟登录的功能。

本文思路参考来源:汪海的爬虫

希望小伙伴们加油,加深一下理解。

转载:静觅 ? Python爬虫实战七之计算大学本学期绩点

时间: 2024-10-10 07:30:21

Python爬虫实战七之计算大学本学期绩点的相关文章

Python爬虫入门七之正则表达式

在前面我们已经搞定了怎样获取页面的内容,不过还差一步,这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢?下面就开始介绍一个十分强大的工具,正则表达式! 1.了解正则表达式 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符.及这些特定字符的组合,组成一个"规则字符串",这个"规则字符串"用来表达对字符串的一种过滤逻辑. 正则表达式是用来匹配字符串非常强大的工具,在其他编程语言中同样有正则表达式的概念,Python同样不例外,利用了正则表达式,我

Python爬虫实战(2):爬取京东商品列表

1,引言 在上一篇<Python爬虫实战:爬取Drupal论坛帖子列表>,爬取了一个用Drupal做的论坛,是静态页面,抓取比较容易,即使直接解析html源文件都可以抓取到需要的内容.相反,JavaScript实现的动态网页内容,无法从html源代码抓取需要的内容,必须先执行JavaScript. 我们在<Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容>一文已经成功检验了动态网页内容的抓取方法,本文将实验程序进行改写,使用开源Python爬虫

Python爬虫实战四之抓取淘宝MM照片

福利啊福利,本次为大家带来的项目是抓取淘宝MM照片并保存起来,大家有没有很激动呢? 最新动态 更新时间:2015/8/2 最近好多读者反映代码已经不能用了,原因是淘宝索引页的MM链接改了.网站改版了,URL的索引已经和之前的不一样了,之前可以直接跳转到每个MM的个性域名,现在中间加了一个跳转页,本以为可以通过这个页面然后跳转到原来的个性域名,而经过一番折腾发现,这个跳转页中的内容是JS动态生成的,所以不能用Urllib库来直接抓取了,本篇就只提供学习思路,代码不能继续用了. 之后博主会利用其它方

转 Python爬虫入门七之正则表达式

静觅 » Python爬虫入门七之正则表达式 1.了解正则表达式 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符.及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑. 正则表达式是用来匹配字符串非常强大的工具,在其他编程语言中同样有正则表达式的概念,Python同样不例外,利用了正则表达式,我们想要从返回的页面内容提取出我们想要的内容就易如反掌了. 正则表达式的大致匹配过程是:1.依次拿出表达式和文本中的字符比较,2.如果每一个

Python爬虫实战二之爬取百度贴吧帖子

大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 前言 亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不好使,八成是正则表达式那儿匹配不到了,请更改一下正则,当然最主要的还是帮助大家理解思路. 2016/12/2 本篇目标 1.对百度贴吧的任意帖子进行抓取 2.指定是否只抓取楼主发帖内容 3.将抓取到的内容分析并保存到文件 1.URL格式的确定 首先,我们先观察一下百度贴吧的任意一个帖子. 比如:ht

python爬虫实战——5分钟做个图片自动下载器

python爬虫实战--图片自动下载器 制作爬虫的基本步骤 顺便通过这个小例子,可以掌握一些有关制作爬虫的基本的步骤. 一般来说,制作一个爬虫需要分以下几个步骤: 分析需求(对,需求分析非常重要,不要告诉我你老师没教你) 分析网页源代码,配合F12(没有F12那么乱的网页源代码,你想看死我?) 编写正则表达式或者XPath表达式(就是前面说的那个神器) 正式编写python爬虫代码 效果 运行: 恩,让我输入关键词,让我想想,输入什么好呢?好像有点暴露爱好了. 回车 好像开始下载了!好赞!,我看

【图文详解】python爬虫实战——5分钟做个图片自动下载器

python爬虫实战--图片自动下载器 之前介绍了那么多基本知识[Python爬虫]入门知识,大家也估计手痒了.想要实际做个小东西来看看,毕竟: talk is cheap show me the code! 制作爬虫的基本步骤 顺便通过这个小例子,可以掌握一些有关制作爬虫的基本的步骤. 一般来说,制作一个爬虫需要分以下几个步骤: 1. 分析需求(对,需求分析非常重要,不要告诉我你老师没教你) 2. 分析网页源代码,配合F12(没有F12那么乱的网页源代码,你想看死我?) 3. 编写正则表达式或

Python爬虫实战---抓取图书馆借阅信息

原创作品,引用请表明出处:Python爬虫实战---抓取图书馆借阅信息 前段时间在图书馆借了很多书,借得多了就容易忘记每本书的应还日期,老是担心自己会违约,影响日后借书,而自己又懒得总是登录到学校图书馆借阅系统查看,于是就打算写一个爬虫来抓取自己的借阅信息,把每本书的应还日期给爬下来,并写入txt文件,这样每次忘了就可以打开该txt文件查看,每次借阅信息改变了,只要再重新运行一遍该程序,原txt文件就会被新文件覆盖,里面的内容得到更新. 用到的技术: Python版本是 2.7 ,同时用到了ur

Python爬虫实战(4):豆瓣小组话题数据采集—动态网页

1, 引言 注释:上一篇<Python爬虫实战(3):安居客房产经纪人信息采集>,访问的网页是静态网页,有朋友模仿那个实战来采集动态加载豆瓣小组的网页,结果不成功.本篇是针对动态网页的数据采集编程实战. Python开源网络爬虫项目启动之初,我们就把网络爬虫分成两类:即时爬虫和收割式网络爬虫.为了适应各种应用场景,GooSeeker的整个网络爬虫产品线包含了四类产品,如下图所示: 本实战是上图中的"独立python爬虫"的一个实例,以采集豆瓣小组讨论话题(https://w