爬虫4：cookie登陆并爬取学习成绩

最近项目太忙了，都没空继续学习爬虫，前几天实验了各种姿势带cookie去登陆，都没有成功，不明觉厉

依然没有放弃，今天用同样的办法登陆以前大学的网站居然成功了，我真是一脸懵逼

又看了一遍以前的学习成绩，真是恨不得给自己两耳屎，青春都让狗吃了

哦，对了，以前还有一段学selenium的学习笔记，空了整理放到博客园里面来

# -*- coding:utf-8 -*-
import requests
from bs4 import BeautifulSoup

head={‘cookie‘:‘填入抓包抓来的cookie‘,
        ‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:50.0) Gecko/20100101 Firefox/50.0‘,
        ‘Host‘:‘jxgl.cuit.edu.cn‘,
        ‘Connection‘:‘keep-alive‘,
        ‘Referer‘:‘http://210.41.224.117/Login/xLogin/Login.asp‘,
        ‘Upgrade-Insecure-Requests‘: ‘1‘
}
# url = ‘http://jxgl.cuit.edu.cn/Jxgl/Xs/MainMenu.asp‘
# req = requests.get(url, headers=head)
detail = requests.get(‘http://jxgl.cuit.edu.cn/Jxgl//UserPub/GetCjByXh.asp?UTp=Xs‘,headers=head).text
soup = BeautifulSoup(detail, "html.parser")
blist = soup.find_all(‘b‘)
for item in blist:
    print item.get_text()

时间： 2024-12-28 14:35:31

爬虫4：cookie登陆并爬取学习成绩的相关文章

爬虫学习 Python网络爬虫第三弹《爬取get请求的页面数据》

爬虫学习 Python网络爬虫第三弹<爬取get请求的页面数据> 一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib.parse,在Python2中是urllib和urllib2. 二.由易到难的爬虫程序: 1.爬取百度首页面所有数据值 1 #!/usr/bin/env python 2 # -*- coding:utf-8 -*- 3 #导包 4

【python爬虫】根据查询词爬取网站返回结果

最近在做语义方面的问题,需要反义词.就在网上找反义词大全之类的,但是大多不全,没有我想要的.然后就找相关的网站,发现了http://fanyici.xpcha.com/5f7x868lizu.html,还行能把"老师"-"学生","医生"-"病人"这样对立关系的反义词查出来. 一开始我想把网站中数据库中存在的所有的词语都爬出来(暗网爬虫),但是分析了url的特点: http://fanyici.xpcha.com/5f7x86

python爬虫实例详细介绍之爬取大众点评的数据

python 爬虫实例详细介绍之爬取大众点评的数据一． Python作为一种语法简洁.面向对象的解释性语言,其便捷性.容易上手性受到众多程序员的青睐,基于python的包也越来越多,使得python能够帮助我们实现越来越多的功能.本文主要介绍如何利用python进行网站数据的抓取工作.我看到过利用c++和Java进行爬虫的代码,c++的代码很复杂,而且可读性.可理解性较低,不易上手,一般是那些高手用来写着玩加深对c++的理解的,这条路目前对我们不通.Java的可读性还可以,就是代码冗余比较多,

大神教你如果学习Python爬虫如何才能高效地爬取海量数据

Python如何才能高效地爬取海量数据我们都知道在互联网时代,数据才是最重要的,而且如果把数据用用得好的话,会创造很大的价值空间.但是没有大量的数据,怎么来创建价值呢?如果是自己的业务每天都能产生大量的数据,那么数据量的来源问题就解决啦,但是没有数据怎么办??哈哈哈,靠爬虫来获取呀!!! 通过利用爬虫技术获取规模庞大的互联网数据,然后做市场分析.竞品调研.用户分析.商业决策等. 也许对于小白来说,爬虫是一件非常难且技术门槛高的是,但是如果掌握了正确的方法,在短时间内可以让你应运自如.下面就分享

[python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息

这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对比,你可以进一步加深Python爬虫的印象.同时,文章给出了我以前关于爬虫的基础知识介绍,方便新手进行学习. 总之,希望文章对你有所帮助,如果存在不错或者错误的地方,还请海涵~ 一. DOM树结构分析豆瓣Top250电影网址:https://movie.douban.com/top2

Scrapy爬虫案例01——翻页爬取

之前用python写爬虫,都是自己用requests库请求,beautifulsoup(pyquery.lxml等)解析.没有用过高大上的框架.早就听说过Scrapy,一直想研究一下.下面记录一下我学习使用Scrapy的系列代码及笔记. 安装 Scrapy的安装很简单,官方文档也有详细的说明 http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/install.html .这里不详细说明了. 创建工程我是用的是pycharm开发,打开pycharm

Python3 爬虫实例（三） -- 爬取豆瓣首页图片

序前面已经完成了简单网页以及伪装浏览器的学习.下面,实现对豆瓣首页所有图片爬取程序,把图片保存到本地一个路径下. 首先,豆瓣首页部分图片展示这只是截取的一部分.下面给出,整个爬虫程序. 爬虫程序这个爬取图片的程序采用伪装浏览器的方式,只不过是加了处理图片的模块. ''' 批量下载豆瓣首页的图片采用伪装浏览器的方式爬取豆瓣网站首页的图片,保存到指定路径文件夹下 ''' #导入所需的库 import urllib.request,socket,re,sys,os #定义文件保存路径 targ

23个Python爬虫开源项目代码：爬取微信、淘宝、豆瓣、知乎、微博等

来源:全球人工智能作者:SFLYQ 今天为大家整理了23个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快 1.WechatSogou [1]– 微信公众号爬虫. 基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典. github地址:https://github.com/Chyroc/WechatSogou 2.DouBanSpider [2]– 豆瓣

Java爬虫系列之实战：爬取酷狗音乐网 TOP500 的歌曲

在前面分享的两篇随笔中分别介绍了HttpClient和Jsoup以及简单的代码案例: Java爬虫系列二:使用HttpClient抓取页面HTML Java爬虫系列三:使用Jsoup解析HTML 今天就来实战下,用他们来抓取酷狗音乐网上的 Top500排行榜音乐.接下来的代码中除了会用到HttpClient和Jsoup之外,还会用到log4j和ehcache,分别用来记录日志和实现缓存,如果看官对这两个不是很熟悉的话,请自行百度,现在网上的入门实例有很多,我就不专门记笔记了. 那为什么会想到爬取