用cookies 登录 vijos 爬取第一页题目标题

 1 import requests
 2 import codecs
 3 from bs4 import BeautifulSoup
 4
 5
 6 cookie={"VJ_SESSION":"3b8erpbikd34l9ogj4a6f9lvj0",
 7         "VJ_SESS_SRID":"5745b9ea17f3ca575ff6a0aa",
 8         "VJ_SESS_SKEY":"fcc2a8c17582659cec7469dbc2add67d10d2fcdfa8ae2cb0eb31734a236e103696bc532dbe85dc536acd1731890f65706b2da6d4639cab8295448b8f6e0bd89d41bd8733c745744eb26e3a0a363866d909bcd90d77327237ce57a9fe49782f6d59aea525712ce7fc0996c60436cbcbc6784da364b92c239a7f650e33a6c5f9f4",
 9         "VJ_SESS_SUID":"103909"
10         }
11
12
13 header1={‘User-agent‘:‘Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36‘}
14
15
16
17 res=requests.post(‘https://vijos.org/p‘,headers=header1,cookies=cookie)
18 cont=res.content.decode(‘utf-8‘)
19
20 soup=BeautifulSoup(cont,‘lxml‘)
21 s=soup.select(‘#page_problems_all > div.vj-layout-col > div.vj-layout-col-left > div > div > div > table > tbody > tr > td.vj-list-td.vjlc3 > div > div > a‘)
22
23
24 f=codecs.open(‘vijos.txt‘,‘wb‘,‘utf-8‘)
25
26
27 for i in s :
28  f.writelines(str(i.get_text())+‘\r\n‘)
29 f.close()

cookie 字典 是浏览器开发者工具上复制的

用了 beautifulsoup   21行地址是开发者工具 找到元素位置  然后 copy selector ,复制下来进行一点简单处理

接下来就很简单了

但是还是不会用账号密码直接登录  (即使vijos 不需要验证码 )

以后会了再写一篇吧

时间: 2024-08-12 07:29:55

用cookies 登录 vijos 爬取第一页题目标题的相关文章

多线程爬虫爬取详情页HTML

注意:如果想爬取详情页的信息请按须添加方法 import requests import os import re import threading from lxml import etree #爬去详情页得HTML内容 class CnBeta(object): def get_congtent(self,url): #获取网页首页HTML信息 r = requests.get(url) #将获取得HTML页面进行解码 html = r.content.decode('utf-8') #返回

Python模拟登录后爬取网站内容(小说)

最近有个好友让我帮忙爬取个小说,这个小说是前三十章直接可读,后面章节需要充值VIP可见.所以就需要利用VIP账户登录后,构造Cookie,再用Python的获取每章节的url,得到内容后再使用 PyQuery 解析内容. 注意:构造Cookie的过程中,需要你在 Chrome/Firefox 登录,然后自己在控制台查看 cookie,然后手动加入. 第一步:手动构造cookie,绕过登录 [我这里不是破解账户,想破解请出门左拐] 1 #version 2.7 2 3 #!/usr/bin/pyt

爬虫介绍02:爬取第一个站点

为了搜刮某个站点,第一步我们需要下载该站包含有用信息的页面,也就是我么尝尝提到的爬取过程.爬站的方式多种多样,我们需要根据目标站点的结构选择合适的爬站方案.下面讨论如何安全的爬站,以及常用的三种方法: Crawling a sitemap Iterating the database IDs of each web page Following web page links 1. 下载一个Web页面 爬取网页前,首先需要下载他们.下面的Python脚本,使用了Python的 urllib2 模块

Python爬虫入门教程 4-100 美空网未登录图片爬取

简介 上一篇写的时间有点长了,接下来继续把美空网的爬虫写完,这套教程中编写的爬虫在实际的工作中可能并不能给你增加多少有价值的技术点,因为它只是一套入门的教程,老鸟你自动绕过就可以了,或者带带我也行. 爬虫分析 首先,我们已经爬取到了N多的用户个人主页,我通过链接拼接获取到了 http://www.moko.cc/post/da39db43246047c79dcaef44c201492d/list.html 在这个页面中,咱们要找几个核心的关键点,发现平面拍摄点击进入的是图片列表页面. 接下来开始

Python爬虫入门【4】:美空网未登录图片爬取

美空网未登录图片----简介 上一篇写的时间有点长了,接下来继续把美空网的爬虫写完,这套教程中编写的爬虫在实际的工作中可能并不能给你增加多少有价值的技术点,因为它只是一套入门的教程,老鸟你自动绕过就可以了,或者带带我也行. 美空网未登录图片----爬虫分析 首先,我们已经爬取到了N多的用户个人主页,我通过链接拼接获取到了 http://www.moko.cc/post/da39db43246047c79dcaef44c201492d/list.html 在这个页面中,咱们要找几个核心的关键点,发

scrapy爬取网址,进而爬取详情页问题

1.最容易出现的问题是爬取到的url大多为相对路径,如果直接将爬取到的url进行二次爬取就会出现以下报错: raise ValueError('Missing scheme in request url: %s' % self._url),该错误的意思是request的url为无效链接. 解决方法:将相对路径转换为绝对路径 1 # -*- coding: utf-8 -*- 2 import scrapy 3 from pyquery import PyQuery 4 from ..items

java爬虫爬取学校毕设题目

背景 效果 思路 代码准备 依赖(jar包): 建表 代码 java爬虫过程解析 如何解决分页问题 背景 最近很多大四学生问我毕业设计如何选题 “你觉得图书管理系统怎么样?” “导师不让做这个,说太简单” “那你觉得二手交易平台怎么样?” “导师说没新意,都有咸鱼了你做这个有什么意思?要新颖的” “那你觉得个人博客平台的搭建怎么样?” “啥是博客?” “emmmm……在线售票怎么样?” “导师说今年不让选xx管理系统,这些都太简单” “那你觉得做人脸识别或者垃圾自动分类怎么样” “导师说这些太难

信息领域热词分析系统--java爬取CSDN中文章标题即链接

package zuoye1; import java.sql.Connection;import java.sql.PreparedStatement;import java.sql.SQLException;import java.util.ArrayList;import java.util.Date;import java.util.List; import org.jsoup.Jsoup;import org.jsoup.nodes.Document; import us.codecr

python实现爬取30页百度校园女神图片!

1.以下是源代码 import requests import os def getManyPages(keyword,pages): params=[] for i in range(30,30*pages+30,30): #以下是请求服务器参数,浏览器里可以找到 params.append({ 'tn': 'resultjson_com', 'ipn': 'rj', 'ct': 201326592, 'is': '', 'fp': 'result', 'queryWord': keyword