【原创】用Python爬取LeetCode的AC代码到Github

在leetCode写了105道题高调膜科,考虑搬迁到自己的GitHub上,做成一个解题题库,面试的时候也可以秀一个

但是!但是!

leetCode在线IDE的功能不要太舒服,我直接线上A了不少题,本地没有代码,除非有题调试半天A不来,本地才有存代码

于是我就考虑,直接用Python把leetCode上的AC代码爬下来,然后扔到本地github文件夹里,然后一个同步大法

大概涉及的知识:

0、cookie

1、网站的结构分析

2、脚本登陆

3、脚本爬站

----------------------------------------------------------------------------------------------------------------------------------------------

一、自动登录

Python的cookielib + urllib2 + urllib,然后leetCode这个网站有个Django的什么鸟码,在访问主页时会作为cookie发送过来,而在登录页面需要同时提交这个码,这个时候注意先访问主页,提取了这个码以后再访问登录页面,然后一同提交。

再有就是要修改header,我改了referer,之前一直403,wtf。。

code :

import urllib2
import cookielib
import urllib

mydir = r‘C:/Users/user/Documents/GitHub/leetcode/‘
myhost = r‘https://oj.leetcode.com‘

cookie = cookielib.CookieJar()
handler = urllib2.HTTPCookieProcessor(cookie)
urlOpener = urllib2.build_opener(handler)
urlOpener.open(‘https://oj.leetcode.com/‘)

csrftoken = ""
for ck in cookie:
csrftoken = ck.value

login = "shadowmydx"
mypwd = "**********" # 密码

values = {‘csrfmiddlewaretoken‘:csrftoken,‘login‘:login,‘password‘:mypwd,‘remember‘:‘on‘}
values = urllib.urlencode(values)
headers = {‘User-Agent‘:‘Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6)Gecko/20091201 Firefox/3.5.6‘, \
‘Origin‘:‘https://oj.leetcode.com‘,‘Referer‘:‘https://oj.leetcode.com/accounts/login/‘}

request = urllib2.Request("https://oj.leetcode.com/accounts/login/",values,headers=headers)

url = urlOpener.open(request)

page = url.read()

二、爬站

切割成几个子问题。首先,找到AC的题目地址,其次,找到AC的代码地址,最后,把AC代码爬到本地的GitHub项目文件夹中。

由于leetCode的IDE是js实现的动态页面,所以不能用FireBug直接审查元素来抓,而是要从发送过来的js代码中抓AC代码。这就意味着需要一个字典来转换特殊字符

def saveCode(code,title):
     global mydir
     f = open(mydir + title + ‘.cpp‘,‘w‘)
     f.write(code)

def downloadCode(refer,codeadd,title):
    global headers
    global urlOpener
    global myhost
    headers[‘Referer‘] = refer
    request = urllib2.Request(codeadd,headers=headers)
    url = urlOpener.open(request)
    all = url.read()
    tar = "storage.put(‘cpp‘,"
    index = all.find(tar,0)
    start = all.find(‘class Solution‘,index)
    finis = all.find("‘);",start)
    code = all[start:finis]
    toCpp = {‘\u000D‘:‘\n‘,‘\u000A‘:‘‘,‘\u003B‘:‘;‘,‘\u003C‘:‘<‘,‘\u003E‘:‘>‘,‘\u003D‘:‘=‘,\
    ‘\u0026‘:‘&‘,‘\u002D‘:‘-‘,‘\u0022‘:‘"‘,‘\u0009‘:‘\t‘,‘\u0027‘:"‘",‘\u005C‘:‘\\‘}
    for key in toCpp.keys():
         code = code.replace(key,toCpp[key])
    saveCode(code,title)

def findCode(address,title):
    global headers
    global urlOpener
    global myhost
    headers[‘Referer‘] = address
    address += ‘submissions/‘
    print ‘now is dealing ‘ + address + ‘: ‘ + title 
    request = urllib2.Request(address,headers=headers)
    url = urlOpener.open(request)
    all = url.read()
    tar = ‘class="text-danger status-accepted"‘
    index = all.find(tar,0)
    start = all.find(‘href="‘,index)
    finis = all.find(‘">‘,start)
    downloadCode(address,myhost + all[start + 6:finis],title)

def findAdd(page):
    index = 0
    while 1:
         index = page.find(‘class="ac"‘,index)
         if index != -1:
             index += 1
             start = page.find(‘<td><a href="‘,index)
             finis = page.find(‘">‘,start)
             tmpfin = page.find(‘<‘,finis)
             title = page[finis + 2:tmpfin]
             findCode(myhost + page[start + 13:finis],title)
        else:
             break

最后,调用findAdd(page),大功告成

后记:最先的想法是做一个多线程的版本,后来想想还是先实现功能再说,否则就又增加一个烂尾玩具了。。

时间: 2024-07-30 08:41:07

【原创】用Python爬取LeetCode的AC代码到Github的相关文章

python爬取许多图片的代码

from bs4 import BeautifulSoup import requests import os os.makedirs('./img/', exist_ok=True) URL = "http://www.nationalgeographic.com.cn/animals/" html = requests.get(URL).text soup = BeautifulSoup(html, 'lxml') img_ul = soup.find_all('ul', {&qu

使用python爬取csdn博客访问量

最近学习了python和爬虫,想写一个程序练练手,所以我就想到了大家都比较关心的自己的博客访问量,使用python来获取自己博客的访问量,这也是后边我将要进行的项目的一部分,后边我会对博客的访问量进行分析,以折线图和饼图等可视化的方式展示自己博客被访问的情况,使自己能更加清楚自己的哪些博客更受关注,博客专家请勿喷,因为我不是专家,我听他们说专家本身就有这个功能. 一.网址分析 进入自己的博客页面,网址为:http://blog.csdn.net/xingjiarong 网址还是非常清晰的就是cs

python爬取某个网站的图片并保存到本地

python爬取某个网站的图片并保存到本地 #coding:utf-8 import urllib import re import sys reload(sys) sys.setdefaultencoding('gb2312') #获取整个页面的数据 def getHtml (url): page = urllib.urlopen(url) html = page.read() return html #保存图片到本地 def getImg(html): reg = r'src="(.+?\.

python爬取某个网页的图片-如百度贴吧

python爬取某个网页的图片-如百度贴吧 作者:vpoet 日期:大约在冬季 注:随意copy,不用告诉我 #coding:utf-8 import urllib import urllib2 import re if __name__ =="__main__": rex=r'src="(http://imgsrc.baidu.com/forum/w%3D580.*?\.jpg)"'; Response=urllib2.urlopen("http://t

使用python爬取MedSci上的影响因子排名靠前的文献

使用python爬取medsci上的期刊信息,通过设定条件,然后获取相应的期刊的的影响因子排名,期刊名称,英文全称和影响因子.主要过程如下: 首先,通过分析网站http://www.medsci.cn/sci的交互过程.可以使用谷歌或火狐浏览器的“审查元素-->Network”,然后就可以看到操作页面就可以看到网站的交互信息.当在网页上点击“我要查询”时,网页会发送一个POST消息给服务器,然后,服务器返回查询结果 然后,将查询到的结果使用正则表达式提取出需要的数据. 最后将提取出的数据输出到文

Python爬取网页的三种方法

# Python爬取网页的三种方法之一:  使用urllib或者urllib2模块的getparam方法 import urllib fopen1 = urllib.urlopen('http://www.baidu.com').info() fopen2 = urllib2.urlopen('http://www.sina.com').info() print fopen1.getparam('charset') print fopen2.getparam('charset') #----有些

Python爬取京东商品数据

对京东某一商品信息页面的HTML代码进行分析,可以发现它的图书产品信息页面都含有这样一段代码(不同类的商品页面有些不同): window.pageConfig={compatible:true,searchType: 1,product:{"skuid":"11408255","name":"\u4f17\u795e\u7684\u536b\u661f\uff1a\u4e2d\u56fd\u7981\u533a","

Python编写网页爬虫爬取oj上的代码信息

OJ升级,代码可能会丢失. 所以要事先备份. 一开始傻傻的复制粘贴, 后来实在不能忍, 得益于大潇的启发和聪神的原始代码, 网页爬虫走起! 已经有段时间没看Python, 这次网页爬虫的原始代码是 python2.7版本, 试了一下修改到3.0版本, 要做很多包的更替,感觉比较烦,所以索性就在这个2.7版本上完善了. 首先观赏一下原始代码,我给加了一些注释: # -*- coding: cp936 -*- import urllib2 import urllib import re import

Python 爬取广州商学院新闻----测试版

Python 爬取广州商学院新闻----测试版 程序简述:抓取广州商学院新闻栏目的全部新闻内容 开发环境:PyCharm Community Edition 爬取连接:http://news.gzcc.cn/ 作者:siberia 详细内容:http://easyboy1.blog.163.com/blog/static/2641120382017103105416810/ 详细内容:http://easyboy1.blog.163.com/blog/static/264112038201710