python伪代码之爬取完美志愿全国历年文理分数线运行代码持续更新

最近好多小伙伴说想搞个项目实战类的，我就花了一点时间做了一个爬虫项目（在代码复制的时候可能会有点问题，缩格一下就没有问题了）
想要获取更多源码或者答疑或者或者交流学习可以加群：725479218


# -*- coding:utf-8 -*- from function.data_tool import clean_data

import hashlib

import furl.furl

from crawlers.downloader import Downloaderfrom

function.parse_tool import xpath_parsefrom

function.database_tool import auto_sqlseve

down=Downloader(proxy=‘http://104.224.138.224:8888/proxy‘)

a = {‘吉林‘: ‘22‘, ‘河北‘: ‘13‘, ‘陕西‘: ‘61‘, ‘山西‘: ‘14‘, ‘青海‘: ‘63‘, ‘湖南‘: ‘43‘, ‘广东‘: ‘44‘, ‘安徽‘: ‘34‘, ‘四川‘: ‘51‘,

     ‘江西‘: ‘36‘, ‘浙江‘: ‘33‘, ‘贵州‘: ‘52‘, ‘新疆‘: ‘65‘, ‘内蒙古‘: ‘15‘, ‘西藏‘: ‘54‘, ‘江苏‘: ‘32‘, ‘广西‘: ‘45‘, ‘湖北‘: ‘42‘,

     ‘海南‘: ‘46‘, ‘河南‘: ‘41‘, ‘山东‘: ‘37‘, ‘福建‘: ‘35‘, ‘云南‘: ‘53‘, ‘上海‘: ‘31‘, ‘北京‘: ‘11‘, ‘天津‘: ‘12‘, ‘甘肃‘: ‘62‘,

     ‘宁夏‘: ‘64‘, ‘黑龙江‘: ‘23‘, ‘重庆‘: ‘50‘, ‘辽宁‘: ‘21‘}

for province in b:

     for subject in c:

          field_info=[]

          key_word=a[province]

          reform_url.args[‘type‘]=subject

          reform_url.args[‘province‘]=key_word

          response=down.get(url=reform_url,typ=‘text‘,encoding=‘utf-8‘)

          htmlcode = eval(clean_data.clean_space(response))[‘htmlStr‘]

          xpath_html = xpath_parse.text_tolxml(htmlcode)

 year = xpath_html.xpath(‘string(//th[normalize-space(text())="录取批次"]/..)‘).replace(‘\r‘, ‘‘).replace(‘\t‘,‘‘).replace(

               ‘录取批次‘, ‘‘).replace(‘ ‘, ‘‘)

          year_split = year.split()

          ben_yi = xpath_html.xpath(‘string(//td[normalize-space(text())="本科第一批"]/..)‘).replace(‘\r‘, ‘‘).replace(‘\t‘,

                                                                                                           ‘‘).replace(

               ‘本科第一批‘, ‘‘).replace(‘ ‘, ‘‘)

ben_yi_split = ben_yi.split()

          ben_er = xpath_html.xpath(‘string(//td[normalize-space(text())="本科第二批"]/..)‘).replace(‘\r‘, ‘‘).replace(‘\t‘,

                                                                                                           ‘‘).replace(

               ‘本科第二批‘, ‘‘).replace(‘ ‘, ‘‘)

          ben_er_split = ben_er.split()

          ben_san = xpath_html.xpath(‘string(//td[normalize-space(text())="本科第三批"]/..)‘).replace(‘\r‘, ‘‘).replace(‘\t‘,

                                                                                                            ‘‘).replace(

               ‘本科第三批‘, ‘‘).replace(‘ ‘, ‘‘)

          ben_san_split = ben_san.split()

          zhuan_yi = xpath_html.xpath(‘string(//td[normalize-space(text())="专科第一批"]/..)‘).replace(‘\r‘, ‘‘).replace(‘\t‘,

b = [‘安徽‘, ‘北京‘, ‘重庆‘, ‘福建‘, ‘甘肃‘, ‘贵州‘, ‘广东‘, ‘广西‘, ‘湖北‘, ‘海南‘, ‘黑龙江‘, ‘湖南‘, ‘河南‘, ‘河北‘, ‘吉林‘, ‘江西‘, ‘江苏‘, ‘辽宁‘, ‘宁夏‘,

     ‘内蒙古‘, ‘青海‘, ‘山西‘, ‘山东‘, ‘陕西‘, ‘四川‘, ‘上海‘, ‘天津‘, ‘西藏‘, ‘新疆‘, ‘云南‘, ‘浙江‘]

c=[‘wen‘,‘li‘]

url=‘https://www.wmzy.com/api/score/getScoreList?type=wen&province=33‘ reform_url=furl.furl(url)

W=auto_sqlsever.Mssql(database=‘provincescore‘,datatable=[‘ScoreProvince‘])

                                                                                                             ‘‘).replace(

               ‘专科第一批‘, ‘‘).replace(‘ ‘, ‘‘)

          zhuan_yi_split = zhuan_yi.split()

          zhuan_er = xpath_html.xpath(‘string(//td[normalize-space(text())="专科第二批"]/..)‘).replace(‘\r‘, ‘‘).replace(‘\t‘,

                                                                                                             ‘‘).replace(

               ‘专科第二批‘, ‘‘).replace(‘ ‘, ‘‘)

          zhuan_er_split = zhuan_er.split()

          if ‘wen‘ in subject:

               subject=‘文科‘  else:

               subject=‘理科‘  print(zhuan_yi_split,zhuan_er_split,ben_san_split,ben_er_split,ben_yi_split)

          provincemd5=[hashlib.md5(province.encode()).hexdigest()]*8          tiqian=[0]*8          field_info.extend([[province]*8,provincemd5,year_split,[subject]*8,tiqian,ben_yi_split,ben_er_split,ben_san_split,zhuan_yi_split,zhuan_er_split])

          W.insert_data(field_info)

原文地址：http://blog.51cto.com/13786054/2128826

时间： 2024-11-08 23:41:14

python伪代码之爬取完美志愿全国历年文理分数线运行代码持续更新的相关文章

Python 爬取的类封装【将来可能会改造，持续更新...】（2020年寒假小目标09）

日期:2020.02.09 博客期:148 星期日按照要求,我来制作 Python 对外爬取类的固定部分的封装,以后在用 Python 做爬取的时候,可以直接使用此类并定义一个新函数来处理CSS选择部分的动态选择. 好了,先说一下设计初衷!我在之前两次的爬取任务中发现我用到的爬取仅仅就是 requests 爬取和 selenium 爬取,而且呢~这两部分的爬取都是按照一定的步骤来做的,第一步,网页加载:第二步,获取 HTML 内容:第三步,使用 CSS 选择器进行筛选:第四步,处理数据打包保存

[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)

一. 文章介绍前一篇文章"[python爬虫] Selenium爬取新浪微博内容及用户信息"简单讲述了如何爬取新浪微博手机端用户信息和微博信息. 用户信息:包括用户ID.用户名.微博数.粉丝数.关注数等. 微博信息:包括转发或原创.点赞数.转发数.评论数.发布时间.微博内容等. 它主要通过从文本txt中读取用户id,通过"URL+用户ID" 访问个人网站,如柳岩: http://weibo.cn/guangxianliuya 因为手机端数据相对精简简单,所以采用输

[python学习] 简单爬取维基百科程序语言消息盒

文章主要讲述如何通过Python爬取维基百科的消息盒(Infobox),主要是通过正则表达式和urllib实现:后面的文章可能会讲述通过BeautifulSoup实现爬取网页知识.由于这方面的文章还是较少,希望提供一些思想和方法对大家有所帮助.如果有错误或不足之处,欢迎之处:如果你只想知道该篇文章最终代码,建议直接阅读第5部分及运行截图. 一. 维基百科和Infobox 你可能会疑惑Infobox究竟是个什么东西呢?下面简单介绍. 维基百科作为目前规模最大和增长最快的开放式的在线百科系统,其典型

[python] 常用正则表达式爬取网页信息及分析HTML标签总结【转】

[python] 常用正则表达式爬取网页信息及分析HTML标签总结转http://blog.csdn.net/Eastmount/article/details/51082253 标签: pythonpython爬虫正则表达式html知识总结 2016-04-07 06:13 3615人阅读评论(4) 收藏举报分类: Python爬虫(23) Python基础知识(17) 版权声明:本文为博主原创文章,转载请注明CSDN博客源地址!共同学习,一起进步~ 这篇文章主要是介绍Pytho

[Python爬虫] Selenium爬取新浪微博移动端热点话题及评论 (下)

这篇文章主要讲述了使用python+selenium爬取新浪微博的热点话题和评论信息.其中使用该爬虫的缺点是效率极低,傻瓜式的爬虫,不能并行执行等,但是它的优点是采用分析DOM树结构分析网页源码并进行信息爬取,同时它可以通过浏览器进行爬取中间过程的演示及验证码的输入.这篇文章对爬虫的详细过程就不再论述了,主要是提供可运行的代码和运行截图即可.希望文章对你有所帮助吧~ 参考文章 [python爬虫] Selenium爬取新浪微博内容及用户信息 [Python爬虫] Selenium爬取新浪微博客户

Python爬虫入门 | 爬取豆瓣电影信息

这是一个适用于小白的Python爬虫免费教学课程,只有7节,让零基础的你初步了解爬虫,跟着课程内容能自己爬取资源.看着文章,打开电脑动手实践,平均45分钟就能学完一节,如果你愿意,今天内你就可以迈入爬虫的大门啦~好啦,正式开始我们的第二节课<爬取豆瓣电影信息>吧!啦啦哩啦啦,都看黑板~1. 爬虫原理1.1 爬虫基本原理听了那么多的爬虫,到底什么是爬虫?爬虫又是如何工作的呢?我们先从"爬虫原理"说起.爬虫又称为网页蜘蛛,是一种程序或脚本.但重点在于:它能够按照一定的规则,自动

如何利用Python网络爬虫爬取微信朋友圈动态--附代码（下）

前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py文件.我们需要获取的数据是朋友圈和发布日期,因此在这里定义好日期和动态两个属性,如下图所示. 2.修改实现爬虫逻辑的主文件moment.py,首先要导入模块,尤其是要主要将items.py中的WeixinMomentItem类导入进来,这点要特别小心别被遗漏了.之后修改start_requests方

python爬虫案例-爬取当当网数据

输入关键字,爬取当当网中商品的基本数据,代码如下: 1 # Author:K 2 import requests 3 from lxml import etree 4 from fake_useragent import UserAgent 5 import re 6 import csv 7 8 9 def get_page(key): 10 for page in range(1,50): 11 url = 'http://search.dangdang.com/?key=%s&act=in

python爬虫实例——爬取歌单

学习自http://www.hzbook.com/index.php/Book/search.html 书名:从零开始学python网络爬虫爬取酷狗歌单,保存入csv文件直接上源代码:(含注释) import requests #用于请求网页获取网页数据 from bs4 import BeautifulSoup #解析网页数据 import time #time库中的sleep()方法可以让程序暂停 import csv ''' 爬虫测试酷狗top500数据写入csv文件 ''' fp