爬取毛概题库

 1 ‘‘‘
 2 @name:  spider
 3 @data:  2016-6-16 22:56
 4 @author:  wangqj
 5 @blog:  http://www.cnblogs.com/a1225234/
 6 @e-mail:  [email protected]
 7 ‘‘‘
 8 import urllib
 9 import re
10 from bs4 import BeautifulSoup
11
12 fil=open(‘01.txt‘,‘r‘)
13 soup = BeautifulSoup(fil.read(),‘html.parser‘)
14 _list=soup.find(attrs={‘name‘:‘tryForm‘})
15 _list_tr=_list.find_all(‘input‘)
16 pan_list=[]
17 num=1
18 k=1
19 n=61#tihao
20 print ‘判断题‘
21 for i in _list_tr[0:50]:
22     if(num%5==3):
23         print n,‘.‘,i[‘value‘],
24         n+=1
25     if(num%5==4):
26         if(int(i[‘value‘])==1):
27             print ‘正确‘
28         else:
29             print ‘错误‘
30     num+=1
31 num=1
32 k=50
33 n=n-10#tihao
34 print ‘单选题‘
35 for i in _list_tr[50:160]:
36     t=num%11
37     if(t==9):
38         print n,‘.‘,
39         n+=1
40         print i[‘value‘],‘(‘,_list_tr[k+1][‘value‘],‘)‘
41         print ‘A.‘,_list_tr[k-4][‘value‘],‘\nB.‘,_list_tr[k-3][‘value‘]
42         print ‘C.‘,_list_tr[k-2][‘value‘],‘\nD.‘,_list_tr[k-1][‘value‘]
43     k+=1
44     num+=1
45 print ‘多选题‘
46 num=1
47 k=160
48 n=n-10#tihao
49 for i in _list_tr[160:270]:
50     t=num%11
51     if(t==9):
52         print n,‘.‘,
53         n+=1
54         print _list_tr[k][‘value‘],_list_tr[k+1][‘value‘]
55         print ‘A.‘,_list_tr[k-4][‘value‘],‘\nB.‘,_list_tr[k-3][‘value‘]
56         print ‘C.‘,_list_tr[k-2][‘value‘],‘\nD.‘,_list_tr[k-1][‘value‘]
57     k+=1
58     num+=1
时间: 2024-08-08 09:30:37

爬取毛概题库的相关文章

python单线程爬取阿里云maven库

requests re os COMPILE = re.compile() URL = ROOT_DIR = os.path.dirname(os.path.abspath(__file__)) CASE_INSENSE = [] ():     (urlcodereasoncontent):         (MavenException).()         .url = url         .code = code         .reason = reason         .

【scrapy实践】_爬取安居客_广州_新楼盘数据

需求:爬取[安居客-广州-新楼盘]的数据,具体到每个楼盘的详情页的若干字段. 难点:楼盘类型各式各样:住宅 别墅 商住 商铺 写字楼,不同楼盘字段的名称不一样.然后同一种类型,比如住宅,又分为不同的情况,比如分为期房在售,现房在售,待售,尾盘.其他类型也有类似情况.所以字段不能设置固定住. 解决方案:目前想到的解决方案,第一种:scrapy中items.py中不设置字段,spider中爬的时候自动识别字段(也就是有啥字段就保留下来),然后返回字典存起来.第二种,不同字段的网页分别写规则单独抓取.

一只初学者级别的京东商城商品爬虫(爬取索尼微单的参数信息)

近期对摄影产生一些兴趣,所以就自己爬了一下京东商城上Canon微单的数据.爬虫爬取了商品价格以及详细参数信息.作为一个初学者,幸运或者不幸的是,由于爬虫性能较差,在以下的代码中我并没有用到反爬虫的问题,只熟悉Python下载与安装的朋友也可以放心食用这篇文章. 以下我记下了完整详细的爬虫制作过程,供新手朋友参考.高端玩家指正. 一.开发前的准备 开发环境:Python3.6+Jupyter notebook 爬取过程使用的库:requests+re+BeautifulSoup 数据存取以及清洗过

第三百三十节,web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号

第三百三十节,web爬虫讲解2-urllib库爬虫-实战爬取搜狗微信公众号 封装模块 #!/usr/bin/env python # -*- coding: utf-8 -*- import urllib from urllib import request import json import random import re import urllib.error def hq_html(hq_url): """ hq_html()封装的爬虫函数,自动启用了用户代理和ip

用requests库和BeautifulSoup4库爬取新闻列表

1.用requests库和BeautifulSoup4库,爬取校园新闻列表的时间.标题.链接.来源. import requests from bs4 import BeautifulSoup mt="http://news.gzcc.cn/html/xiaoyuanxinwen/" res=requests.get(mt) res.encoding='utf-8' soup=BeautifulSoup(res.text,"html.parser") for new

requests库和BeautifulSoup4库爬取新闻列表

画图显示: import jieba from wordcloud import WordCloud import matplotlib.pyplot as plt txt = open("zuihou.txt","r",encoding='utf-8').read() wordlist = jieba.lcut(txt) wl_split=" ".join(wordlist) mywc = WordCloud().generate(wl_spl

二毛解读:百度蜘蛛每天都来爬取网站,却只收录首页是怎么回事?

昨夜,一位SEO友人问我一个这样的问题:百度蜘蛛每天都来爬取网站,却只收录首页,文章页及其他页面均未收录,问我是怎么回事? 其实这个问题非常普遍,可以从两个方面分析: 1. 网站内部优化是否完善: 2. 时间问题(文章够原创,站内优化够完善,迟早会收录). 我们主要来谈谈第一个问题:网站内部优化. 其实SEO是什么?SEO不是单纯的迎合百度及其他搜索引擎,他是时刻随用户的体验度来考量网站是否合适.在当今的互联网大环境下,暂时还是随着大多数用户的习惯性体验来对你的网站进行抓取,拍照,索引.网站优化

pyhont---信息的爬取与提取---bs4,BeautifulSoup,re库

pyhont---信息的爬取与提取---bs4,BeautifulSoup,re库 用于对获取到的页面文本进行提取 BeautifulSoup库的理解:BeautifulSoup库是解析.遍历.维护"标签树"的功能库.BeautifulSoup类的基本元素Tag:标签,最基本的信息组织单元,分别使用<></>标明开头和结尾 多个同类标签只访问第一个标签Name:标签的名字,<p>...</p>的名字是p,格式:<tag>.na

Python工具 | 9个用来爬取网络站点的 Python 库

1??Scrapy 一个开源和协作框架,用于从网站中提取所需的数据. 以快速,简单,可扩展的方式. 官网 2??cola 一个分布式爬虫框架. GitHub 3??Demiurge 基于 PyQuery 的爬虫微型框架. 官网 4??feedparser 通用 feed 解析器. 官网 5??Grab Grab 是一个用于构建 Web scraper 的 python 框架. 使用 Grab,您可以构建各种复杂性的 Web scraper,从简单的5行脚本到处理数百万个 Web 页面的复杂异步网