python100题目的爬取

import requestsfrom bs4 import BeautifulSoup

def getHTMLText(url):    try:        r = requests.get(url)        r.raise_for_status()        r.encoding = ‘utf-8‘        return r.text    except:        return ‘‘

def fillUnivList(ulist, html):    soup = BeautifulSoup(html, ‘html.parser‘)    meta = soup.find_all(‘meta‘, attrs={‘name‘: ‘description‘})    ulist.append(meta[0].attrs[‘content‘])

def main():    start_url = ‘http://www.runoob.com/python/python-exercise-example‘    uinfo = []    for i in range(101):        url = start_url + str(i) +‘.html‘        try:            html = getHTMLText(url)            fillUnivList(uinfo, html)        except:            continue    for i in range(101):        try:            with open(‘100.txt‘, ‘a‘) as f:                f.write(uinfo[i] + ‘\n‘)        except:            continue

print(uinfo)

main()
时间: 2024-12-12 11:58:34

python100题目的爬取的相关文章

爬取IEEE、Springer、ACM、AAAI文章题目.作者.摘要.链接日志

1:IEEE文章摘要爬取   ①:运行Crawler目录下的IEEE1024.php (16年10月24日)   ②:运行根目录下的IEEE1025.php(16年10月25日)   ③:会议->http://ieeexplore.ieee.org/xpl/conhome.jsp?punumber=1000359   ④:期刊->eg:IEEE Transactions on Image Processing   http://ieeexplore.ieee.org/xpl/tocresult

java爬虫爬取学校毕设题目

背景 效果 思路 代码准备 依赖(jar包): 建表 代码 java爬虫过程解析 如何解决分页问题 背景 最近很多大四学生问我毕业设计如何选题 “你觉得图书管理系统怎么样?” “导师不让做这个,说太简单” “那你觉得二手交易平台怎么样?” “导师说没新意,都有咸鱼了你做这个有什么意思?要新颖的” “那你觉得个人博客平台的搭建怎么样?” “啥是博客?” “emmmm……在线售票怎么样?” “导师说今年不让选xx管理系统,这些都太简单” “那你觉得做人脸识别或者垃圾自动分类怎么样” “导师说这些太难

python——关于简单爬取博客园班级成员发的博文的题目、发布人、阅读、评论,再存到csv文件中

因为老师要以班里每个人发的博客质量作为最后总成绩的评定的一部分,就要把班上所有同学发的博客都统计起来,可以用来评定的因素有:阅读.评论.推荐等,但因为今天只是做一个简单的爬取,推荐这个元素在班级博客中需要点开每一篇博文才能看到获取,就不爬取了,只爬取阅读和推荐,加上每篇博文的发布人和标题. 我先会放上代码,再逐条解释其含义及作用. 代码如下(其中爬取的网页是以我自己的班级为例): 1 from bs4 import BeautifulSoup 2 import pandas as pd 3 im

使用scrapy简易爬取豆瓣9分榜单图书并存放在mysql数据库中

注:大部分内容参考http://www.cnblogs.com/voidsky/p/5490798.html 首先创建一个项目douban9fen [email protected]:~/pachong$ scrapy startproject douban9fen New Scrapy project 'douban9fen', using template directory '/usr/local/lib/python2.7/dist-packages/scrapy/templates/p

Python爬取CSDN博客文章

之前解析出问题,刚刚看到,这次仔细审查了 0 url :http://blog.csdn.net/youyou1543724847/article/details/52818339Redis一点基础的东西目录 1.基础底层数据结构 2.windows下环境搭建 3.java里连接redis数据库 4.关于认证 5.redis高级功能总结1.基础底层数据结构1.1.简单动态字符串SDS定义: ...47分钟前1 url :http://blog.csdn.net/youyou1543724847/

【图文详解】scrapy安装与真的快速上手——爬取豆瓣9分榜单

写在开头 现在scrapy的安装教程都明显过时了,随便一搜都是要你安装一大堆的依赖,什么装python(如果别人连python都没装,为什么要学scrapy-.)wisted, zope interface,pywin32---现在scrapy的安装真的很简单的好不好! 代码我放github上了,可以参考: https://github.com/hk029/doubanbook 为什么要用scrapy 我之前讲过了requests,也用它做了点东西,([图文详解]python爬虫实战--5分钟做

scrapy爬取网易新闻内容

最近在写毕业论文,是做个文本分类相关的题目.想抓取网易新闻里那些新闻内容作为分析的数据,于是就又照着scrapy的文档照做了一遍... 感觉主要就只是两个文件items.py和spiders文件夹下的爬取规则的文件,我这里爬取技术类文档的直接叫tech.py了 scrapy的入门教程已经写的很详细了,大家可以先看看.地址为http://scrapy-chs.readthedocs.org/zh_CN/0.24/intro/tutorial.html 下面是我做的情况 1.创建项目    运行命令

[python爬虫] Selenium定向爬取海量精美图片及搜索引擎杂谈

我自认为这是自己写过博客中一篇比较优秀的文章,同时也是在深夜凌晨2点满怀着激情和愉悦之心完成的.首先通过这篇文章,你能学到以下几点:        1.可以了解Python简单爬取图片的一些思路和方法        2.学习Selenium自动.测试分析动态网页和正则表达式的区别和共同点        3.了解作者最近学习得比较多的搜索引擎和知识图谱的整体框架        4.同时作者最近找工作,里面的一些杂谈和建议也许对即将成为应届生的你有所帮助        5.当然,最重要的是你也可以尝

Python爬虫爬取知乎小结

博客首发至Marcovaldo's blog (http://marcovaldong.github.io/) 最近学习了一点网络爬虫,并实现了使用python来爬取知乎的一些功能,这里做一个小的总结.网络爬虫是指通过一定的规则自动的从网上抓取一些信息的程序或脚本.我们知道机器学习和数据挖掘等都是从大量的数据出发,找到一些有价值有规律的东西,而爬虫则可以帮助我们解决获取数据难的问题,因此网络爬虫是我们应该掌握的一个技巧. python有很多开源工具包供我们使用,我这里使用了requests.Be