爬取资讯网站的新闻并保存到excel

#!/usr/bin/env python
#* coding:utf-8 *
#author:Jacky

from selenium.webdriver.common.keys import Keys
from selenium import webdriver
from bs4 import BeautifulSoup
import xlwt

driver = webdriver.Firefox()
driver.implicitly_wait(3)
first_url = ‘http://www.yidianzixun.com/channel/c6‘
driver.get(first_url)
driver.find_element_by_class_name(‘icon-refresh‘).click()
for i in range(1, 90):
driver.find_element_by_class_name(‘icon-refresh‘).send_keys(Keys.DOWN)
soup = BeautifulSoup(driver.page_source, ‘lxml‘)
print soup
articles=[]
for article in soup.findall(class=‘item doc style-small-image style-content-middle‘):
title= article.find(class_=‘doc-title‘).gettext()
source=article.find(class=‘source‘).gettext()
comment=article.find(class=‘comment-count‘).get_text()
link=‘http://www.yidianzixun.com‘+article.get(‘href‘)
articles.append([title,source,comment,link])
print articles
driver.quit()

wbk=xlwt.Workbook(encoding=‘utf-8‘)
sheet=wbk.add_sheet(‘yidianzixun‘)
i=1
sheet.write(0, 0, ‘title‘)
sheet.write(0, 1, ‘source‘)
sheet.write(0, 2, ‘comment‘)
sheet.write(0, 3, ‘link‘)
for row in articles:
#print row[0]
sheet.write(i,0,row[0])
sheet.write(i,1,row[1])
sheet.write(i,2,row[2])
sheet.write(i,3,row[3])
i +=1
wbk.save(r‘zixun\zixun.xls‘)

原文地址：http://blog.51cto.com/jackyxin/2066959

时间： 2024-11-08 18:54:07

爬取资讯网站的新闻并保存到excel的相关文章

多线程爬取都挺好链接并保存到mongodb

一个比较简单,python3多线程使用requests库爬取都挺好,并使用正则提取下载链接,保存到mongodb #!/usr/bin/env python # -*- coding:utf-8 -*- """ @author:Aiker Zhao @file:doutinghao.py @time:下午8:18 """ import requests import re import pymongo from multiprocessing i

python爬取凤凰网站的新闻，及其链接地址，来源，时间和内容，用selenium自动化和requests处理数据

1 import requests 2 from selenium import webdriver 3 import time 4 5 def grasp(urlT): 6 driver = webdriver.Chrome(r'C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe') #自动化测试程序工具本地所在地 7 resAll = [] #用于存储单条数据 8 rest = {} #用于存储单个数据 9 re

（原）爬取辽宁科技大学相关新闻---python爬虫入门

有人说大部分python程序员都是通过爬虫入门的或者都是由爬虫喜欢上python的.还有大部分人学爬虫都喜欢拿自己学校的网站练手.我就是基于以上两点开始的... ok,开始,首先你需要一点python基础,一点点基础就可以,找一本薄薄的书过一遍,可以上这来找找 http://wiki.woodpecker.org.cn/moin/PyBooks 看书不爽,那你上这来看看,几道简简单单的题做过之后,顿觉一览众山小 http://www.pythontutor.com/ 咱们不是一边学爬虫,一边学p

python爬虫--爬取某网站电影下载地址

前言:因为自己还是python世界的一名小学生,还有很多路要走,所以本文以目的为向导,达到目的即可,对于那些我自己都没弄懂的原理,不做去做过多解释,以免误人子弟,大家可以网上搜索. 友情提示:本代码用到的网址仅供交流学习使用,如有不妥,请联系删除. 背景:自己有台电脑要给老爸用,老爷子喜欢看一些大片,但是家里网络环境不好,就想批量下载一些存到电脑里.但是目前大部分的网站都是这样的, 需要一个个地点进去,才能看到下载地址如果我要下载100部电影,那肯定手都要点断了,于是便想把这些地址给爬取出来,

Python3从零开始爬取今日头条的新闻【一、开发环境搭建】

Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Python3从零开始爬取今日头条的新闻[四.模拟点击切换tab标签获取内容] Python3从零开始爬取今日头条的新闻[五.解析头条视频真实播放地址并自动下载] 所谓爬虫,就是通过编程的方式自动从网络上获取自己所需的资源,比如文章.图片.音乐.视频等多媒体资源.通过一定的方式获取到html的内容,再通过

python爬取某个网站的图片并保存到本地

python爬取某个网站的图片并保存到本地 #coding:utf-8 import urllib import re import sys reload(sys) sys.setdefaultencoding('gb2312') #获取整个页面的数据 def getHtml (url): page = urllib.urlopen(url) html = page.read() return html #保存图片到本地 def getImg(html): reg = r'src="(.+?\.

webmagic爬取渲染网站

最近突然得知之后的工作有很多数据采集的任务,有朋友推荐webmagic这个项目,就上手玩了下.发现这个爬虫项目还是挺好用,爬取静态网站几乎不用自己写什么代码(当然是小型爬虫了~~|).好了,废话少说,以此随笔记录一下渲染网页的爬取过程首先找到一个js渲染的网站,这里直接拿了学习文档里面给的一个网址,http://angularjs.cn/ 打开网页是这样的查看源码是这样的源码这么少,不用说肯定是渲染出来的了,随便搜了一条记录,果然源码里面找不到结果那就开始解析网址了,从浏览器开发者工具里面

使用selenium + Chrome爬取某网站乌云公开漏洞文章并保存为pdf文件

目的:使用selenium + Chrome爬取某网站指定类型的乌云公开漏洞文章,即在win10终端输入漏洞类型(如未授权),则爬取所有该类型的漏洞文章,并把每个分页的数字作为文件夹名,来保存该分页下面的所有的漏洞文章. 总结:本例只是能简单的爬取某一类型漏洞的所有文章,但不能爬取多个类型漏洞的所有文章,有时可能会有一些小bug导致没爬取完就崩溃,需要手工修改进而重新爬.其它问题解决看注释. 关于python代码里面出现中文在windows里面的处理,还没完全掌握.可参考Python for W

python爬虫-基础入门-爬取整个网站《3》

python爬虫-基础入门-爬取整个网站<3> 描述: 前两章粗略的讲述了python2.python3爬取整个网站,这章节简单的记录一下python2.python3的区别 python2.x 使用类库: >> urllib 库 >> urllib2 库 python3.x 使用的类库: >> urllib 库变化: -> 在python2.x中使用import urllib2 ----- 对应的,在python3.x 中会使用import url

猜你喜欢

分布式系统的事务处理【转】

转:http://coolshell.cn/articles/10910.html 当我们在生产线上用一台服务器来提供数据服务的时候,我会遇到如下的两个问题: 1)一台服务器的性能不足以提供足够的能力 ...

梦想是什么，梦想在哪里，IT梦！

相信上图中很多人大家都会认识,因为很多都是从事IT行业的,而且都还是成功人士. 丁磊,马云,李彦宏,马化腾,王石,史玉柱....,这些人都有自己的传奇史记,都有自己的人生路,有成功,有失败,他们都付出 ...

draw9patch在SDK->tools找不到,在Android Studio点击图片没找到draw9patch

第一个问题: Google把draw9patch集成在Android Studio中了,所以在SDK->tools中找不到. 第二个问题: 把图片的后缀名名改为 .png 格式,不要 .jpg ...

MySQL DML操作--------多表联合查询实战

1. 背景 * 多表联合查询是把不同表的记录到一起的一种方式 * 在SQL标准中规划的联合(join)大致分内连接,外连接,全连接.其中外连接又分左外连接,右外连接. 2. 内连接例子 (inner ...

python2.0_s12_day9之day8遗留知识（queue队列&生产者消费者模型）

4.线程 1.语法 2.join 3.线程锁之Lock\Rlock\信号量 4.将线程变为守护进程 5.Event事件 * 6.queue队列 * 7.生产者消费者模型 4.6 queue队列 que ...

DT大数据梦工厂第81讲

DT大数据梦工厂第81讲http://yun.baidu.com/s/1uLFye本节王老师讲了list的逆变,协变,下界.abstaract class Big_Dataclass Hadoop ...

Gym 100187B-A Lot of Joy

题意:给一个字符串,将每个字符分开放进两个口袋,每次从两个口袋分别拿出一个字符,如果相同则开心,问开心的次数期望是多少. 分析:数学期望题,然而这是我最不拿手的...最后答案是每个字符在字符串出现的次 ...

openstack 学习路线

每天5分钟玩转 OpenStac k http://cloudman.blog.51cto.com/10425448/1745873

iOS float小数四舍五入

http://blog.csdn.net/fanjunxi1990/article/details/21536189 直接贴代码了 [python] view plaincopy #import &q ...

第四周项目一三角形类的构造函数-1

<span style="color: rgb(85, 85, 85); font-family: 'microsoft yahei'; font-size: 15.555556297 ...

python基础之名称空间和作用域、函数嵌套

一.名称空间 1.定义:存放名字与值的绑定关系 2.名称空间分为:内置名称空间.全局名称空间.局部名称空间内置名称空间:python解释器自带的名字,python解释器启动就会生成全局名称空间:文 ...

[打印管理器]读取样式列表失败:Invalid variant operation

报错: (1)读取样式列表失败:Invalid variant operation (2)保存模板时出错原因: (1)样式文件RPDB.mdb损坏 (2)dao360.dll未注册成功,或需要在特殊路 ...

instanceof 原理

运行流程 function instance_of(L, R) { //L 表示左表达式,R 表示右表达式 var O = R.protot ...

如何在窗体加说明/帮助

有的时候,我们要登记个什么,或是填写很专业的申请表,或是才进公司的员工,往往不知道该怎么填写,那么我们就可以设计个帮助按钮,点开就会有详细说明,告诉我们这个东西该如何操作. 首先,得做个显示" ...

普通用户从非80端口启动tomcat，通过端口转发监听80端口

linux下小于1024的端口都需要root去绑定. root权限启动tomcat是不明智的,可以使用非root权限启动tomcat监听8080端口,然后利用端口转发实现对80端口的监听. 端口转发: ...

d3可视化实战03：神奇的superformula

需求驱动实现前文讲过了D3的数据驱动机制,中间所举的例子都很简单.例如那个demo里面,绑定的数据是一个简单的数组,实现的图元也仅仅是一堆用SVG画的circle.但是现实世界中我们往往会遇到复杂的 ...

python_特殊函数

__new__() 类的静态方法,用于确定是否要创建对象__init__() 构造函数,生成对象时调用__del__() 析构函数,释放对象时调用__add__() +__sub__() -__mul ...

ngclass expressions in angularjs

原文: http://blog.xebia.com/2014/01/31/ngclass-expressions-in-angularjs/ ngClass 指令允许你通过databinding一个表 ...

uwsgi部署django项目—报内部错误

在django项目目录下建立uwsgi.ini文件: [uwsgi] #使用nginx连接时使用 #socket=127.0.0.1:8080 #直接做web服务器使用 http=127.0.0.1: ...

第四章数组和方法

1.一维数组的声明和分配内存数组类型数组名[] = null //声明一维数组数组名 = new 数组类型[长度] //分配内存给数组数组类型[] 数组名 = null //声明一维数组数据 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.