python爬取凤凰网站的新闻,及其链接地址,来源,时间和内容,用selenium自动化和requests处理数据

 1 import requests
 2 from selenium import webdriver
 3 import time
 4
 5 def grasp(urlT):
 6 driver = webdriver.Chrome(r‘C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe‘) #自动化测试程序工具本地所在地
 7 resAll = [] #用于存储单条数据
 8 rest = {} #用于存储单个数据
 9 res=requests.get(urlT)
10 for i in range(0,29):
11 print(res.json()[‘data‘][i][‘title‘])
12 try:
13 print(res.json()[‘data‘][i][‘newsTime‘])
14 except:
15 print(‘None‘)
16 print(res.json()[‘data‘][i][‘source‘])
17 print(res.json()[‘data‘][i][‘url‘])
18 rest[‘title‘]=res.json()[‘data‘][i][‘title‘]
19 try:
20 rest[‘newsTime‘] = res.json()[‘data‘][i][‘newsTime‘]
21 except:
22 rest[‘newsTime‘] = ‘None‘
23 rest[‘source‘] = res.json()[‘data‘][i][‘source‘]
24 url = res.json()[‘data‘][i][‘url‘]
25 rest[‘url‘] = res.json()[‘data‘][i][‘url‘]
26 try:
27 driver.get(url)
28 time.sleep(4)
29 contend = driver.find_element_by_class_name(‘text-3zQ3cZD4‘).text
30 rest[‘contend‘] = str(contend)
31 print(contend)
32 driver.back()
33 time.sleep(6)
34 except:
35 print(f‘第{i}条新闻失败‘)
36 print(‘#-----------------------某些格式不符合------------------------#‘)
37 resAll.append(rest)
38 with open(‘./news.txt‘, ‘a+‘, encoding=‘utf-8‘) as f:
39 try:
40 f.write(‘‘.join(resAll[i].values())+‘\n‘)
41 except:
42 print(‘写入失败‘)
43
44 url = "https://shankapi.ifeng.com/spring/finance/index/newInfoIndex/75219"
45 grasp(url)
46
47
48 class Grasp:
49
50 def __init__(self):
51 self.driver = webdriver.Chrome(r‘C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe‘)
52 self.resAll = []#用于存储单条数据
53 self.rest = {}#用于存储单个数据
54 self.res = requests.get("https://shankapi.ifeng.com/spring/finance/index/newInfoIndex/75219")#目标链接
55
56 def run(self):
57 for i in range(0, len(self.res.json()[‘data‘])):
58 print(self.res.json()[‘data‘][i][‘title‘]) #输出标题
59 try:
60 print(self.res.json()[‘data‘][i][‘newsTime‘]) #输出时间
61 except:
62 print(‘None‘)
63 print(self.res.json()[‘data‘][i][‘source‘]) #输出来源
64 print(self.res.json()[‘data‘][i][‘url‘]) #输出链接地址
65 self.rest[‘title‘] = self.res.json()[‘data‘][i][‘title‘] #获取标题
66 try:
67 self.rest[‘newsTime‘] = self.res.json()[‘data‘][i][‘newsTime‘] #获取时间
68 except:
69 self.rest[‘newsTime‘] = ‘None‘
70 self.rest[‘source‘] = self.res.json()[‘data‘][i][‘source‘] #获取来源
71 self.url = self.res.json()[‘data‘][i][‘url‘]
72 self.rest[‘url‘] = self.res.json()[‘data‘][i][‘url‘]#获取链接地址
73 try:
74 self.driver.get(url)
75 time.sleep(4)
76 self.contend = self.driver.find_element_by_class_name(‘text-3zQ3cZD4‘).text#获取网页标签下的文本
77 self.rest[‘contend‘] = str(self.contend)#插入单条数据
78 print(f‘第{i}条新闻成功‘)
79 self.driver.back()
80 time.sleep(4)
81 except:
82 print(f‘第{i}条新闻失败‘)
83 print(‘#-----------------------某些格式不符合------------------------#‘)
84 self.resAll.append(self.rest)
85 with open(‘./news.txt‘, ‘a+‘, encoding=‘utf-8‘) as f:
86 try:
87 f.write(f‘第{i}条新闻开始‘)
88 f.write(‘‘.join(self.resAll[i].values()) + ‘\n‘) #写入数据
89 f.write(f‘第{i}条新闻结束‘)
90 except:
91 print(‘写入失败‘)
92
93 g = Grasp()
94 g.run()

有写规则需要自己定义判断。

希望,帮到大家

原文地址:https://www.cnblogs.com/superSmall/p/11520883.html

时间: 2024-11-03 19:53:44

python爬取凤凰网站的新闻,及其链接地址,来源,时间和内容,用selenium自动化和requests处理数据的相关文章

python爬取某个网站的图片并保存到本地

python爬取某个网站的图片并保存到本地 #coding:utf-8 import urllib import re import sys reload(sys) sys.setdefaultencoding('gb2312') #获取整个页面的数据 def getHtml (url): page = urllib.urlopen(url) html = page.read() return html #保存图片到本地 def getImg(html): reg = r'src="(.+?\.

python爬取视频网站m3u8视频,下载.ts后缀文件,合并成整视频

最近发现一些网站,可以解析各大视频网站的vip.仔细想了想,这也算是爬虫呀,爬的是视频数据. 首先选取一个视频网站,我选的是 影视大全 ,然后选择上映不久的电影 "一出好戏" . 分析页面 我用的是chrome浏览器,F12进入查看.选择NetWork的Doc,发现主体部分的数据是从这个网站获取的. 在地址栏输入这个链接,跳转到了视频来源的播放页面. 当然,在这个页面就可以直接观看视频了,但是我们要把视频下载下来. 寻找视频文件 仍然是之前那个页面,在Other中,我们发现了一些奇怪的

爬取资讯网站的新闻并保存到excel

#!/usr/bin/env python#* coding:utf-8 *#author:Jacky from selenium.webdriver.common.keys import Keysfrom selenium import webdriverfrom bs4 import BeautifulSoupimport xlwt driver = webdriver.Firefox()driver.implicitly_wait(3)first_url = 'http://www.yid

(原)爬取辽宁科技大学相关新闻---python爬虫入门

有人说大部分python程序员都是通过爬虫入门的或者都是由爬虫喜欢上python的.还有大部分人学爬虫都喜欢拿自己学校的网站练手.我就是基于以上两点开始的... ok,开始,首先你需要一点python基础,一点点基础就可以,找一本薄薄的书过一遍,可以上这来找找 http://wiki.woodpecker.org.cn/moin/PyBooks 看书不爽,那你上这来看看,几道简简单单的题做过之后,顿觉一览众山小 http://www.pythontutor.com/ 咱们不是一边学爬虫,一边学p

Python 爬取广州商学院新闻----测试版

Python 爬取广州商学院新闻----测试版 程序简述:抓取广州商学院新闻栏目的全部新闻内容 开发环境:PyCharm Community Edition 爬取连接:http://news.gzcc.cn/ 作者:siberia 详细内容:http://easyboy1.blog.163.com/blog/static/2641120382017103105416810/ 详细内容:http://easyboy1.blog.163.com/blog/static/264112038201710

python爬虫--爬取某网站电影下载地址

前言:因为自己还是python世界的一名小学生,还有很多路要走,所以本文以目的为向导,达到目的即可,对于那些我自己都没弄懂的原理,不做去做过多解释,以免误人子弟,大家可以网上搜索. 友情提示:本代码用到的网址仅供交流学习使用,如有不妥,请联系删除. 背景:自己有台电脑要给老爸用,老爷子喜欢看一些大片,但是家里网络环境不好,就想批量下载一些存到电脑里.但是目前大部分的网站都是这样的, 需要一个个地点进去,才能看到下载地址 如果我要下载100部电影,那肯定手都要点断了,于是便想把这些地址给爬取出来,

python爬虫-基础入门-爬取整个网站《3》

python爬虫-基础入门-爬取整个网站<3> 描述: 前两章粗略的讲述了python2.python3爬取整个网站,这章节简单的记录一下python2.python3的区别 python2.x 使用类库: >> urllib 库 >> urllib2 库 python3.x 使用的类库: >> urllib 库 变化: -> 在python2.x中使用import urllib2 ----- 对应的,在python3.x 中会使用import url

深夜,我用python爬取了整个斗图网站,不服来斗

深夜,我用python爬取了整个斗图网站,不服来斗 QQ.微信斗图总是斗不过,索性直接来爬斗图网,我有整个网站的图,不服来斗. 废话不多说,选取的网站为斗图啦,我们先简单来看一下网站的结构 网页信息 从上面这张图我们可以看出,一页有多套图,这个时候我们就要想怎么把每一套图分开存放(后边具体解释) 通过分析,所有信息在页面中都可以拿到,我们就不考虑异步加载,那么要考虑的就是分页问题了,通过点击不同的页面,很容易看清楚分页规则 很容易明白分页URL的构造,图片链接都在源码中,就不做具体说明了明白了这

Python练习【爬取银行网站信息】

功能实现 爬取所有银行的银行名称和官网地址(如果没有官网就忽略),并写入数据库: 银行链接: http://www.cbrc.gov.cn/chinese/jrjg/index.html 编程思路 1.利用url访问页面并获取页面信息 2.利用正则表达式对页面信息进行筛选,获取我们需要的信息 3.保存至Mysql数据库中 1.获取网页信息并保存至文件 from urllib.request import urlopen # 获取页面信息 def getPageInfo(url): pageInf