python爬取凤凰网站的新闻，及其链接地址，来源，时间和内容，用selenium自动化和requests处理数据

 1 import requests
 2 from selenium import webdriver
 3 import time
 4
 5 def grasp(urlT):
 6 driver = webdriver.Chrome(r‘C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe‘) #自动化测试程序工具本地所在地
 7 resAll = [] #用于存储单条数据
 8 rest = {} #用于存储单个数据
 9 res=requests.get(urlT)
10 for i in range(0,29):
11 print(res.json()[‘data‘][i][‘title‘])
12 try:
13 print(res.json()[‘data‘][i][‘newsTime‘])
14 except:
15 print(‘None‘)
16 print(res.json()[‘data‘][i][‘source‘])
17 print(res.json()[‘data‘][i][‘url‘])
18 rest[‘title‘]=res.json()[‘data‘][i][‘title‘]
19 try:
20 rest[‘newsTime‘] = res.json()[‘data‘][i][‘newsTime‘]
21 except:
22 rest[‘newsTime‘] = ‘None‘
23 rest[‘source‘] = res.json()[‘data‘][i][‘source‘]
24 url = res.json()[‘data‘][i][‘url‘]
25 rest[‘url‘] = res.json()[‘data‘][i][‘url‘]
26 try:
27 driver.get(url)
28 time.sleep(4)
29 contend = driver.find_element_by_class_name(‘text-3zQ3cZD4‘).text
30 rest[‘contend‘] = str(contend)
31 print(contend)
32 driver.back()
33 time.sleep(6)
34 except:
35 print(f‘第{i}条新闻失败‘)
36 print(‘#-----------------------某些格式不符合------------------------#‘)
37 resAll.append(rest)
38 with open(‘./news.txt‘, ‘a+‘, encoding=‘utf-8‘) as f:
39 try:
40 f.write(‘‘.join(resAll[i].values())+‘\n‘)
41 except:
42 print(‘写入失败‘)
43
44 url = "https://shankapi.ifeng.com/spring/finance/index/newInfoIndex/75219"
45 grasp(url)
46
47
48 class Grasp:
49
50 def __init__(self):
51 self.driver = webdriver.Chrome(r‘C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe‘)
52 self.resAll = []#用于存储单条数据
53 self.rest = {}#用于存储单个数据
54 self.res = requests.get("https://shankapi.ifeng.com/spring/finance/index/newInfoIndex/75219")#目标链接
55
56 def run(self):
57 for i in range(0, len(self.res.json()[‘data‘])):
58 print(self.res.json()[‘data‘][i][‘title‘]) #输出标题
59 try:
60 print(self.res.json()[‘data‘][i][‘newsTime‘]) #输出时间
61 except:
62 print(‘None‘)
63 print(self.res.json()[‘data‘][i][‘source‘]) #输出来源
64 print(self.res.json()[‘data‘][i][‘url‘]) #输出链接地址
65 self.rest[‘title‘] = self.res.json()[‘data‘][i][‘title‘] #获取标题
66 try:
67 self.rest[‘newsTime‘] = self.res.json()[‘data‘][i][‘newsTime‘] #获取时间
68 except:
69 self.rest[‘newsTime‘] = ‘None‘
70 self.rest[‘source‘] = self.res.json()[‘data‘][i][‘source‘] #获取来源
71 self.url = self.res.json()[‘data‘][i][‘url‘]
72 self.rest[‘url‘] = self.res.json()[‘data‘][i][‘url‘]#获取链接地址
73 try:
74 self.driver.get(url)
75 time.sleep(4)
76 self.contend = self.driver.find_element_by_class_name(‘text-3zQ3cZD4‘).text#获取网页标签下的文本
77 self.rest[‘contend‘] = str(self.contend)#插入单条数据
78 print(f‘第{i}条新闻成功‘)
79 self.driver.back()
80 time.sleep(4)
81 except:
82 print(f‘第{i}条新闻失败‘)
83 print(‘#-----------------------某些格式不符合------------------------#‘)
84 self.resAll.append(self.rest)
85 with open(‘./news.txt‘, ‘a+‘, encoding=‘utf-8‘) as f:
86 try:
87 f.write(f‘第{i}条新闻开始‘)
88 f.write(‘‘.join(self.resAll[i].values()) + ‘\n‘) #写入数据
89 f.write(f‘第{i}条新闻结束‘)
90 except:
91 print(‘写入失败‘)
92
93 g = Grasp()
94 g.run()

有写规则需要自己定义判断。

希望，帮到大家

原文地址：https://www.cnblogs.com/superSmall/p/11520883.html

时间： 2024-11-03 19:53:44

python爬取凤凰网站的新闻，及其链接地址，来源，时间和内容，用selenium自动化和requests处理数据的相关文章

python爬取某个网站的图片并保存到本地

python爬取某个网站的图片并保存到本地 #coding:utf-8 import urllib import re import sys reload(sys) sys.setdefaultencoding('gb2312') #获取整个页面的数据 def getHtml (url): page = urllib.urlopen(url) html = page.read() return html #保存图片到本地 def getImg(html): reg = r'src="(.+?\.

python爬取视频网站m3u8视频，下载.ts后缀文件，合并成整视频

最近发现一些网站,可以解析各大视频网站的vip.仔细想了想,这也算是爬虫呀,爬的是视频数据. 首先选取一个视频网站,我选的是影视大全 ,然后选择上映不久的电影 "一出好戏" . 分析页面我用的是chrome浏览器,F12进入查看.选择NetWork的Doc,发现主体部分的数据是从这个网站获取的. 在地址栏输入这个链接,跳转到了视频来源的播放页面. 当然,在这个页面就可以直接观看视频了,但是我们要把视频下载下来. 寻找视频文件仍然是之前那个页面,在Other中,我们发现了一些奇怪的

爬取资讯网站的新闻并保存到excel

#!/usr/bin/env python#* coding:utf-8 *#author:Jacky from selenium.webdriver.common.keys import Keysfrom selenium import webdriverfrom bs4 import BeautifulSoupimport xlwt driver = webdriver.Firefox()driver.implicitly_wait(3)first_url = 'http://www.yid

（原）爬取辽宁科技大学相关新闻---python爬虫入门

有人说大部分python程序员都是通过爬虫入门的或者都是由爬虫喜欢上python的.还有大部分人学爬虫都喜欢拿自己学校的网站练手.我就是基于以上两点开始的... ok,开始,首先你需要一点python基础,一点点基础就可以,找一本薄薄的书过一遍,可以上这来找找 http://wiki.woodpecker.org.cn/moin/PyBooks 看书不爽,那你上这来看看,几道简简单单的题做过之后,顿觉一览众山小 http://www.pythontutor.com/ 咱们不是一边学爬虫,一边学p

Python 爬取广州商学院新闻----测试版

Python 爬取广州商学院新闻----测试版程序简述:抓取广州商学院新闻栏目的全部新闻内容开发环境:PyCharm Community Edition 爬取连接:http://news.gzcc.cn/ 作者:siberia 详细内容:http://easyboy1.blog.163.com/blog/static/2641120382017103105416810/ 详细内容:http://easyboy1.blog.163.com/blog/static/264112038201710

python爬虫--爬取某网站电影下载地址

前言:因为自己还是python世界的一名小学生,还有很多路要走,所以本文以目的为向导,达到目的即可,对于那些我自己都没弄懂的原理,不做去做过多解释,以免误人子弟,大家可以网上搜索. 友情提示:本代码用到的网址仅供交流学习使用,如有不妥,请联系删除. 背景:自己有台电脑要给老爸用,老爷子喜欢看一些大片,但是家里网络环境不好,就想批量下载一些存到电脑里.但是目前大部分的网站都是这样的, 需要一个个地点进去,才能看到下载地址如果我要下载100部电影,那肯定手都要点断了,于是便想把这些地址给爬取出来,

python爬虫-基础入门-爬取整个网站《3》

python爬虫-基础入门-爬取整个网站<3> 描述: 前两章粗略的讲述了python2.python3爬取整个网站,这章节简单的记录一下python2.python3的区别 python2.x 使用类库: >> urllib 库 >> urllib2 库 python3.x 使用的类库: >> urllib 库变化: -> 在python2.x中使用import urllib2 ----- 对应的,在python3.x 中会使用import url

深夜，我用python爬取了整个斗图网站，不服来斗

深夜,我用python爬取了整个斗图网站,不服来斗 QQ.微信斗图总是斗不过,索性直接来爬斗图网,我有整个网站的图,不服来斗. 废话不多说,选取的网站为斗图啦,我们先简单来看一下网站的结构网页信息从上面这张图我们可以看出,一页有多套图,这个时候我们就要想怎么把每一套图分开存放(后边具体解释) 通过分析,所有信息在页面中都可以拿到,我们就不考虑异步加载,那么要考虑的就是分页问题了,通过点击不同的页面,很容易看清楚分页规则很容易明白分页URL的构造,图片链接都在源码中,就不做具体说明了明白了这

Python练习【爬取银行网站信息】

功能实现爬取所有银行的银行名称和官网地址(如果没有官网就忽略),并写入数据库: 银行链接: http://www.cbrc.gov.cn/chinese/jrjg/index.html 编程思路 1.利用url访问页面并获取页面信息 2.利用正则表达式对页面信息进行筛选,获取我们需要的信息 3.保存至Mysql数据库中 1.获取网页信息并保存至文件 from urllib.request import urlopen # 获取页面信息 def getPageInfo(url): pageInf