1)⑥爬取腾讯经济相关的部分新闻

 1 __author__ = ‘minmin‘
 2 #coding:utf-8
 3 import re,urllib,sgmllib
 4
 5 #根据当前的主页url获取html
 6 def getHtml(url):
 7     page = urllib.urlopen(url)
 8     html = page.read()
 9     page.close()
10     return html
11
12
13 #html链接的标签是“a”,链接的属性是“href”,也就是要获得html中所有tag=a,attrs=href 值。
14 class URLPaser(sgmllib.SGMLParser):
15     def reset(self):
16         sgmllib.SGMLParser.reset(self)
17         self.urls = []
18
19     def start_a(self,attrs):
20         href = [v for k,v in attrs if k == ‘href‘]
21         if href:
22             self.urls.extend(href)
23
24 #根据html获取想要的文章内容
25 def func(str):
26     #用正则表达式提取自己想要获取的内容
27      result = re.findall(r"<P style=\"TEXT-INDENT: 2em\">([^<>]*)<\/P>",getHtml(url),re.M)
28      artical =‘‘
29      for j in result:
30          if len(j)<>0:
31              j = j.replace("<STRONG>","   ")#去掉<STRONG>,换成"     "
32              j = j.replace("</STRONG>","   ")#去掉</STROGN>换成"     "
33              artical = artical + j + ‘\n‘
34      return  artical
35
36
37 IParser = URLPaser()
38 socket = urllib.urlopen("http://finance.qq.com/")#打开主页
39
40 IParser.feed(socket.read())#开始分析处理
41
42 reg = ‘http://finance.qq.com/a/.*‘#用来匹配符合条件的链接,使用正则表达式匹配
43
44 pattern = re.compile(reg)
45
46 i = 0
47 url2 = []
48 for url in IParser.urls:#链接都存在urls里
49
50     if pattern.match(url):#匹配符合条件的链接
51         artical = func(url)#调用函数func
52         if url not in url2:#重复的url不再进行提取文章内容
53              url2.append(url)
54              print url
55              if len(artical)<>0:#如果文章捏弄内容不为空
56                    print artical
57                    i = i + 1
58                    #这个文件地址是文件保存地址,可根据要保存位置自己进行相应的更改
59                    f = open("qq/Economy/"+str(i) + ‘.txt‘,‘a+‘)#把提取的内容按顺序保存在相应文件夹中
60                    f.write(artical)
61                    f.close()
62
63
64 #################################################################################################################
65 #注:本文借鉴http://www.jb51.net/article/52062.htm
66 #并在其基础上改进的 重复的url不再进行爬取,并把提取的内容写到指定的文件夹中
67 #################################################################################################################
时间: 2024-10-12 21:46:15

1)⑥爬取腾讯经济相关的部分新闻的相关文章

Python爬虫实战:爬取腾讯视频的评论

前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 易某某 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 http://note.youdao.com/noteshare?id=3054cce4add8a909e784ad934f956cef 一.前提条件 安装了Fiddler了(用于抓包分析) 谷歌或火狐浏览器 如果是谷歌浏览器,还需要给谷歌浏览器安装一个SwitchyOmega插件,用于

Python爬虫爬取腾讯视频动漫专区的动漫及其描述

闲来无事爬点动漫资讯看看 下面这个是腾讯视频动漫板块的超链接 [https://v.qq.com/channel/cartoon?listpage=1&channel=cartoon&iarea=1] 上面的红框中第一个是动漫的标题,第二个是动漫的咨询简单描述 如何用Python爬取上述信息 首先要用浏览器的开发者工具查到相应的信息实在那几个html文件中 上面的红框中就是对应的标签,但我们用正则表达式取标签的时候应该尽量取它的上一层标签(因为如果单单取名字标签,很难把对应的描述最后对应起

爬取腾讯vip视频

今天用油猴脚本vip一件解析看神奇队长.想到了问题,这个页面应该是找到了视频的api的接口,通过接口调用获取到了视频的地址. 那自己找腾讯视频地址多费劲啊,现在越来越多的参数,眼花缭乱的. 那我就找到这个能够解析vip视频的,解析网站的视频地址,不就OK了. network上发现,这个视频是通过ts流的形式. 并且还有视频地址和index.m3u8,但是我们怎么获得这些20190527/参数呢.(m3u8中有一部电影的所有ts流参数) 我找到了个api.php,即接口地址,访问,返回json数据

使用Python爬取腾讯房产的新闻,用的Python库:requests 、re、time、BeautifulSoup ????

import requests import re import time from bs4 import BeautifulSoup today = time.strftime('%Y-%m-%d',time.localtime(time.time())) one_url = 'http://hz.house.qq.com' #用来构建新的URL的链接 url = 'http://hz.house.qq.com/zxlist/bdxw.htm' #需要爬取的网址 html = requests

爬取腾讯网的热点新闻文章 并进行词频统计(Python爬虫+词频统计)

前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:一棵程序树 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http://t.cn/A6Zvjdun 我们以财经分栏为例,这里我们观察网页源码可以看到这些新闻的排布都是放在一个无序列表中,每一条新闻都是一个li,那么我们只要获取了所有的li(即li对应的ul)就能进一步解析.所以我们通过beautfulsoup来解析源码.那么获取所有li就很简单了

1)①爬取中国新闻网科技相关部分新闻

1 __author__ = 'minmin' 2 #coding:utf-8 3 import re,urllib,sgmllib,os 4 5 #根据当前的url获取html 6 def getHtml(url): 7 page = urllib.urlopen(url) 8 html = page.read() 9 page.close() 10 return html 11 12 #根据html获取想要的文章内容 13 def func(str): 14 result = re.find

python 爬虫爬取腾讯新闻科技类的企鹅智酷系列(1)

废话不多说,直接贴代码,主要采用BeautifulSoup写的 # -*- coding: utf-8 -*- """ Created on Mon May 18 19:12:06 2015 @author: Administrator """ import urllib import os from bs4 import BeautifulSoup import sys reload(sys) sys.setdefaultencoding(&q

爬虫实例——爬取python百度百科相关一千个词条

调度器: import url_manager,html_downloader,html_parser,html_outputer class SpiderMain(object): """docstring for SpiderMain""" def __init__(self): self.urls = url_manager.UrlManager() self.downloader = html_downloader.HtmlDownloa

python_爬虫_腾讯新闻app 单页新闻数据分析爬取

p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 11.0px "Helvetica Neue"; color: #000000 } p.p2 { margin: 0.0px 0.0px 0.0px 0.0px; font: 11.0px "Helvetica Neue"; color: #000000; min-height: 12.0px } p.p3 { margin: 0.0px 0.0px 0.0px 0.0px;