python采集新浪热门微博_郑晓_个人博客

这是之前学习python采集时的一个练习程序,程序基于python3和BeautifulSoup库。用来抓取新浪微博(热门微博hot.weibo.com)页面的信息,包括每条微博的发布人,微博内容和包含的图片,微博中含有的多张图片采集为一个图片列表。

由于在页面中没有发现比较精确的发布时间字段,所以也没有去弄(目前思路是获取到它的页面中的时间信息,然后做判断去转换)。这里以热门笑话的一个页面做为采集对象。

#-*-coding:utf-8 -*-
from?bs4?import?BeautifulSoup
import?urllib.request
#伪造的header
headers?=?{‘User-Agent‘:‘Mozilla/5.0 (Windows NT 5.2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/30.0.1599.101 Safari/537.36‘}
#抓取地址 读入页面源文件
fromurl=‘http://hot.weibo.com/?v=1899&page=2‘
r?=?urllib.request.Request(url=fromurl,?headers=headers)
response=urllib.request.urlopen(r)
page=response.read()
#实例化BS对象
soup=?BeautifulSoup(page)
#定位到微博信息主节点 页面中每一条微博是它的子节点
tags?=?soup.find_all(name=‘div‘,?attrs={‘class‘:‘WB_detail‘})
#遍历所有子节点
for?tag?in?tags:
? ??#从子节点中找到发布人
? ? sender?=?tag.find(name=‘a‘,?attrs={‘class‘:‘WB_name S_func1‘}).get_text()
? ??#从子节点中找到微博内容
? ? text?=?tag.find(name=‘div‘,?attrs={‘class‘:‘WB_text‘}).get_text()
? ??#查找节点下的微博图片
? ? thumbList?=?tag.find_all(name=‘img‘,?attrs={‘class‘:‘bigcursor‘})
? ? img?=?[]
? ??#如果有图,把所有图片的地址放到img数组中
? ??if?thumbList:
? ? ? ??for?t?in?thumbList:
? ? ? ? ? ? img.append(t[‘src‘])
? ??print(sender+text)
? ??print(img)
? ??print()
? ??print()
input()

程序运行结果如图:

本文由豆约翰博客备份专家远程一键发布

时间: 2024-08-25 02:47:14

python采集新浪热门微博_郑晓_个人博客的相关文章

新浪热门微博、热门话题抓取

A.为什么要做这个功能? 最近微博和微信开放平台的二次开发整的貌似蛮火,但做过微博开放平台的二次开发的人都会知道,新浪提供的微博访问接口并不是那么完美,有众多限制(调用频率限制.接口级别限制),对于没有经过审核通过高级接口的用户而言,要想通过API来实现这个功能,我只能说一句呵呵. B.实现方式与步骤? 1.WinForm 步骤1:调用内置控件WebBrowser对象来加载热门微博地址. 步骤2:  在后台用正则表达式解析要抓取HTML的片段,复杂的抓取往往需要程序员的正则表达式的掌握程度比较好

用python2.7,采集新浪博客

#coding=utf-8 #新浪博客 import urllib import re import os url=['']*1500 #每一骗博客的地址 title=['']*1500 #每一篇博客的标题 page=1 #博客分页 count=1 #文章计数 while page<=9: con=urllib.urlopen('http://blog.sina.com.cn/s/articlelist_1193491727_0_'+str(page)+'.html').read() i=0 h

前嗅ForeSpider教程:采集新浪新闻

最近后台有很多童鞋问怎么采集新闻,今天小编以采集新浪新闻为例,来为大家进行演示,同样适用于其他新闻网站的采集,具体操作如下: ? 第一步:新建任务 ①点击左上角"加号"新建任务,如图1:?②在弹窗里填写采集地址,任务名称,如图2:③点击下一步,选择进行数据抽取还是链接抽取,本次采集当前列表页新闻的正文数据,正文数据是通过点击列表链接进入的,所以本次需要抽取列表链接,所以点击抽取链接,如图3:第二步:通过定位过滤.地址过滤,得到所需链接 ①按住Ctrl+鼠标左键,进行区域选择,按住Shi

PhpStorm中如何配置SVN,详细操作方法 - 郑加全的博客 - CSDN博客

登录|注册     郑加全的博客 目录视图 摘要视图 订阅 CSDN日报0711--<离开校园,入职阿里,开启新的程序人生>      征文 | 你会为 AI 转型么?      专家问答 | 资深Java工程师带你解读MyBatis PhpStorm中如何配置SVN,详细操作方法 标签: subversion版本控制系统svnphpstorm开发工具 2016-07-12 15:31 22336人阅读 评论(0) 收藏 举报  分类: php(5) phpstorm(6) 版权声明:本文为博

python编写的自动获取代理IP列表的爬虫-chinaboywg-ChinaUnix博客

python编写的自动获取代理IP列表的爬虫-chinaboywg-ChinaUnix博客 undefined Python多线程抓取代理服务器 | Linux运维笔记 undefined java如果模拟请求重启路由器(网络爬虫常用),还有java如何下载图片 - baidu_nod的专栏 - 博客频道 - CSDN.NET undefined [多线程数据采集]使用Jsoup抓取数据+破解屏蔽ip访问. - MiniBu - 开源中国社区 undefined 单linux服务器同时拨多条AD

python+django+新浪sae+有道API实现微信服务号自动翻译

先看效果:你可以自己用微信搜下"黛莱美北京总代理"找下这个公众. 公众号是在淘宝上买的,最偏的那种,无法改名字了,自己玩,就这样了. 直接贴截图,代码,欢迎评论: index.wsgi文件内容: import sae from fanyi_project import wsgi application = sae.create_wsgi_app(wsgi.application) config.yaml文件内容: name: fanyi7lk version: 2 libraries:

夏盐的脸_夏盐的脸博客

我是夏盐,是广州人.(我要分享关于夏盐的脸长痘的故事).很多人都知道,我们广州人是吃不了辣的,但我天生就很喜欢吃辣,每天没有辣椒陪伴的饭局基本没有任何食欲.介绍这些是因为我觉得吃辣和痘痘是有很大关联的,后面会说到这个.虽然现在已经不会因为脸上的痘痘感到自卑了,但是这段往事一直深藏在心里,毕竟曾经为了痘痘问题绞尽脑汁,想尽办法,浪费了不少时间和金钱.钱还只是小事,主要是时间,高考那一年,我因为长痘自卑,用了很多产品都不管用,差点烦恼到连大学也不上了. 十六岁开始长痘,断断续续地一直长,一直没有停过

Python 2.7_爬取CSDN单页面利用正则提取博客文章及url_20170113

年前有点忙,没来的及更博,最近看爬虫正则的部分 巩固下 1.爬取的单页面:http://blog.csdn.net/column/details/why-bug.html 2.过程 解析url获得网站源代码 3.找到文章标题列表和文章url(a标签下'href'属性)组成列表 4.for循环取出 #解析用到的还是urlllib urllib2两个模块 并加了个header请求表头 代码及过程如下: #coding:utf-8 import re import urllib import urll

用 Windows Live Writer完美发布新浪、网易、blogcn、blogbus、cnblogs

前言: 当今网络博客.微薄铺天盖地,相信即使一个普通的用户也都注册了很多家品牌的博客或者微薄等,那么困扰着大家一个很大的问题,同时在多家博客发布同样的内容,如果说只是简单的文字还好说,复制粘贴就完事了,但是如果里面包含着图片,那么使用复制粘贴是不可以的,因为诸多博客品牌之间图片是不能共享使用的. 研究了一天,终于找到较为完美博客群发软件,那就是微软出品的Windows Live Writer,当在网上搜索博客群发软件不乏会罗列出很多的博客群发软件,像菊子曰.豆豆博客群发软件等等这些大多都是一类的