python爬虫，使用BeautifulSoup模块爬取人民网新链接，标题，时间

import requests
from bs4 import BeautifulSoup as bs
res = requests.get(‘http://politics.people.com.cn/GB/1024/index.html‘)
content = res.content.decode(‘GB2312‘)
soup = bs(content, ‘html5lib‘)
myList = soup.find_all(‘li‘)

myNews = {}
for i in myList:
    myNews = {}
    myNews[‘title‘] = i.find(‘a‘).get_text()
    myNews[‘link‘] = i.find(‘a‘).get(‘href‘)
    myNews[‘time‘] = i.find(‘em‘).get_text()
    print(myNews)

　　运行结果显示：

{‘title‘: ‘千方百计加快恢复和稳定就业为就业创业、灵活就业提供更多机会‘, ‘link‘: ‘/n1/2020/0321/c1024-31642187.html‘, ‘time‘: ‘2020-03-21‘}
{‘title‘: ‘在精准防控疫情的同时积极有序推进复工复产稳住和支持市场主体增强经济回升动力‘, ‘link‘: ‘/n1/2020/0321/c1024-31642183.html‘, ‘time‘: ‘2020-03-21‘}
{‘title‘: ‘李克强：在精准防控疫情的同时积极有序推进复工复产稳住和支持市场主体增强经济回升动力‘, ‘link‘: ‘/n1/2020/0320/c1024-31642058.html‘, ‘time‘: ‘2020-03-20‘}

通过和上一篇博客使用正则表达式抓取人民网新闻相比较，对于简单的网页抓取，使用正则表达式获取网页信息更简单，快捷。

原文地址：https://www.cnblogs.com/iceberg710815/p/12540424.html

时间： 2024-11-08 15:54:48

python爬虫，使用BeautifulSoup模块爬取人民网新链接，标题，时间的相关文章

Python爬虫实战二之爬取百度贴吧帖子

大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 前言亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不好使,八成是正则表达式那儿匹配不到了,请更改一下正则,当然最主要的还是帮助大家理解思路. 2016/12/2 本篇目标 1.对百度贴吧的任意帖子进行抓取 2.指定是否只抓取楼主发帖内容 3.将抓取到的内容分析并保存到文件 1.URL格式的确定首先,我们先观察一下百度贴吧的任意一个帖子. 比如:ht

转 Python爬虫实战二之爬取百度贴吧帖子

静觅 » Python爬虫实战二之爬取百度贴吧帖子大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标 1.对百度贴吧的任意帖子进行抓取 2.指定是否只抓取楼主发帖内容 3.将抓取到的内容分析并保存到文件

Python爬虫新手教程：爬取了6574篇文章，告诉你产品经理在看什么！

作为互联网界的两个对立的物种,产品汪与程序猿似乎就像一对天生的死对头:但是在产品开发链条上紧密合作的双方,只有通力合作,才能更好地推动项目发展.那么产品经理平日里面都在看那些文章呢?我们程序猿该如何投其所好呢?我爬取了人人都是产品经理栏目下的所有文章,看看产品经理都喜欢看什么. 1. 分析背景 1.1. 为什么选择「人人都是产品经理」人人都是产品经理是以产品经理.运营为核心的学习.交流.分享平台,集媒体.培训.招聘.社群为一体,全方位服务产品人和运营人,成立8年举办在线讲座500+期,线下分享

Python 爬虫入门实例（爬取小米应用商店的top应用apk）

一,爬虫是什么? 爬虫就是获取网络上各种资源,数据的一种工具.具体的可以自行百度. 二,如何写简单爬虫 1,获取网页内容可以通过 Python(3.x) 自带的 urllib,来实现网页内容的下载.实现起来很简单 import urllib.request url="http://www.baidu.com" response=urllib.request.urlopen(url) html_content=response.read() 还可以使用三方库 requests ,实现起

Python爬虫实战教程：爬取网易新闻；爬虫精选高手技巧

前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. stars声明很多小伙伴学习Python过程中会遇到各种烦恼问题解决不了.为此小编建了个群 624440745. 不懂的问题有老司机解决里面还有最新Python教程项目可拿,,一起相互监督共同进步! 此文属于入门级级别的爬虫,老司机们就不用看了. 本次主要是爬取网易新闻,包括新闻标题.作者.来源.发布时间.新闻正文. 首先我们打开163的网站,我们随意选择一个分类,这里我选

Python爬虫之利用正则表达式爬取内涵吧

首先,我们来看一下,爬虫前基本的知识点概括一. match()方法: 这个方法会从字符串的开头去匹配(也可以指定开始的位置),如果在开始没有找到,立即返回None,匹配到一个结果,就不再匹配. 我们可以指定开始的位置的索引是3,范围是3-10,那么python将从第4个字符'1'开始匹配,只匹配一个结果. group()获得一个或多个分组的字符串,指定多个字符串时将以元组的形式返回,group(0)代表整个匹配的字串,不填写参数时,group()返回的是group(0). 1 import r

Python爬虫系列 - 初探：爬取旅游评论

Python爬虫目前是基于requests包,下面是该包的文档,查一些资料还是比较方便. http://docs.python-requests.org/en/master/ 爬取某旅游网站的产品评论,通过分析,获取json文件需要POST指令.简单来说: GET是将需要发送的信息直接添加在网址后面发送 POST方式是发送一个另外的内容到服务器那么通过POST发送的内容可以大概有三种,即form.json和multipart,目前先介绍前两种 1.content in form Content

python爬虫--2019中国好声音评论爬取

2019中国好声音火热开播,作为一名"假粉丝",这一季每一期都刷过了,尤其刚播出的第六期开始正式的battle.视频视频看完了,那看下大家都是怎样评论的. 1.网页分析部分本文爬取的是腾讯视频评论,第六期的评论地址是:http://coral.qq.com/4093121984每页有10条评论,点击"查看更多评论",可将新的评论加载进来,通过多次加载,可以发现我们要找的评论就在以v2开头的js类型的响应中. 请求为GET请求,地址是http://coral.qq.

Python爬虫之简单的爬取百度贴吧数据

首先要使用的第类库有 urllib下的request 以及urllib下的parse 以及 time包 random包之后我们定义一个名叫BaiduSpider类用来爬取信息属性有 url:用来爬取的网址 headers:请求头 class BaiduSpider(object): def __init__(self): self.url = 'http://tieba.baidu.com/f?kw={}&pn={}' self.headers = {'User

猜你喜欢

拖放相关事件

一.拖放事件 1.任何元素都有一个draggable属性,draggable=true就能拖动,拖动元素时依次触发下列事件: (1)dragstart:按下鼠标并移动时,在被拖动元素上触发: (2)d ...

apache2.4配置虚拟目录

刚开始学习,跟着韩顺平老师的视频课件学习ing~ 这是自己在配置虚拟目录时遇到的问题以及解决办法,记录下来~ ---------------------------分割线君-------------- ...

开灯问题---------简单模拟

有n盏灯,编号为1~n,第一个人把所有灯都打开,第2个人按下所有编号为2的倍数的开关(这些灯将会被关掉),第三个人按下所有编号为3的倍数的开关(其中关掉的灯将被打开,开着的灯将被关闭),一次类推,一共 ...

如何用Perl截取报文

在实际生产环境中,常常需要从后台日志中截取报文,报文的形式类似于 <InterBOSS> ... ... ... </InterBOSS> 一个后台日志有多个报文,每个报文可由 ...

stata

1.只打开部分变量: use var1 var2 using "C:\data\2014.dta" 2.打开部分样本(5~10个样本) use "C:\data\2014 ...

pro2

#include<iostream> double sum(int n,dounle[]) { double array[100]; foe(int i=0;i<100;i++; ...

hihocoder 1158 质数相关 (二分图最大独立集最大流ISAP求解)

#1158 : 质数相关时间限制:2000ms 单点时限:1000ms 内存限制:256MB 描述两个数a和 b (a<b)被称为质数相关,是指a × p = b,这里p是一个质数.一个集合 ...

Entity Framework 6.x 学习之 - 创建带连接表的实体模型 with Database First

1. 创建数据库表 CREATE TABLE [Album] ( [AlbumId] [int] NOT NULL IDENTITY(1, 1), [AlbumName] [varchar] (50) ...

《Effective C++》：条款34：区分接口继承和实现继承

public继承的概念,由2部分构成:函数接口(function Interface)继承和函数实现(function implementation)继承.这两种继承的差异有点像函数的声明和函数的定义 ...

在C语言中破坏函数调用堆栈

1 // 这段代码显示,在C语言修改函数的返回地址 2 int test1() 3 { 4 return 0; 5 } 6 7 int test2(int a) 8 { 9 *(&a-1) = ...

zabbix导入模板错误-valuemap

为了省事,在一个zabbix上导出模板,上传到另一个zabbix里面,报错内容大体意思是:模板里面的某个item的valuemap找不到解决: 在原zabbix里面,administration-- ...

计算机的输入和输出

1.冯诺依曼计算机的输入和输出 2.简单的输入假设cpu和存储器已经开始工作了,其中一条指令就是读取8个手动开关状态. cpu将地址发送到地址总线,地址总线识别出这个地址是输入输出的地址,而不是存储 ...

Xml-Jdom的使用

首先要导入jdom的jar包 //写xml public class WriteXML { public static void main(String[] args) throws FileNotF ...

P1195 口袋的天空

P1195 口袋的天空题目背景小杉坐在教室里,透过口袋一样的窗户看口袋一样的天空. 有很多云飘在那里,看起来很漂亮,小杉想摘下那样美的几朵云,做成棉花糖. 题目描述给你云朵的个数N,再给你M个关 ...

python字符串学习之一

1.字符串常量: 单引号:'spa''m' 双引号:''spa'm'' 三引号:'''xxxxxyyyyzzzznnnn''' 注意:(1)单引号和双引号的字符串都是一样的,是可以互换.因为,可以不使 ...

【Vegas原创】查询SQL Server更改记录的语句

指定数据库,然后: select Name,Create_date,Modify_Date from sys.objects where type in ('U','P', 'V','F', 'TR' ...

github、gitlab 管理多个ssh key

第一种方法: 通过 git 命令行来操作 1.cd ~/.ssh 2.ls 注:如果.ssh 目录下有文件存在那么表示之前添加过 3. ssh-keygen -t rsa -C "[emai ...

微信小程序再添能力：搜一搜增加小程序入口

随着移动互联网的快速发展,流量正悄然的变成大数据,借助"入口+流量"模式,互联网激活了大量的个性化入口,积累了巨量流量,并形成高企的资本市场估值.小程序作为当前最新的应用模式,在微 ...

MyBatis之MyBatis环境搭建

MyBatis之MyBatis环境搭建一.MyBatis开发环境搭建 1.引入Jar包 ①MyBatis mybatis-3.4.1.jar ant-1.9.6.jar ant-launcher-1 ...

工欲善其事，必先利其器，我手机里面的那些工具

本人开始学习Android的时间不长的,写写博客,不怕各位看客笑话,希望找工作的时候能派上用处,本人的机构老师说,企业喜欢这样的人嘛,能持续学习,企业看你写博,自然就加分了.我想也是,不过呢, ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.019 s.