Python 爬虫—— requests BeautifulSoup

本文记录下用来爬虫主要使用的两个库。第一个是requests，用这个库能很方便的下载网页，不用标准库里面各种urllib；第二个BeautifulSoup用来解析网页，不然自己用正则的话很烦。

requests使用，1直接使用库内提供的get、post等函数，在比简单的情况下使用，2利用session，session能保存cookiees信息，方便的自定义request header，可以进行登陆操作。

BeautifulSoup使用，先将requests得到的html生成BeautifulSoup对象，然后进行解析，可以用select进行css选择器操作，然后用get、getText等获取信息。

下面是一个登录博客园发布闪存的例子

#! python
# coding=UTF-8

from requests import session #__version__ = 2.3.0 这里直接使用session，因为要先登陆
from bs4 import BeautifulSoup #__version__ = 4.3.2

s = session() #创建一个session对象
r = s.get(‘http://passport.cnblogs.com/login.aspx‘) #该页面进行登录，先获取一些信息
bs = BeautifulSoup(r.text) #解析获取的网页
__VIEWSTATE = bs.select(‘#__VIEWSTATE‘)[0].get(‘value‘) #
__EVENTVALIDATION = bs.select(‘#__EVENTVALIDATION‘)[0].get(‘value‘) #

# post登陆时的信息，把用户名和密码改成自己的
data = {‘tbUserName‘:‘*‘, ‘tbPassword‘:‘*‘,‘chkRemember‘:‘on‘, ‘txtReturnUrl‘:‘http://i.cnblogs.com‘,‘__VIEWSTATE‘:__VIEWSTATE, ‘__EVENTVALIDATION‘:__EVENTVALIDATION,‘btnLogin‘:u‘登录‘,
}
s.post(‘http://passport.cnblogs.com/login.aspx‘, data) #登录

messages = [‘hello world‘, ‘hello cnblogs‘]

for message in messages:
    data = {‘content‘:message, ‘publicFlag‘: ‘1‘}
    r = s.post(‘http://home.cnblogs.com/ajax/ing/Publish‘, data) # 发送闪存
    print r.json() #返回一个json对象，可以看是否成功

Python 爬虫—— requests BeautifulSoup

时间： 2024-10-09 09:34:18

Python 爬虫—— requests BeautifulSoup的相关文章

python 爬虫 requests+BeautifulSoup 爬取巨潮资讯公司概况代码实例

第一次写一个算是比较完整的爬虫,自我感觉极差啊,代码low,效率差,也没有保存到本地文件或者数据库,强行使用了一波多线程导致数据顺序发生了变化... 贴在这里,引以为戒吧. # -*- coding: utf-8 -*- """ Created on Wed Jul 18 21:41:34 2018 @author: brave-man blog: http://www.cnblogs.com/zrmw/ """ import requests

解决python爬虫requests.exceptions.SSLError: HTTPSConnectionPool(host='XXX', port=443)问题

爬虫时报错如下: requests.exceptions.SSLError: HTTPSConnectionPool(host='某某某网站', port=443): Max retries exceeded with url: /login/ (Caused by SSLError(SSLError("bad handshake: Error([('SSL routines', 'tls_process_server_certificate', 'certificate verify fail

Python爬虫之Beautifulsoup模块的使用

一 Beautifulsoup模块介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的文档,Beautiful Soup 3 目前已经停止开发,官网推荐在现在的项目中使用Beautiful Soup 4, 移植到BS4 #安装 Beautiful Soup pip instal

python 爬虫proxy,BeautifulSoup+requests+mysql 爬取样例

实现思路: 由于反扒机制,所以需要做代理切换,去爬取,内容通过BeautifulSoup去解析,最后入mysql库 1.在西刺免费代理网获取代理ip,并自我检测是否可用 2.根据获取的可用代理ip去发送requests模块的请求,带上代理 3.内容入库注:日志模块在上一篇随笔下面附上代码 1.可用代理获取 # -*- coding: utf-8 -*- import random import time import requests from bs4 import BeautifulSou

Python爬虫之BeautifulSoup模块

模块安装 pip3 install beautifulsoup4 模块导入 from bs4 import BeautifulSoup 示例html内容获取html内容代码 import requests headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36

python爬虫之BeautifulSoup

Beautiful Soup,字面意思是美好的汤,是一个用于解析HTML文件的Python库 windows下载和安装在Windows下面如何安装Beautiful Soup: 1.到http://www.crummy.com/software/BeautifulSoup/网站上上下载 2.下载完成之后需要解压缩,假设放到D:/python下. 3.运行cmd,切换到D:/python/beautifulsoup4-4.1.3/目录下(根据自己解压缩后的目录和下载的版本号修改), cd /d

python爬虫---requests库的用法

requests是python实现的简单易用的HTTP库,使用起来比urllib简洁很多因为是第三方库,所以使用前需要cmd安装 pip install requests 安装完成后import一下,正常则说明可以开始使用了. 基本用法: requests.get()用于请求目标网站,类型是一个HTTPresponse类型 import requests response = requests.get('http://www.baidu.com')print(response.status_c

Python爬虫requests判断请求超时并重新发送请求

在爬虫的执行当中,总会遇到请求连接超时的情况,下面的代码块是在请求超时的情况下,捕捉超时错误并连续发送多次请求,只到请求连接成功. NETWORK_STATUS = True # 判断状态变量 try: response = requests.post(url, headers=self.headers, data=data, timeout=5) if response.status_code == 200: return response except reques

Python爬虫库BeautifulSoup获取对象(标签)名,属性,内容,注释

这篇文章主要介绍了Pythont特殊语法filter,map,reduce,apply使用方法,需要的朋友可以参考下(1)lambda lambda是Python中一个很有用的语法,它允许你快速定义单行最小函数.类似于C语言中的宏,可以用在任何需要函数的地方. 基本语法如下: 函数名 = lambda args1,args2,…,argsn : expression 例如: add = lambda x,y : x + yprint add(1,2) (2)filter filter函数相当于一