python bs4 BeautifulSoup

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。bs4 模块的 BeautifulSoup 配合requests库可以写简单的爬虫。

安装


  • 命令pip install beautifulsoup4

解析器


  • 主要的解析器,以及它们的优缺点如下:

安装命令:

  • pip install lxml
  • pip install html5lib

requests


  • requests的底层实现就是urllib, requests能够自动帮助我们解压(gzip压缩的等)网页内容
  • 安装命令:pip install requests
  • 推荐使用 response.content.deocde() 的方式获取响应的html页面

pandas


  • 安装命令:pip install pandas
  • 基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。

数据结构:

  • Series:一维数组,与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近,其区别是:List中的元素可以是不同的数据类型,而Array和Series中则只允许存储相同的数据类型,这样可以更有效的使用内存,提高运算效率。
  • Time- Series:以时间为索引的Series。
  • DataFrame:二维的表格型数据结构。很多功能与R中的data.frame类似。可以将DataFrame理解为Series的容器。以下的内容主要以DataFrame为主。
  • Panel :三维的数组,可以理解为DataFrame的容器。

使用



Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:

  • Tag
  • NavigableString
  • BeautifulSoup
  • Comment

Tag:Tag 对象与XML或HTML原生文档中的tag相同,tag中最重要的属性: name和attributes

从网页中获取指定标签、属性值,取值方式:

  • 通过标签名获取:tag.name        tag对应的type是<class ‘bs4.element.Tag‘>
  • 通过属性获取:tag.attrs
  • 获取标签属性:tag.get(‘属性名‘)  或  tag[‘属性名‘]

功能标签

  • stripped_strings:输出的字符串中可能包含了很多空格或空行,使用 .stripped_strings 可以去除多余空白内容
  • 标准输出页面:soup.prettify()

查找元素:

  • find_all(class_="class")    返回的是多个标签
  • find(class_="class")    返回一个标签
  • select_one()    返回一个标签
  • select()    返回的是多个标签
  • soup = BeautifulSoup(backdata,‘html.parser‘)  #转换为BeautifulSoup形式属性
  • soup.find_all(‘标签名‘,attrs{‘属性名‘:‘属性值‘}  )     #返回的是列表
  • limitk 控制 find_all 返回的数量
  • recursive=Flase 返回tag的直接子元素

demo


import sys
import io
import requests
from bs4 import BeautifulSoup as bs
import pandas as pd
import numpy as np
from py_teldcore import sqlserver_db as db

sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding=‘gb18030‘)

url = "http://www.tianqihoubao.com/lishi/hefei/month/201812.html"

def get_soap():
    try:
        r = requests.get(url)
        soap = bs(r.text, "lxml")
        return soap
    except Exception as e:
        print(e)
        return "Request Error"

def save2cvs(data, path):
    result_weather = pd.DataFrame(data, columns=[‘date‘, ‘tq‘, ‘temp‘, ‘wind‘])
    result_weather.to_csv(path,  encoding=‘gbk‘)
    print(‘save weather sucess‘)

def save2mssql(data):
    sql = "Insert into Weather(date, tq, temp, wind) values(%s, %s, %s, %s)"
    data_list = np.ndarray.tolist(data)

    # sqlvalues = list()
    # for data in data_list:
    #     sqlvalues.append(tuple(data))

    sqlvalues = [tuple(iq) for iq in data_list]

    try:
        db.exec_sqlmany(sql, sqlvalues)
    except Exception as e:
        print(e)

def get_data():
    soap = get_soap()
    print(soap)
    all_weather = soap.find("div", class_="wdetail").find("table").find_all("tr")
    data = list()
    for tr in all_weather[1:]:
        td_li = tr.find_all("td")
        for td in td_li:
            s = td.get_text()
            data.append("".join(s.split()))

    res = np.array(data).reshape(-1, 4)
    return res

if __name__ == "__main__":
    data = get_data()
    save2mssql(data)
    print("save2 Sqlserver ok!")

  

参考资料


原文地址:https://www.cnblogs.com/tgzhu/p/11385068.html

时间: 2024-10-17 07:14:40

python bs4 BeautifulSoup的相关文章

用python的BeautifulSoup分析html

http://www.cnblogs.com/twinsclover/archive/2012/04/26/2471704.html  用python的BeautifulSoup分析html http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html  Beautiful Soup 中文文档 1) 搜索tag: find(tagname)        # 直接搜索名为tagname的tag 如:find('hea

Python之BeautifulSoup常用详细使用

因工作需要,日常工作中有不少时间是用在了反复登陆内网. 故详细研究测试了BeautifulSoup的用法,总结下来备用爬网页之需. 首先是导入模块并初始化了: from bs4 import BeautifulSoup soup=BeautifulSoup(opener) #1.tag标签法如果一层层的标签包下去,只取每层标签第一个,或只有唯一一个时,可以用 soup.head.title 但并行多个同名标签的则不能title[2]之类查找 #2.contents法根据文档树进行搜索,返回标记对

【爬虫】python之BeautifulSoup用法

1.爬虫      网络爬虫是捜索引擎抓取系统的重要组成部分.爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份.通过分析和过滤HTML 代码,实现对图片.文字等资源的获取. 2.python类库之BeautifulSoup      利用python写爬虫,可以使用urllib2等库结合正则表达式来实现.但是正则表达式比较复杂.不小心会进入死循环.BeautifulSoup是一个更强大的工具,可以方便的提取出HTML或XML标签中的内容.      现在使用的版本是BS4,

Ubuntu下python的BeautifulSoup和rsa安装方法

最近因为<信息检索>第二个project,需要爬取微博数据,然后再处理.师兄给了代码,让慢慢爬,但是在ubuntu下,少了很多python软件包.需要安装. 1.首先运行时,说少了python,BeautifulSoup包,用来解析html文件神奇,这么重要的包怎么能缺少呢,百度ubuntu python BeautifulSoup后,看博客后找到方法: 先安装easy_install工具: 再用easy_install安装: easy_install BeautifulSoup 若是还没有安

Python库-BeautifulSoup

sp = BeautifulSoup.bs4.BeautifulSoup(html.text,"html.parser") 方法 1.sp.title 返回网页标题 2.sp.text 返回去除所有HTML标签后的网页内容 3.sp.find(name=None, attrs={}, recursive=True, text=None, **kwargs) 该函数返回值为字符串 第一个参数是标签名字,第二个是个网页属性的字典,例如: <a href = "http://

python学习——Beautifulsoup 模块

未完!!! 使用方法: find(name,attrs,recursive,text,**kwargs)find返回的匹配结果的第一个元素 其他一些类似的用法:find_parents()返回所有祖先节点,find_parent()返回直接父节点.find_next_siblings()返回后面所有兄弟节点,find_next_sibling()返回后面第一个兄弟节点.   //这个可以返回一个列表,且返回对象是Tag类型:find_previous_siblings()返回前面所有兄弟节点,f

python安装BeautifulSoup

1.先下载pip https://pypi.python.org/pypi/pip 安装pip cd到路径 python setuo.py install 2.添加目录到环境变量中 xxx\Python35-32\Scripts 3.安装BeautifulSoup pip install BeautifulSoup4 4.验证是否安装完成 ide导入from bs4 import BeautifulSoup 可以 使用说明安装完成

python3实践-从网站获取数据(Carbon Market Data-GD) (bs4/Beautifulsoup)

结合个人需求,从某个网站获取一些数据,发现网页链接是隐藏的,需要通过浏览器看后面的代码来获取真实的链接. 下面这个案例,直接是从真实的链接中爬去数据. 此外,发现用pandas的read_html不能直接解析“lxml”的表格,有待后续研究. 另外,爬去的数据发现有很多空格符号,主要是 "\r"."\n"."\t", 字符串的去除 "\r"."\n"."\t" 的方法也一并添加在这个案例

用python的BeautifulSoup分析京东html

之前用python爬取网页的时候,一直用的是regex或者自带的库sgmllib里的SGMLParser.但是遇到复杂一点的情况时,SGMLParser往往就不那么给力了!(哈,难道说我 too native了?毕竟beautifulSoup是继承sgmlparser的么~)所以,我寻寻觅觅寻寻觅觅,发现了BeautifulSoup这么个玩意.BeautifulSoup提供了很人性化的parser tree,有了它,我们可以简单的抽取出tagname, attrs, text等等等等... in