python2.7 beautifulsoup学习使用

    学习使用python的beautiful soup库,大大方便了网络爬虫对于HTML文件的解析,beautiful soup将HTML拆解成对象处理,将HTML转换成字典和数组,相比利用正则表达式解析的爬虫,省略了学习正则表达式的高成本

    说人话就是正则表达式太难了,博主学不会!

    本篇只介绍Beautiful Soup的使用,不涉及安装、配置。

    Beautiful Soup的使用方法如下:

    1、创建Beautiful Soup对象

    首先导入bs4库,创建Beautiful Soup对象

    ?


    1

    2

    from
    bs4 import BeautifulSoup
    #导入BeautifulSoup模块

    soup
    = BeautifulSoup(html.decode(
    "utf-8"))#创建BeautifulSoup对

    2、格式化输出

    官方文档实例

    ?


    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11

    12

    13

    14

    15

    16

    17

    18

    19

    20

    21

    22

    23

    24

    25

    26

    from
    BeautifulSoup import BeautifulSoup

    import
    re

    doc
    = [
    ‘<title>Page
    title</title>‘
    ,

           ‘<p
    id="firstpara" align="center">This is paragraph <b>one</b>.‘
    ,

           ‘</p><p
    id="secondpara" align="blah">This is paragraph <b>two</b>.‘
    ]

    soup
    = BeautifulSoup(
    ‘‘.join(doc))

    print
    soup.prettify()

    #  
    <title>

    #   
    Page title

    #  
    </title>

    #  
    </p><p id="firstpara" align="center">

    #   
    This is paragraph

    #   
    <b>

    #    
    one

    #   
    </b>

    #   
    .

    #  
    </p>

    #  
    <p id="secondpara" align="blah">

    #   
    This is paragraph

    #   
    <b>

    #    
    two

    #   
    </b>

    #   
    .

    #  
    </p>

    后面再补充。。。。

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-10-07 13:37:57

python2.7 beautifulsoup学习使用的相关文章

Python2.7.3学习-第一个程序Hello Python World

Hello World 每学一门语言开始的第一程序都是Hello World ,当然了Python也不例外,下面开始我们的Python第一个程序编写: 1,命令行: (1)打开终端,输入python,则进入了Python环境 (2)语法:print() 输入命令:print('Hello World !'),则会对应的显示Hello World! 2,JEdit文本: 编写代码:print ‘ Hello World !’ 保存命名为 HelloWorld.py 到 /home/xz/Pytho

python语言特性-------python2.7教程学习【廖雪峰版】(一)

开始学习廖雪峰的py2.7教程: 2017年6月5日12:54:28 笔记: 廖雪峰python2.7教程1.用任何编程语言来开发程序,都是为了让计算机干活.  2.Python是一种相当高级的语言.代码少还不好?代码少的代价是运行速度慢.3.用Python可以做什么?可以做日常任务,比如自动备份你的MP3:可以做网站,很多著名的网站包括YouTube就是Python写的:可以做网络游戏的后台,很多在线游戏的后台都是Python开发的.4.Python的哲学就是简单优雅,尽量写容易看明白的代码,

Beautiful Soup 4库--python2.x(学习日记)

http://beautifulsoup.readthedocs.io/zh_CN/latest/(内容摘自官方文档(中文)) 只是把 我做爬虫暂时要用到的方法类整理了下,具体的数据结构 和 不常用的没有看 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间. 一:简单用法 文档示例(html文档) html_doc = "&qu

python:BeautifulSoup学习

上一篇说到用BeautifulSoup解析源代码,下面我们就来实战一下: 1 from bs4 import BeautifulSoup 2 html = urllib.request.urlopen('http://www.massey.ac.nz/massey/learning/programme-course/programme.cfm?prog_id=93536') 3 html = html.read().decode('utf-8') 4 soup = BeautifulSoup(h

BeautifulSoup学习 之结构

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: Tag NavigableString BeautifulSoup Comment ()1).Tag 就是html中的标签,如图所示 代码: html '<title>The Dormouse\'s story</title> <a class="sister" href="http://example.com/elsi

Python2.7.3 学习——准备Windows下开发环境

/** * 作者:crazyandcoder * 联系: * QQ : 275137657 * email: [email protected] * 转载请注明出处! */ 首先从官网上下载安装包:Python官网,然后安装下载下来的python-2.7.10.msi安装包. 图1 图2 图3 图4 图5 这就完成了Python的安装,我们现在需要来测试一下是否安装成功!打开cmd,输入Python,一般会出现一下两种情况: "python不是外部或内部命令,也不是可运行的程序或者批处理文件&q

beautifulsoup学习-抓取页面并解析

以汽车之家为例子,抓取页面并进行解析 # -*- coding=utf-8 -*- import urllib2 from BeautifulSoup import BeautifulSoup as bs3 import json import codecs #字符检测,用来检测其真实的编码格式 import chardet #save content to file def save_to_file(filename, content): f = open(filename, 'w+') as

BeautifulSoup学习笔记

本文使用的是BeautifulSoup 3,现在已经有BeautifulSoup4了,名字改为bs4 (1)下载与安装 1 2 # BeautifulSoup 的下载与安装 pip install BeautifulSoup 另外也可以下载安装包进行安装 (2)快速开始 1 2 3 4 # BeautifulSoup 快速开始 html_doc = urllib2.urlopen('http://baike.baidu.com/view/1059363.htm') soup = Beautifu

python基础-------python2.7教程学习【廖雪峰版】(二)

2017年6月7日14:59:27任务:    看完python基础1.计算机顾名思义就是可以做数学计算的机器,因此,计算机程序理所当然地可以处理各种数值.但是,计算机能处理的远不止数值,还可以处理文本.图形.音频.视频.网页等各种各样的数据,不同的数据,需要定义不同的数据类型.2.因为感情的事,自己心情真是巨差,差到爆炸,提不起精神来学习,靠.3.整数和浮点数在计算机内部存储的方式是不同的,整数运算永远是精确的(除法难道也是精确的?是的!),而浮点数运算则可能会有四舍五入的误差.4.字符串是以