python2.7 beautifulsoup学习使用

学习使用python的beautiful soup库，大大方便了网络爬虫对于HTML文件的解析，beautiful soup将HTML拆解成对象处理，将HTML转换成字典和数组，相比利用正则表达式解析的爬虫，省略了学习正则表达式的高成本

说人话就是正则表达式太难了，博主学不会！

本篇只介绍Beautiful Soup的使用，不涉及安装、配置。

Beautiful Soup的使用方法如下：

1、创建Beautiful Soup对象

首先导入bs4库，创建Beautiful Soup对象

?

1

2

`from bs4 import BeautifulSoup#导入BeautifulSoup模块`

`soup = BeautifulSoup(html.decode("utf-8"))#创建BeautifulSoup对`

2、格式化输出

官方文档实例

?

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

`from BeautifulSoup import BeautifulSoup`

`import re`

`doc = [‘<title>Page title</title>‘,`

 `‘This is paragraph one.‘,`

 `‘This is paragraph two.‘]`

`soup = BeautifulSoup(‘‘.join(doc))`

`print soup.prettify()`

`# <title>`

`# Page title`

`# </title>`

`# `

`# This is paragraph`

`# `

`# one`

`# `

`# .`

`# `

`# `

`# This is paragraph`

`# `

`# two`

`# `

`# .`

`# `

后面再补充。。。。

时间： 2024-10-07 13:37:57

python2.7 beautifulsoup学习使用的相关文章

Python2.7.3学习-第一个程序Hello Python World

Hello World 每学一门语言开始的第一程序都是Hello World ,当然了Python也不例外,下面开始我们的Python第一个程序编写: 1,命令行: (1)打开终端,输入python,则进入了Python环境 (2)语法:print() 输入命令:print('Hello World !'),则会对应的显示Hello World! 2,JEdit文本: 编写代码:print ‘ Hello World !’ 保存命名为 HelloWorld.py 到 /home/xz/Pytho

python语言特性-------python2.7教程学习【廖雪峰版】（一）

开始学习廖雪峰的py2.7教程: 2017年6月5日12:54:28 笔记: 廖雪峰python2.7教程1.用任何编程语言来开发程序,都是为了让计算机干活. 2.Python是一种相当高级的语言.代码少还不好?代码少的代价是运行速度慢.3.用Python可以做什么?可以做日常任务,比如自动备份你的MP3:可以做网站,很多著名的网站包括YouTube就是Python写的:可以做网络游戏的后台,很多在线游戏的后台都是Python开发的.4.Python的哲学就是简单优雅,尽量写容易看明白的代码,

Beautiful Soup 4库--python2.x（学习日记）

http://beautifulsoup.readthedocs.io/zh_CN/latest/(内容摘自官方文档(中文)) 只是把我做爬虫暂时要用到的方法类整理了下,具体的数据结构和不常用的没有看 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间. 一:简单用法文档示例(html文档) html_doc = "&qu

python：BeautifulSoup学习

上一篇说到用BeautifulSoup解析源代码,下面我们就来实战一下: 1 from bs4 import BeautifulSoup 2 html = urllib.request.urlopen('http://www.massey.ac.nz/massey/learning/programme-course/programme.cfm?prog_id=93536') 3 html = html.read().decode('utf-8') 4 soup = BeautifulSoup(h

BeautifulSoup学习之结构

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: Tag NavigableString BeautifulSoup Comment ()1).Tag 就是html中的标签,如图所示代码: html '<title>The Dormouse\'s story</title> <a class="sister" href="http://example.com/elsi

Python2.7.3 学习——准备Windows下开发环境

/** * 作者:crazyandcoder * 联系: * QQ : 275137657 * email: [email protected] * 转载请注明出处! */ 首先从官网上下载安装包:Python官网,然后安装下载下来的python-2.7.10.msi安装包. 图1 图2 图3 图4 图5 这就完成了Python的安装,我们现在需要来测试一下是否安装成功!打开cmd,输入Python,一般会出现一下两种情况: "python不是外部或内部命令,也不是可运行的程序或者批处理文件&q

beautifulsoup学习-抓取页面并解析

以汽车之家为例子,抓取页面并进行解析 # -*- coding=utf-8 -*- import urllib2 from BeautifulSoup import BeautifulSoup as bs3 import json import codecs #字符检测,用来检测其真实的编码格式 import chardet #save content to file def save_to_file(filename, content): f = open(filename, 'w+') as

BeautifulSoup学习笔记

本文使用的是BeautifulSoup 3,现在已经有BeautifulSoup4了,名字改为bs4 (1)下载与安装 1 2 # BeautifulSoup 的下载与安装 pip install BeautifulSoup 另外也可以下载安装包进行安装 (2)快速开始 1 2 3 4 # BeautifulSoup 快速开始 html_doc = urllib2.urlopen('http://baike.baidu.com/view/1059363.htm') soup = Beautifu

python基础-------python2.7教程学习【廖雪峰版】（二）

2017年6月7日14:59:27任务: 看完python基础1.计算机顾名思义就是可以做数学计算的机器,因此,计算机程序理所当然地可以处理各种数值.但是,计算机能处理的远不止数值,还可以处理文本.图形.音频.视频.网页等各种各样的数据,不同的数据,需要定义不同的数据类型.2.因为感情的事,自己心情真是巨差,差到爆炸,提不起精神来学习,靠.3.整数和浮点数在计算机内部存储的方式是不同的,整数运算永远是精确的(除法难道也是精确的?是的!),而浮点数运算则可能会有四舍五入的误差.4.字符串是以