Beautifulsoup 使用笔记

1.在线文档 http://www.crummy.com/software/BeautifulSoup/bs4/doc/

2.常用方法

  • 选择器 find_all(name, attrs, recursive, text, limit, **kwargs)

3.主要调用方法

4.完整代码

#-*- coding:utf-8 -*-

from bs4 import BeautifulSoup;

def main():
	html = """
	<html><head><title>The Dormouse's story</title></head>
	<p class="title"><b>The Dormouse's story</b></p>
	<p class="story">Once upon a time there were three little sisters; and their names were
	<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
	<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
	<a href="http://example.com/tillie" class="cla" id="link3">Tillie</a>;
	and they lived at the bottom of a well.</p>
	<p class="story">...</p>
	"""
	# print html_doc
	soup = BeautifulSoup(html)
	print soup.get_text()				#获得文本
	print soup.find_all('title') 		#获取标题
	print soup.find_all('a')			#获取链接<a>
	print soup.find_all(id="link2")		#根据ID来获取HTML元素
	print soup.find_all("a",class_="cla")  #根据class来获取HTML元素

	#根据class属性来选择
	print soup.find_all("a", class_="sister")
	print soup.select("p.title")
	#多重属性来选择
	print soup.find_all("a", attrs={"class": "sister"})
	#根据文本来选择
	print soup.find_all(text="Elsie")
	print soup.find_all(text=["Tillie", "Elsie", "Lacie"])
	#限制查询的个数
	print soup.find_all("a", limit=2)

if __name__ == '__main__':
	main()
时间: 2024-08-14 10:27:56

Beautifulsoup 使用笔记的相关文章

Python BeautifulSoup 简单笔记

body { font-family: "Microsoft YaHei UI","Microsoft YaHei",SimSun,"Segoe UI",Tahoma,Helvetica,Sans-Serif,"Microsoft YaHei", Georgia,Helvetica,Arial,sans-serif,宋体, PMingLiU,serif; font-size: 10.5pt; line-height: 1.5;

BeautifulSoup学习笔记

本文使用的是BeautifulSoup 3,现在已经有BeautifulSoup4了,名字改为bs4 (1)下载与安装 1 2 # BeautifulSoup 的下载与安装 pip install BeautifulSoup 另外也可以下载安装包进行安装 (2)快速开始 1 2 3 4 # BeautifulSoup 快速开始 html_doc = urllib2.urlopen('http://baike.baidu.com/view/1059363.htm') soup = Beautifu

Python爬虫常用模块,BeautifulSoup笔记

import urllib import urllib.request as request import re from bs4 import * #url = 'http://zh.house.qq.com/' url = 'http://www.0756fang.com/' html = request.urlopen(url).read().decode('utf-8') soup = BeautifulSoup(html,"html.parser") print(soup.h

《Python网络数据采集》笔记之BeautifulSoup

一  初见网络爬虫 都是使用的python3. 一个简单的例子: from urllib.request import urlopen html = urlopen("http://pythonscraping.com/pages/page1.html") print(html.read()) 在 Python 2.x 里的 urllib2 库, 在 Python 3.x 里,urllib2 改名为 urllib,被分成一些子模块:urllib.request. urllib.pars

Js脚本之jQuery学习笔记(1)

Js脚本之jQuery学习笔记(1) 一.javascript基础 单行注释 多行注释 /* */ 数据类型 数值型 字符串型 布尔型 空值 未定义值 转义字符 函数定义:1234567891011121314<head><script language="javascript"function test(m){var xixi="嘻嘻"alert("这是javascript")document.write(xixi + m)}

学习笔记之PyQuery篇

什么是PyQuery? 这是一个强大又灵活的网页解析库. 如果你觉得写正则太麻烦, 如果你觉得BeautifulSoup语法太难记, 如果你熟悉jQuery, 那么,PyQuery将会成为你的最佳实践! #一个简单的例子 from pyquery import PyQuery as pq html = '''     请在这里输入html代码     ''' doc = pq(html)      #初始化PyQuery对象 print(doc('li'))    #选择li标签 CSS选择器

学习笔记之爬虫篇

网络爬虫(又被称为网页蜘蛛,网络机器人,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫. 模块:scrapy  requests 环境:centos ******************  如果想深入了解scrapy 请绕路  ************************* 推荐   http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutoria

用python做网页抓取与解析入门笔记[zz]

(from http://chentingpc.me/article/?id=961) 事情的起因是,我做survey的时候搜到了这两本书:Computational Social Network Analysis和Computational Social Network,感觉都蛮不错的,想下载下来看看,但是点开网页发现这个只能分章节下载,晕,我可没时间一章一章下载,想起了迅雷的下载全部链接,试试看,果真可以把他们一网打尽,但是,sadly,迅雷下载的时候,文件名没办法跟章节名对应起来,晕,我可

Python语言笔记

Python是一种解释性(没有编译).交互式.面向对象的语言 1.安装python编译器 版本:Python2.7比较普遍,Python不是向下兼容的软件,因此Python3.x有些东西不好找资料 2.在 Windows 设置环境变量,在命令提示框中(cmd) : 输入 path %path%;C:\Python , 按下"Enter".在环境变量中添加Python目录(注意: C:\Python 是Python的安装目录.) 3.输入ctrl+z再按Enter键退出Python编译器