BeautifulSoup模块的简单使用

可以通过dir(BeautifulSoup.BeautifulSoup)查看其有什么函数,如果想知道某个函数的含义可以使用help(BeautifulSoup.BeautifulSoup.find)来查看其官方文档。

可以使用pprint来整输出,使用dir和help之前一定要import BeautifulSoup。

# -*- coding:utf8 -*-
import urllib
import urllib2
import BeautifulSoup
import re

htmlSource = urllib.urlopen("http://www.taobao.com/").read(200000)
soup = BeautifulSoup.BeautifulSoup(htmlSource)

#输出<head>...</head>
print soup.head

#输出<title>...</title>
print soup.head.title

#会返回一个列表,每个列表元素都是<a>...</a>
tags = soup.findAll('a')
print tags

print '京东放养的爬虫'

#取<a></a>中间包含的元素,如果有href则输出
for item in soup.fetch('a',href=True):
    print item['href']

#找到所有的<a></a>,如果其中href元素中含有taobao则输出
for a in soup.findAll('a',href=True):
    if re.findall('taobao', a['href']):
        print "Found the URL:", a['href']

#输出<div></div>中间class属性等于J_Tanx mod,只输出第一个
print str(soup.find("div",{"class":"J_Tanx mod"}))
时间: 2024-10-15 09:18:50

BeautifulSoup模块的简单使用的相关文章

python BeautifulSoup模块的安装

python BeautifulSoup模块的安装 ···一个BeautifulSoup的模块,安装就浪费了俺这么长时间,下载的是BeautifulSoup4-4.1.3, 安装的时候就是 python setup.py build python setup.py install 就这么简单的两个命令,因为安装之前也看了下别人的就是这样,可是自己import的时候,总出错,弄了半天才搞好,原来是版本升级到4, 引入包要用 import bs4 from bs4 import BeautifulS

Requests 与 BeautifulSoup 模块

一.Requests库 参考 :http://www.python-requests.org/en/master/user/quickstart/#make-a-request Requests是一个很实用的Python HTTP客户端库,编写爬虫和测试服务器响应数据时经常会用到.Requests 完全满足如今网络的需求 安装方式一般采用 pip install requests In [1]: import requests In [2]: response=requests.get('htt

requests和BeautifulSoup模块的使用

用python写爬虫时,有两个很好用第三方模块requests库和beautifulsoup库,简单学习了下模块用法: 1,requests模块 Python标准库中提供了:urllib.urllib2.httplib等模块以供Http请求,使用起来较为麻烦.requests是基于Python开发的HTTP 第三方库,在Python内置模块的基础上进行了高度的封装,使用了更简单,代码量更少. 官方文档:http://docs.python-requests.org/zh_CN/latest/us

Discuz! X2.5 添加自定义数据调用模块(简单方法)

转:http://521-wf.com/archives/46.html Discuz! X2.5 添加自定义数据调用模块(简单方法) Discuz!X系列的diy功能还是相当不错的,在对其进行二次开发的过程中,或许需要加入新的数据调用模块,这样可以使你开发的功能模块也像原来的模块一样,只需要点点鼠标,填写一些简单的信息,就可以在各个页面的各个位置显示你想显示的数据啦. 以下就目前最新版X2.5做一个简答的介绍:大致可以分为以下三个步骤:一.添加数据调用程序二.后台更新diy模块分类缓存三.添加

nodejs学习(模块的简单了解)

1.模块模块(Module)是nodejs最重要的支柱,开发一个具有一定规范的程序不可能只用一个文件, 通常我们需要把各个功能拆分,封装,然后在组合在一起,模块正是为了现在这种方式而诞 生的.在浏览器的javascript中,脚本模块的拆分和组合通常情况下我们都使用Html的 Script标签来实现,但是nodejs给我们提供了require这个函数来调用其他的模块.-----------------------------------------------------------------

下载图片-使用beautifulSoup模块

图片处理 - 使用beautifulSoup模块 标签(空格分隔): python 使用beautifulSoup模块 使用BeautifulSoup对HTML内容解析之后,HTML内容就变成了结构化数据,可以轻易对其中的DOM元素进行操作,比如获取数据,修改,删除等. from bs4 import BeautifulSoup import urllib,urllib2 def getContext(url): ''' 获取html ''' html = urllib2.urlopen(url

孤荷凌寒自学python第六十八天学习并实践beautifulsoup模块1

(完整学习过程屏幕记录视频地址在文末) 感觉用requests获取到网页的html源代码后,更重要的工作其实是分析得到的内容,因此这时候大名鼎鼎的BeautifulSoup模块就可以大展身手了. 一.今天已了解到的BeautifulSoup模块中的一些用法小结: 1. BeautifulSoup对象.prettify()  #对html源代码 进行了美化. 2. BeautifulSoup.p #这种方法将返回html文档中的第一个p标签本身这个对象,不是文本,但Print之后会显示为如: <p

BeautifulSoup库的简单实用

1.BeautifulSoup库的简单理解 打开一个简单的html文件(每一对尖括号形成一个标签,标签之间有上下之间的关系,形成了标签树) <html> <body> <p class="title">....</p> </body> </html> BeautifulSoup库是解析.遍历.维护“标签树”的功能库. 针对其中一个标签进行举例说明: 2.BeautifulSoup库的引用 最常用的是: from b

Python爬虫之Beautifulsoup模块的使用

一 Beautifulsoup模块介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的文档,Beautiful Soup 3 目前已经停止开发,官网推荐在现在的项目中使用Beautiful Soup 4, 移植到BS4 #安装 Beautiful Soup pip instal