beautifulsoup测试

import re
from bs4 import BeautifulSoup

html_doc = """
<html><head><title>The Dormouse‘s story</title></head>
<body>
<p class="title"><b>The Dormouse‘s story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""
soup = BeautifulSoup(html_doc, ‘html.parser‘)

links = soup.find(‘a‘,href=re.compile(r‘ill‘))
print links.get_text()
links = soup.find(‘p‘,class_="title")
print links.get_text(),links.name
时间: 2024-12-03 02:25:46

beautifulsoup测试的相关文章

python+selenium+phantomjs爬百度美女图片

#conding:utf-8 import unittest from selenium import webdriver from urllib.request import * import re import time from bs4 import BeautifulSoup #测试类 class baidupic(unittest.TestCase): #初始化测试 def setUp(self): self.dv = webdriver.PhantomJS() #测试方法 def t

Beautifulsoup关于find的测试

from bs4 import BeautifulSoup import requests url='https://book.douban.com/subject_search?search_text=golang&cat=1001' html=requests.get(url).text # print(html) soup=BeautifulSoup(html,'lxml') booknames=soup.findAll('li',{'class':'subject-item'}) #查找

BeautifulSoup抓取列表页锚文本

素闻BeautifulSoup提取效率低,艾玛,第一印象果然是很要命的,反正比Re 和 Lxml 是要慢的,不过就无奈Re的正则折腾来折腾去,没写出来,Lxml 的 Xpath 又用得不好. 不过就这三个模版来看,BeautifulSoup的表现还是不错的,够简单,顺便测试了一下时间,抓10个列表页花不了1分钟,当然我是菜鸟,没事不会纠结终结速度. 核心就是这部分,用 Find_all 和 Find 都搞了半天不成功,最后用CSS提取搞定,也怪我太着急. 用Find比较麻烦,一层层的Class找

BeautifulSoup

写文章之前先吐槽几句:Python这个玩意哪都好,又简单又直观,对于我这种编程新人来说的确很不错,但是python有致命的坑点就是更新太快.现在比较流行的是2.7版本和3.5版本,偏偏2.7版本有些命令不支持在3.5里,比如import sys,reload(sys),2.7可以直接使用,而3.5就不行.比如reduce命令,2.7可以直接使用,3.5就不行.我也是开了眼界,竟然还有高级版本不容纳低级版本的! 但是很多人又说3.5是形势所趋,可2.7又有很多地方很方便.现在网络课程满大街都是,很

BeautifulSoup中的一些问题

使用wkpdftohtml将爬取到的网页生成PDF时,使用示例代码 import requests from bs4 import BeautifulSoup import pdfkit url = 'http://www.liaoxuefeng.com/wiki/' '001434446689867b27157e896e74d51a89c25cc8b43bdb3000' response = requests.get(url) bsObj = BeautifulSoup(response.co

Python爬虫:用BeautifulSoup进行NBA数据爬取

爬虫主要就是要过滤掉网页中无用的信息,抓取网页中有用的信息 一般的爬虫架构为: 在python爬虫之前先要对网页的结构知识有一定的了解,如网页的标签,网页的语言等知识,推荐去W3School: W3school链接进行了解 在进行爬虫之前还要有一些工具: 1.首先Python 的开发环境:这里我选择了python2.7,开发的IDE为了安装调试方便选择了用VS2013上的python插件,在VS上进行开发(python程序的调试与c的调试差不多较为熟悉): 2.网页源代码的查看工具:虽然每一个浏

转:Python网页解析:BeautifulSoup vs lxml.html

转自:http://www.cnblogs.com/rzhang/archive/2011/12/29/python-html-parsing.html Python里常用的网页解析库有BeautifulSoup和lxml.html,其中前者可能更知名一点吧,熊猫开始也是使用的BeautifulSoup,但是发现它实在有几个问题绕不过去,因此最后采用的还是lxml:  1. BeautifulSoup太慢.熊猫原来写的程序是需要提取不定网页里的正文,因此需要对网页进行很多DOM解析工作,经过测试

【已解决】BeautifulSoup已经获得了Unicode的Soup但是print出来却是乱码

[问题] 某人遇到的问题: 关于BeautifulSoup抓取表格及SAE数据库导入的问题(跪求大神帮忙) 简单说就是: 用如下代码: ? 1 2 3 4 5 6 7 import re,urllib2 from BeautifulSoup import BeautifulSoup from urllib import urlopen doc=urllib2.urlopen("http://www.w3school.com.cn/html/html_tables.asp") soup 

【python】--BeautifulSoup

背景 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据.官方解释如下: Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索.修改分析树等功能.它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序. Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码.你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautif