Python BeautifulSoup的使用

2017-07-24 22:39:14

Python3 中的beautifulsoup引入的包是bs4

import requests
from bs4 import *

r = requests.get(‘http://jwc.seu.edu.cn/‘)

soup = BeautifulSoup(r.text,‘html.parser‘)

#prettify()函数可以将html以易读的形式展现出来
print(soup.prettify())

#find_all(tag) 返回所有的tag,可以使用字典的索引方式进行查找到你需要的东西
for k in soup.find_all(‘link‘):
    print(k[‘href‘])
时间: 2024-10-09 20:20:23

Python BeautifulSoup的使用的相关文章

python BeautifulSoup模块的安装

python BeautifulSoup模块的安装 ···一个BeautifulSoup的模块,安装就浪费了俺这么长时间,下载的是BeautifulSoup4-4.1.3, 安装的时候就是 python setup.py build python setup.py install 就这么简单的两个命令,因为安装之前也看了下别人的就是这样,可是自己import的时候,总出错,弄了半天才搞好,原来是版本升级到4, 引入包要用 import bs4 from bs4 import BeautifulS

[Python]BeautifulSoup—HTML解析包

今天真机调试的时候莫名其妙遇到了这样的一个问题: This product type must be built using a provisioning profile, however no provisioning profile matching both the identity "iPhone Developer" and the bundle identifier..... 具体如下图所示: 十分蛋疼, 发现不管是从网上下的demo, 还是自己的过程.凡事真机测试的时候都

python : BeautifulSoup 网页数据分析

很长时间都是在学习各位大神的力作,并汲取了不少养料,在此一并谢过各位大神了. 当然了,好东西是要跟大家一起分享的,最近发现了几个非常不错的个人站点,都是介绍IOS开发的,其中有唐巧.破船之长.池建强.王维等各位,其中不乏供职于腾讯和阿里这样的IT巨头,希望大家也能从他们的博客中学习到一些技术之外的东西.就不再啰嗦啦,附上地址:http://www.ityran.com/archives/4647 这几天在学习IOS7 CookBook,因为没有找到中文版,就硬着头皮啃原著吧,还真学到了不少东西,

Python:BeautifulSoup移除某些不需要的属性

很久之前,我看到一个问题,大概是: 他爬了一段html,他获取下了所需的部分(img标签部分),但是不想保留img标签的某些属性, 比如 <img width="147" height="52"src="http://127.0.0.1:80/admin/../upload/pimg1054_1.png" /> 怎么将img标签里边的 alt属性,width属性, 给去除掉啊 我是很懒的,能用工具的,就不自己写,他原意是使用re模块来

python BeautifulSoup获取网页正文

通过BeautifulSoup库的get_text方法找到网页的正文: #!/usr/bin/env python #coding=utf-8 #HTML找出正文 import requests from bs4 import BeautifulSoup url='http://www.baidu.com' html=requests.get(url) soup=BeautifulSoup(html.text) print soup.get_text()

python BeautifulSoup获取 网页链接的文字内容

这里和 获取链接略有不同,不是得到链接到url,而是获取每个链接的文字内容 #!/opt/yrd_soft/bin/python import re import urllib2 import requests import lxml from bs4 import BeautifulSoup url = 'http://www.baidu.com' #page=urllib2.urlopen(url) page=requests.get(url).text pagesoup=Beautiful

Python - BeautifulSoup 安装

BeautifulSoup 3.x 1. 下载 BeautifulSoup. [[email protected] python]$ wget http://www.crummy.com/software/BeautifulSoup/download/3.x/BeautifulSoup-3.2.1.tar.gz 2. 解压缩. [[email protected] python]$ tar zxvf BeautifulSoup-3.2.1.tar.gz 3. 安装 BeautifulSoup 模

Python beautifulsoup模块

BeautifulSoup中文文档:http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html BeautifulSoup下载:http://www.crummy.com/software/BeautifulSoup/ 解压到任意目录 在cmd控制台下进入目录 执行:python setup.py install即可: 执行完后命令行进入python使用import bs4命令验证是否成功:

Python BeautifulSoup 简单笔记

body { font-family: "Microsoft YaHei UI","Microsoft YaHei",SimSun,"Segoe UI",Tahoma,Helvetica,Sans-Serif,"Microsoft YaHei", Georgia,Helvetica,Arial,sans-serif,宋体, PMingLiU,serif; font-size: 10.5pt; line-height: 1.5;

[Python]BeautifulSoup安装与使用

1.BeautifulSoup简介 BeautifulSoup4和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据. BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果我们不安装它,则 Python 会使用 Python默认的解析器,lxml 解析器更加强大,速度更快,推荐使用lxml 解析器. Beautiful Soup自动将输入文档转换为Unicode编码,