Python爬虫常用模块,BeautifulSoup笔记

import urllib
import urllib.request as request
import re
from bs4 import *

#url = ‘http://zh.house.qq.com/‘
url = ‘http://www.0756fang.com/‘
html = request.urlopen(url).read().decode(‘utf-8‘)

soup = BeautifulSoup(html,"html.parser")
print(soup.head.meta[‘content‘])#输出所得标签的‘’属性值
print(soup.span.string);print(soup.span.text)#两个效果一样,返回标签的text

#name属性是‘’的标签的<ResultSet>类,是一个由<Tag>组成的list
print(soup.find_all(attrs={‘name‘:‘keywords‘}))
print(soup.find_all(class_=‘site_name‘))#class属性是‘’的<Tag>的list,即<ResultSet>
print(soup.find_all(class_=‘site_name‘)[0])#这是一个<Tag>

print(soup.find(attrs={‘name‘:‘keywords‘}))#name属性是‘’的标签的<Tag>类
print(soup.find(‘meta‘,attrs={‘name‘:‘keywords‘}))#name属性是‘’的meta标签的<Tag>类
print(soup.find(‘meta‘,attrs={‘name‘:‘keywords‘})[‘content‘])#<Tag类>可直接查属性值
#配合re模块使用,可以忽略大小写
#如下面例子,可以找到name属性为keywords,KEYWORDS,KeyWORds等的meta标签
print(soup.find(‘meta‘,attrs={‘name‘:re.compile(‘keywords‘,re.IGNORECASE)}))

‘‘‘-------------------------------------------------------------------------‘‘‘
‘‘‘----------------------------修改BeautifulSoup—----------------------------‘‘‘
‘‘‘-------------------------------------------------------------------------‘‘‘
soup.find(attrs={‘name‘:‘keywords‘}).extract#调用这个方法,可以删除这一个标签
soup.title.name=‘ppp‘#可以把Tag的名字<title>改成<ppp>

#可以使用append(),insert(),insert_after()或者insert_before()等方法来对新标签进行插入。
Tag1 = a.new_tag(‘li‘,class_=‘123‘)‘‘‘创造一个Tag‘‘‘
a.title.append(Tag1)#把Tag1添加为name是title的Tag的最后一个【子节点】,没有换行
      #.insert(0,Tag1)----这里用insert的话,第一个参数可以控制所添加【子节点】的先后位置
      #.insert_after(Tag1)---和insert_before一样,添加为Title的【兄弟节点】

soup.head.meta[‘content‘]=‘随便输入,可以添加(或更改)这个Tag的content属性(值)‘
del soup.head.meta[‘content‘]#这个语法可以直接删除这个Tag的content属性

soup.li.clear#调用方法会清除所有li标签的text
soup.title.string=‘用这个方法可以修改title标签的内容‘#慎用,只用于最子孙最小的节点,用于父节点会清空子节点
soup.div.append(‘放在div子节点位置的 最后append最后,是标签内容‘)
soup.div.insert(0,‘放在div子节点位置的 最前insert【0】最前,是标签内容‘‘)

  这是我以前的BS4笔记,交流请联系 QQ 328123440

时间: 2024-10-30 04:13:54

Python爬虫常用模块,BeautifulSoup笔记的相关文章

Python 爬虫常用模块

1. fake_useragent pip install fake_useragent 2.图展示 pip install pyecharts pip install pyecharts-snapshot 原文地址:https://www.cnblogs.com/cbugs/p/9803203.html

Python 22 常用模块03

常用模块03 re 1. 正则表达式 正则表达式是对字符串操作的各种逻辑公式. 我们一般使用正则表达式对字符串进行匹配和过滤 字符组 字符组很简单用[]括起来. 在[]中出现的内容会被匹配. 例如:[abc] 匹配a或b或c 如果字符组中的内容过多还可以使用- , 例如: [a-z] 匹配a到z之间的所有字母 [0-9] 匹配所有阿拉伯数字 简单元字符 基本的元字符: . 匹配除换行符以外的任意字符 \w 匹配字母或数字或下划线 \s 匹配任意的空字 \d 匹配数字 \n 匹配一个换行符 \t

python基础--常用模块与面向对象基础

1常用模块 1.1 xml xml是实现不同语言或程序之间进行数据交换的协议 xml的格式如下: <?xml version="1.0"?> <data> <country name="Liechtenstein"> <rank updated="yes">2</rank> <year>2008</year> <gdppc>141100</gdp

Python(六)-常用模块

目录: 1.模块介绍 2.time & datetime模块 3.rendom 4.os 5.sys 6.shutil 7.json & picle 8.shelve 9.xml处理 10.yaml处理 11.chonfigparser 12.hashlib 13.subprocess 14.logging模块 15.re正则表达式 第一章:模块介绍 模块,用一坨代码实现了某个功能的代码集合. 类似于函数式编程和面向过程编程,函数式编程则完成一个功能,其他代码用来调用即可,提供了代码的重用

Python爬虫:用BeautifulSoup进行NBA数据爬取

爬虫主要就是要过滤掉网页中无用的信息,抓取网页中有用的信息 一般的爬虫架构为: 在python爬虫之前先要对网页的结构知识有一定的了解,如网页的标签,网页的语言等知识,推荐去W3School: W3school链接进行了解 在进行爬虫之前还要有一些工具: 1.首先Python 的开发环境:这里我选择了python2.7,开发的IDE为了安装调试方便选择了用VS2013上的python插件,在VS上进行开发(python程序的调试与c的调试差不多较为熟悉): 2.网页源代码的查看工具:虽然每一个浏

python编程常用模块记录

time(时间相关模块) logging(日志模块) [time 模块] 与时间有关还有datetime.calendar等 time模块常用于获取当前系统日期时间,该值可用于日志文件命名或者任何sleep函数让进程挂起. 常用用法: 一.现在需要知道当前时间,转换为字符串: #! /usr/bin/env python #coding=utf-8 import time print time.strftime('%Y-%m-%d %A %X %Z',time.localtime(time.ti

python中常用模块详解二

log模块的讲解 1 Python 使用logging模块记录日志涉及四个主要类,使用官方文档中的概括最为合适: 2 3 logger提供了应用程序可以直接使用的接口API: 4 handler将(logger创建的)日志记录发送到合适的目的输出: 5 formatter决定日志记录的最终输出格式 6 filter提供了细度设备来决定输出哪条日志记录: 7 8 logger 9 每个程序在输出信息之前都要获得一个Logger.Logger通常对应了程序的模块名, 10 比如聊天工具的图形界面模块

Python 20 常用模块01

常用模块01 1. 模块的简单认识 引入模块的方式: import 模块 from xxx import 模块 . 比如, random, os, sys, collections等等. 那我们?前?到的所有模块都是python内 置的模块 2. collections模块 ollections模块主要封装了?些关于集合类的相关操作. 比如, 我们学过的Iterable, Iterator等等. 除了这些以外, collections还提供了?些除了基本数据类型以外的数据集合类 型. Count

python入门:常用模块—模块,包介绍

一.什么是模块 为了编写可维护的代码,把很多函数分组,分别放到不同的文件里,这样,每个文件包含的代码就相对较少,编程语言采用这种组织方式.在python中,一个.py文件就称之为一个模块. 二.使用模块有什么好处 最大的好处是大大提高了代码的可维护性.其次,编写代码不必从零开始.当一个模块编写完毕,就可以被其他地方引用.经常引用其他模块,包括Python内置的模块和来自第三方的模块 使用模块还可以避免函数名和变量名冲突.每个模块有独立的命名空间 三.模块分类 内置标准模块(又称标准库)执行hel