Python爬虫常用模块，BeautifulSoup笔记

import urllib
import urllib.request as request
import re
from bs4 import *

#url = ‘http://zh.house.qq.com/‘
url = ‘http://www.0756fang.com/‘
html = request.urlopen(url).read().decode(‘utf-8‘)

soup = BeautifulSoup(html,"html.parser")
print(soup.head.meta[‘content‘])#输出所得标签的‘’属性值
print(soup.span.string);print(soup.span.text)#两个效果一样，返回标签的text

#name属性是‘’的标签的<ResultSet>类，是一个由<Tag>组成的list
print(soup.find_all(attrs={‘name‘:‘keywords‘}))
print(soup.find_all(class_=‘site_name‘))#class属性是‘’的<Tag>的list,即<ResultSet>
print(soup.find_all(class_=‘site_name‘)[0])#这是一个<Tag>

print(soup.find(attrs={‘name‘:‘keywords‘}))#name属性是‘’的标签的<Tag>类
print(soup.find(‘meta‘,attrs={‘name‘:‘keywords‘}))#name属性是‘’的meta标签的<Tag>类
print(soup.find(‘meta‘,attrs={‘name‘:‘keywords‘})[‘content‘])#<Tag类>可直接查属性值
#配合re模块使用，可以忽略大小写
#如下面例子，可以找到name属性为keywords，KEYWORDS,KeyWORds等的meta标签
print(soup.find(‘meta‘,attrs={‘name‘:re.compile(‘keywords‘,re.IGNORECASE)}))

‘‘‘-------------------------------------------------------------------------‘‘‘
‘‘‘----------------------------修改BeautifulSoup—----------------------------‘‘‘
‘‘‘-------------------------------------------------------------------------‘‘‘
soup.find(attrs={‘name‘:‘keywords‘}).extract#调用这个方法，可以删除这一个标签
soup.title.name=‘ppp‘#可以把Tag的名字<title>改成<ppp>

#可以使用append(),insert(),insert_after()或者insert_before()等方法来对新标签进行插入。
Tag1 = a.new_tag(‘li‘,class_=‘123‘)‘‘‘创造一个Tag‘‘‘
a.title.append（Tag1）#把Tag1添加为name是title的Tag的最后一个【子节点】，没有换行
      #.insert(0,Tag1)----这里用insert的话，第一个参数可以控制所添加【子节点】的先后位置
      #.insert_after(Tag1)---和insert_before一样，添加为Title的【兄弟节点】

soup.head.meta[‘content‘]=‘随便输入，可以添加（或更改）这个Tag的content属性（值）‘
del soup.head.meta[‘content‘]#这个语法可以直接删除这个Tag的content属性

soup.li.clear#调用方法会清除所有li标签的text
soup.title.string=‘用这个方法可以修改title标签的内容‘#慎用，只用于最子孙最小的节点，用于父节点会清空子节点
soup.div.append(‘放在div子节点位置的 最后append最后，是标签内容‘)
soup.div.insert(0,‘放在div子节点位置的 最前insert【0】最前，是标签内容‘‘)

　　这是我以前的BS4笔记，交流请联系 QQ 328123440

时间： 2025-01-07 04:04:00

Python爬虫常用模块，BeautifulSoup笔记的相关文章

Python 爬虫常用模块

1. fake_useragent pip install fake_useragent 2.图展示 pip install pyecharts pip install pyecharts-snapshot 原文地址:https://www.cnblogs.com/cbugs/p/9803203.html

常用模块03 re 1. 正则表达式正则表达式是对字符串操作的各种逻辑公式. 我们一般使用正则表达式对字符串进行匹配和过滤字符组字符组很简单用[]括起来. 在[]中出现的内容会被匹配. 例如:[abc] 匹配a或b或c 如果字符组中的内容过多还可以使用- , 例如: [a-z] 匹配a到z之间的所有字母 [0-9] 匹配所有阿拉伯数字简单元字符基本的元字符: . 匹配除换行符以外的任意字符 \w 匹配字母或数字或下划线 \s 匹配任意的空字 \d 匹配数字 \n 匹配一个换行符 \t

python基础--常用模块与面向对象基础

1常用模块 1.1 xml xml是实现不同语言或程序之间进行数据交换的协议 xml的格式如下: <?xml version="1.0"?> <data> <country name="Liechtenstein"> <rank updated="yes">2</rank> <year>2008</year> <gdppc>141100</gdp

Python(六)-常用模块

目录: 1.模块介绍 2.time & datetime模块 3.rendom 4.os 5.sys 6.shutil 7.json & picle 8.shelve 9.xml处理 10.yaml处理 11.chonfigparser 12.hashlib 13.subprocess 14.logging模块 15.re正则表达式第一章:模块介绍模块,用一坨代码实现了某个功能的代码集合. 类似于函数式编程和面向过程编程,函数式编程则完成一个功能,其他代码用来调用即可,提供了代码的重用

Python爬虫：用BeautifulSoup进行NBA数据爬取

爬虫主要就是要过滤掉网页中无用的信息,抓取网页中有用的信息一般的爬虫架构为: 在python爬虫之前先要对网页的结构知识有一定的了解,如网页的标签,网页的语言等知识,推荐去W3School: W3school链接进行了解在进行爬虫之前还要有一些工具: 1.首先Python 的开发环境:这里我选择了python2.7,开发的IDE为了安装调试方便选择了用VS2013上的python插件,在VS上进行开发(python程序的调试与c的调试差不多较为熟悉): 2.网页源代码的查看工具:虽然每一个浏

python编程常用模块记录

time(时间相关模块) logging(日志模块) [time 模块] 与时间有关还有datetime.calendar等 time模块常用于获取当前系统日期时间,该值可用于日志文件命名或者任何sleep函数让进程挂起. 常用用法: 一.现在需要知道当前时间,转换为字符串: #! /usr/bin/env python #coding=utf-8 import time print time.strftime('%Y-%m-%d %A %X %Z',time.localtime(time.ti

python中常用模块详解二

log模块的讲解 1 Python 使用logging模块记录日志涉及四个主要类,使用官方文档中的概括最为合适: 2 3 logger提供了应用程序可以直接使用的接口API: 4 handler将(logger创建的)日志记录发送到合适的目的输出: 5 formatter决定日志记录的最终输出格式 6 filter提供了细度设备来决定输出哪条日志记录: 7 8 logger 9 每个程序在输出信息之前都要获得一个Logger.Logger通常对应了程序的模块名, 10 比如聊天工具的图形界面模块

Python 20 常用模块01

常用模块01 1. 模块的简单认识引入模块的方式: import 模块 from xxx import 模块 . 比如, random, os, sys, collections等等. 那我们?前?到的所有模块都是python内置的模块 2. collections模块 ollections模块主要封装了?些关于集合类的相关操作. 比如, 我们学过的Iterable, Iterator等等. 除了这些以外, collections还提供了?些除了基本数据类型以外的数据集合类型. Count

python入门:常用模块—模块，包介绍

一.什么是模块为了编写可维护的代码,把很多函数分组,分别放到不同的文件里,这样,每个文件包含的代码就相对较少,编程语言采用这种组织方式.在python中,一个.py文件就称之为一个模块. 二.使用模块有什么好处最大的好处是大大提高了代码的可维护性.其次,编写代码不必从零开始.当一个模块编写完毕,就可以被其他地方引用.经常引用其他模块,包括Python内置的模块和来自第三方的模块使用模块还可以避免函数名和变量名冲突.每个模块有独立的命名空间三.模块分类内置标准模块(又称标准库)执行hel