BeautifulSoup
BeautifulSoup是一个模块,该模块用于接收一个HTML或XML字符串,然后将其进行格式化,之后遍可以使用他提供的方法进行快速查找指定元素,从而使得在HTML或XML中查找指定元素变得简单。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 |
|
安装:
1 |
|
使用示例:
1 2 3 4 5 6 7 8 9 10 11 |
|
1. name,标签名称
1 2 3 4 5 |
|
2. attr,标签属性
1 2 3 4 5 6 |
|
3. children,所有子标签
1 2 |
|
4. children,所有子子孙孙标签
1 2 |
|
5. clear,将标签的所有子标签全部清空(保留标签名)
1 2 3 |
|
6. decompose,递归的删除所有的标签
1 2 3 |
|
7. extract,递归的删除所有的标签,并获取删除的标签
1 2 3 |
|
8. decode,转换为字符串(含当前标签);decode_contents(不含当前标签)
1 2 3 4 |
|
9. encode,转换为字节(含当前标签);encode_contents(不含当前标签)
1 2 3 4 |
|
10. find,获取匹配的第一个标签
1 2 3 4 5 |
|
11. find_all,获取匹配的所有标签
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 |
|
12. has_attr,检查标签是否具有该属性
1 2 3 |
|
13. get_text,获取标签内部文本内容
1 2 3 |
|
14. index,检查标签在某标签中的索引位置
1 2 3 4 5 6 7 |
|
15. is_empty_element,是否是空标签(是否可以是空)或者自闭合标签,
判断是否是如下标签:‘br‘ , ‘hr‘, ‘input‘, ‘img‘, ‘meta‘,‘spacer‘, ‘link‘, ‘frame‘, ‘base‘
1 2 3 |
|
16. 当前的关联标签
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 |
|
17. 查找某标签的关联标签
1 2 3 4 5 6 7 8 9 10 11 12 13 14 |
|
18. select,select_one, CSS选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 |
|
19. 标签的内容
1 2 3 4 5 6 7 8 9 10 11 12 13 |
|
20.append在当前标签内部追加一个标签
1 2 3 4 5 6 7 8 9 10 |
|
21.insert在当前标签内部指定位置插入一个标签
1 2 3 4 5 6 |
|
22. insert_after,insert_before 在当前标签后面或前面插入
1 2 3 4 5 6 7 |
|
23. replace_with 在当前标签替换为指定标签
1 2 3 4 5 6 |
|
24. 创建标签之间的关系
1 2 3 4 |
|
25. wrap,将指定标签把当前标签包裹起来
1 2 3 4 5 6 7 8 9 10 11 |
|
26. unwrap,去掉当前标签,将保留其包裹的标签
1 2 3 |
|
作者:武沛齐
出处:http://www.cnblogs.com/wupeiqi/
原文地址:https://www.cnblogs.com/l-jie-n/p/10010045.html