从Web抓取信息的几个常用方法

1、Response 对象有一个 status_code 属性，可以检查它是否等于requests.codes.ok。

2、raise_for_status()方法是一种很好的方式，确保程序在下载失败时停止。

3、BeautifulSoup模块：

（1）、BeautifulSoup()函数调用时需要一个字符串，其中包含了将要解析的HTML。bs4.BeautifulSoup()函数返回一个BeautifulSoup对象。有了BeautifulSoup对象之后，就可以利用它的方法，定位HTML文档中的特定部分。

（2）、用select()方法寻找元素：select()方法返回一个Tag对象的列表，这是Beautiful Soup表示一个HTML元素的方式。针对BeautifulSoup对象中的额HTML的每次匹配，列表中都有一个Tag对象。Tag值可以传给str()函数，显示它们代表的HTML标签。Tag值也可以有attrs属性，它将该Tag的所有HTML属性作为一个字典。

（3）、min()返回字符串中最小值。也就是说内建的Python函数min()返回传入的整型或浮点型参数中最小的一个（也有内建的max()函数，返回传入的参数最大的一个）。

例如：

str = "runoob"; print ("最小字符: " + min(str));

输出结果：

最小字符: b

str="runoob"

b=len(str)

a=min(5,b)

print(“a等于：”，a)

输出结果：

a等于：5

（4）、Python endswith()方法：用于判断字符串是否以指定后缀结尾，如果以指定后缀结尾返回True，否则返回False。可选参数"start"与"end"为检索字符串的开始与结束位置。

语法

endswith()方法语法：

str.endswith(suffix[, start[, end]])

参数

l suffix -- 该参数可以是一个字符串或者是一个元素。

l start -- 字符串中的开始位置。

l end -- 字符中结束位置。

如果字符串含有指定的后缀返回True，否则返回False。

（5）、Python os.makedirs() 方法

os.makedirs() 方法用于递归创建目录。像 mkdir(), 但创建的所有intermediate-level文件夹需要包含子目录。

语法

makedirs()方法语法格式如下：

os.makedirs(path, mode=0o777)

参数

l path -- 需要递归创建的目录。

l mode -- 权限模式。

返回值

该方法没有返回值。

原文地址：https://www.cnblogs.com/cqkangle/p/10508316.html

时间： 2024-10-05 09:44:11

从Web抓取信息的几个常用方法

从Web抓取信息的几个常用方法的相关文章

从web抓取信息

【python】从web抓取信息

php爬虫抓取信息及反爬虫相关

别人家的程序员是如何使用 Java 进行 Web 抓取的？

python Web抓取（一）

python自动化之web抓取

java练习题（字符串类）：显示4位验证码、输出年月日、从XML中抓取信息

网页抓取信息（php正则表达式、php操作excel）

网页抓取信息（php正則表達式、php操作excel）