从Web抓取信息的几个常用方法

1、Response 对象有一个 status_code 属性,可以检查它是否等于requests.codes.ok。

2、raise_for_status()方法是一种很好的方式,确保程序在下载失败时停止。

3、BeautifulSoup模块:

(1)、BeautifulSoup()函数调用时需要一个字符串,其中包含了将要解析的HTML。bs4.BeautifulSoup()函数返回一个BeautifulSoup对象。有了BeautifulSoup对象之后,就可以利用它的方法,定位HTML文档中的特定部分。

(2)、用select()方法寻找元素:select()方法返回一个Tag对象的列表,这是Beautiful Soup表示一个HTML元素的方式。针对BeautifulSoup对象中的额HTML的每次匹配,列表中都有一个Tag对象。Tag值可以传给str()函数,显示它们代表的HTML标签。Tag值也可以有attrs属性,它将该Tag的所有HTML属性作为一个字典。

(3)、min()返回字符串中最小值。也就是说内建的Python函数min()返回传入的整型或浮点型参数中最小的一个(也有内建的max()函数,返回传入的参数最大的一个)。

例如:

str = "runoob";             print ("最小字符: " + min(str));

输出结果:

最小字符: b

str="runoob"

b=len(str)

a=min(5,b)

print(“a等于:”,a)

输出结果:

a等于:5

(4)、Python endswith()方法:用于判断字符串是否以指定后缀结尾,如果以指定后缀结尾返回True,否则返回False。可选参数"start"与"end"为检索字符串的开始与结束位置。

      语法

endswith()方法语法:

str.endswith(suffix[, start[, end]])

      参数

l   suffix -- 该参数可以是一个字符串或者是一个元素。

l  start -- 字符串中的开始位置。

l  end -- 字符中结束位置。

如果字符串含有指定的后缀返回True,否则返回False。

(5)、Python os.makedirs() 方法

os.makedirs() 方法用于递归创建目录。像 mkdir(), 但创建的所有intermediate-level文件夹需要包含子目录。

语法

makedirs()方法语法格式如下:

os.makedirs(path, mode=0o777)

参数

path -- 需要递归创建的目录。

mode -- 权限模式。

返回值

该方法没有返回值。

原文地址:https://www.cnblogs.com/cqkangle/p/10508316.html

时间: 2024-10-05 09:44:11

从Web抓取信息的几个常用方法的相关文章

从web抓取信息

"web抓取"是一个术语,即利用程序下载并处理来自web的内容. ▎在python中,有几个模块能让抓取网页变得很容易. webbrowser:python自带,打开游览器获取指定页面. requests:从因特网上下载文件和网页. Beautiful Soup:解析HTML,即网页编写的格式. selenium:启动并控制一个web游览器.selenium能够填写表单,并模拟鼠标在这个游览器中点击. webbrowser模块 webbrowser模块的open()函数可以启动一个新游

【python】从web抓取信息

能打开浏览器的模块webbrowser,它的open函数可以做一些有意思的事情.例如从sys.argv或者剪切板读入地址,然后直接在Google地图打开相应的地图页面. import webbrowser #python模块,非第三方模块,不需要下载,直接使用 import pyperclip #第三方模块 #启用电脑默认的浏览器打开网页 address = pyperclip.paste() webbrowser.open('http://www.google.cn/maps/place/'+

php爬虫抓取信息及反爬虫相关

58爬虫了百姓,赶集和58互爬,最后各种信息相同,都是爬虫后的数据库调用,潜规则啊,几家独大还暗中各种攻击,赶驴网的幽默事例我不想多评价.这个时代是砸.钱*养.钱的时代,各种姚晨杨幂葛优,各种地铁公车广告,各种卫视广告,铺天盖地~~~ 来谈php爬虫抓取信息~~ php爬虫首推Curl函数了,先来认识下它. 0x01.curl扩展的安装: 1.确保php子文件夹ext里面有php_curl.dll(一般都有的,一般配置时候会设置环境变量的) 2.将php.ini里面的;extension=php

别人家的程序员是如何使用 Java 进行 Web 抓取的?

Web抓取非常有用,它可以收集信息供多种用途使用,如数据分析.统计.提供第三方信息,还可以给深神经网络和深度学习提供数据. Web抓取是什么? 有一种非常广泛的误解,人们似乎把Web抓取和Web爬虫当成了同一种东西.所以我们先明确这一点. 两者有个非常显著的区别: Web爬虫,指搜索或"爬"网页以获得任意信息的过程.通常是搜索引擎如Google.Yahoo或Bing的功能,以便给我们显示搜索结果. Web抓取,指从特定的网站上利用特别定制的自动化软件手机信息的过程. 注意! 尽管Web

python Web抓取(一)

需要的模块: python web抓取通过: webbrowser:是python自带的,打开浏览器获取指定页面 requests:从因特网上下载文件和网页 Beautiful Soup:解析HTML Selenium:启动并控制一个Web浏览器.selenium能够填写表单,并模拟鼠标在这个浏览器中点击   >>>这个在这里 一.项目:利用Webbrowser模块的快速翻译脚本  webbrowser.open(url) 会在默认浏览器中打开这个地址 >>> impo

python自动化之web抓取

''' 从web抓取数据: webbrowser:是python自带的,打开浏览器获取指定页面. requests:从因特网上下载文件和网页. Beautiful Soup:解析HTML,即网页编写的格式. selenium:启动并控制一个Web浏览器.selenium能够填写表单,并模拟鼠标在这个浏览器中点击 ''' import webbrowser webbrowser.open('http://inventwithpython.com/') ''' 利用requests模块从Web下载文

java练习题(字符串类):显示4位验证码、输出年月日、从XML中抓取信息

1.显示4位验证码 注:大小写字母.数字混合 public static void main(String[] args) { String s="abcdefghijklmnopqrstuvwxyz0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ";//设定验证码的集合 String s1=""; for(int i=0;i<4;i++){ int n=(int)(Math.random()*1000)%s.length();//取余

网页抓取信息(php正则表达式、php操作excel)

1.问题描述 实现对固定网页上自己需要的信息抓取,以表格形式存储.我是拿wustoj上的一个排行榜来练习的,地址:wustoj 2.思路 网页自己就简单学习了一下php,刚好用它来做点事情吧,我的想法是这样的: (1)查看网页源代码并保存在文件中. (2)根据需要的信息写出正则表达式,读文件,根据正则表达式来提取需要的信息.写正则表达式的时候最好分组,这样提取起来就方便了很多. (3)对excel操作,将提取的信息以excel的形式输出. 比较好的开源php处理excel类链接:点击打开链接 3

网页抓取信息(php正則表達式、php操作excel)

1.问题描写叙述 实现对固定网页上自己须要的信息抓取,以表格形式存储. 我是拿wustoj上的一个排行榜来练习的,地址:wustoj 2.思路 网页自己就简单学习了一下php,刚好用它来做点事情吧,我的想法是这种: (1)查看网页源码并保存在文件里. (2)依据须要的信息写出正則表達式.读文件,依据正則表達式来提取须要的信息.写正則表達式的时候最好分组,这样提取起来就方便了非常多. (3)对excel操作.将提取的信息以excel的形式输出. 比較好的开源php处理excel类链接:点击打开链接