python对网站的html文件进行搜寻

import requests
import bs4#导入bs4模块
res=requests.get(‘http://www.baidu.com‘)#下载这个网址,也就是说下载这个网址上的HTML
res.raise_for_status()#检查下载是否成功 不成功的话就是会出错的
guoshun=bs4.BeautifulSoup(res.text,‘html.parser‘)#利用BeautifulSoup返回一个对象 有了这个对象以后就可以对HTML文件进行筛选了
#有了BeautifukSoup对象之后,就可以利用它的方法,定位HTML文档中的位置
#这个模块以后的作用就像当于是正则表达式,但是要比正则表达式好用
el=guoshun.select(‘#lg‘)#BeautifulSoup的对像有一个select方法,select方法将会返回一个tag对象的列表,注意这里返回的是列表
type(el)
print(len(el))#输出列表的长度
print(el[0])#输出列表中的第一个元素
#总之 就是要记住 select将会返回所有匹配到对象的一个列表
examplfile=open(‘example.html‘)
shunshun=bs4.BeautifulSoup(examplfile.read(),‘html.parser‘)#不加上html.parser这个语句就有可能会出错,这个也是根据python的出错提示写上去的
el2=shunshun.select("#author")
print(len(el2))
print(el2)
print(el2[0].getText())#getText方法的作用是显示文本,那么html中的文本是什么意思 要看课本

原文地址:https://www.cnblogs.com/shunguo/p/11399342.html

时间: 2024-10-04 00:16:51

python对网站的html文件进行搜寻的相关文章

Python网络编程小例子:使用python获取网站域名信息

Whois简介 whois(读作"Who is",非缩写)是用来查询域名的IP以及所有者等信息的传输协议.简单说,whois就是一个用来查询域名是否已经被注册,以及注册域名的详细信息的数据库(如域名所有人.域名注册商).通过whois来实现对域名信息的查询.早期的whois查询多以命令列接口存在,但是现在出现了一些网页接口简化的线上查询工具,可以一次向不同的数据库查询.网页接口的查询工具仍然依赖whois协议向服务器发送查询请求,命令列接口的工具仍然被系统管理员广泛使用.whois通常

Python搭建网站框架

1. 机器上安装python 省略 2. 机器上安装python的easy_install 下载一个ez_setup.py文件 进入该文件路径下,运行该文件:运行结束后,文件下<python路径>\Scripts多了easy_install.exe 将这个exe文件的路径加入环境变量path下,这个时候在任何情况下都可以使用easy_install解析python框架了 3. 在你的web框架下,使用easy_install安装你的frame框架. 运行结束frame框架就安装在你的机器上了.

Selenium+Python参数化:读取TXT文件

概述 从Selenium模块化一文中,可以看出参数化的必要性,本文来介绍下读取外部txt文件的方法. 如何打开文件 打开文件有以下两个函数可以应用: 1.open(file_name,access_mode) file_name: 文件路径及名称: access_mode :访问方式,具体参数如下,,未提供参数,则默认为r: r:表示读取: w:表示写入: a:表示添加: +: 表示读写: b:表示2进制访问; 2.file函数 file()内建函数它的功能等于open(),如下根据文档说明可知

python 按每行读取文件怎么去掉换行符

python按每行读取文件后,会在每行末尾带上换行符,这样非常不方便后续业务处理逻辑,需要去掉每行的换行符,怎么去掉呢?看下面的案例: >>> a = "hello world\n" >>> print a #可以看到hello world下面空了一格 hello world >>> a.split() #通过split方法将字符转换成列表 ['hello', 'world'] #从列表中取第一个字符 >>> a.

Python识别网站验证码

http://drops.wooyun.org/tips/6313 Python识别网站验证码 Manning · 2015/05/28 10:57 0x00 识别涉及技术 验证码识别涉及很多方面的内容.入手难度大,但是入手后,可拓展性又非常广泛,可玩性极强,成就感也很足. 验证码图像处理 验证码图像识别技术主要是操作图片内的像素点,通过对图片的像素点进行一系列的操作,最后输出验证码图像内的每个字符的文本矩阵. 读取图片 图片降噪 图片切割 图像文本输出 验证字符识别 验证码内的字符识别主要以机

Python 通过网站search功能监控网站内容更新

更多信息访问个人博客: http://cloudbps.com 接到需求帮朋友监控一个信息网站,当该网站有相关的数据更新的时候发送信息到指定邮箱.下面是相关的python脚本,用到了httplib, time , sys ,smtplib模块 #!/usr/bin/env python#coding=utf8import httplib, time import sys import smtplib reload(sys) sys.setdefaultencoding('utf8') from

Python中基本的读文件和简单数据处理

Python中基本的读文件和简单数据处理 暂无评论 DataQuest上面的免费课程(本文是Python基础课程部分),里面有些很基础的东西(csv文件读,字符串预处理等),发在这里做记录.涉及下面六个案例: Find the lowest crime rate(读取csv文件,字符串切分,for循环和if判断过滤数据) Discover weather pattern in LA(for循环和if判断进行频数统计) Building a Spell Checker(词频统计,字符串预处理,字典

src/MD2.c:31:20: 错误:Python.h:没有那个文件或目录

一.前言 在CentOS 上安装fabric时出现问题,首先已安装pip, 用pip执行以下命令pip install 出现以下问题 [plain] view plain copy [[email protected] /]$ sudo pip install fabric Requirement already satisfied (use --upgrade to upgrade): fabric in /usr/lib/python2.6/site-packages/Fabric-1.3.

使用pyinstaller把Python程序转化为exe文件

在实际应用中,有时候我们需要把python程序转化为exe文件,以方便使用 首先,使用pip直接安装pyinstaller,几乎一键安装,非常方便. 安装好以后,cd 定位到安装路径下,pyinsytanller -v即可查看pyinstaller的版本,如果不希望每次把需要转化的文件拷贝到安装路径或者输入一大串的路径,最好是只环境变量吧. 下面是一些简单的使用. --onefile         制作独立的可执行程序 --onedir         制作出的档案存放在同一个文件夹下(默认值