python对网站的html文件进行搜寻

import requests
import bs4#导入bs4模块
res=requests.get(‘http://www.baidu.com‘)#下载这个网址，也就是说下载这个网址上的HTML
res.raise_for_status()#检查下载是否成功不成功的话就是会出错的
guoshun=bs4.BeautifulSoup(res.text,‘html.parser‘)#利用BeautifulSoup返回一个对象有了这个对象以后就可以对HTML文件进行筛选了
#有了BeautifukSoup对象之后，就可以利用它的方法，定位HTML文档中的位置
#这个模块以后的作用就像当于是正则表达式，但是要比正则表达式好用
el=guoshun.select(‘#lg‘)#BeautifulSoup的对像有一个select方法，select方法将会返回一个tag对象的列表,注意这里返回的是列表
type(el)
print(len(el))#输出列表的长度
print(el[0])#输出列表中的第一个元素
#总之就是要记住 select将会返回所有匹配到对象的一个列表
examplfile=open(‘example.html‘)
shunshun=bs4.BeautifulSoup(examplfile.read(),‘html.parser‘)#不加上html.parser这个语句就有可能会出错，这个也是根据python的出错提示写上去的
el2=shunshun.select("#author")
print(len(el2))
print(el2)
print(el2[0].getText())#getText方法的作用是显示文本，那么html中的文本是什么意思要看课本

原文地址：https://www.cnblogs.com/shunguo/p/11399342.html

时间： 2024-10-04 00:16:51

python对网站的html文件进行搜寻的相关文章

Python网络编程小例子：使用python获取网站域名信息

Whois简介 whois(读作"Who is",非缩写)是用来查询域名的IP以及所有者等信息的传输协议.简单说,whois就是一个用来查询域名是否已经被注册,以及注册域名的详细信息的数据库(如域名所有人.域名注册商).通过whois来实现对域名信息的查询.早期的whois查询多以命令列接口存在,但是现在出现了一些网页接口简化的线上查询工具,可以一次向不同的数据库查询.网页接口的查询工具仍然依赖whois协议向服务器发送查询请求,命令列接口的工具仍然被系统管理员广泛使用.whois通常

Python搭建网站框架

1. 机器上安装python 省略 2. 机器上安装python的easy_install 下载一个ez_setup.py文件进入该文件路径下,运行该文件:运行结束后,文件下<python路径>\Scripts多了easy_install.exe 将这个exe文件的路径加入环境变量path下,这个时候在任何情况下都可以使用easy_install解析python框架了 3. 在你的web框架下,使用easy_install安装你的frame框架. 运行结束frame框架就安装在你的机器上了.

Selenium+Python参数化：读取TXT文件

概述从Selenium模块化一文中,可以看出参数化的必要性,本文来介绍下读取外部txt文件的方法. 如何打开文件打开文件有以下两个函数可以应用: 1.open(file_name,access_mode) file_name: 文件路径及名称: access_mode :访问方式,具体参数如下,,未提供参数,则默认为r: r:表示读取: w:表示写入: a:表示添加: +: 表示读写: b:表示2进制访问; 2.file函数 file()内建函数它的功能等于open(),如下根据文档说明可知

python 按每行读取文件怎么去掉换行符

python按每行读取文件后,会在每行末尾带上换行符,这样非常不方便后续业务处理逻辑,需要去掉每行的换行符,怎么去掉呢?看下面的案例: >>> a = "hello world\n" >>> print a #可以看到hello world下面空了一格 hello world >>> a.split() #通过split方法将字符转换成列表 ['hello', 'world'] #从列表中取第一个字符 >>> a.

Python识别网站验证码

http://drops.wooyun.org/tips/6313 Python识别网站验证码 Manning · 2015/05/28 10:57 0x00 识别涉及技术验证码识别涉及很多方面的内容.入手难度大,但是入手后,可拓展性又非常广泛,可玩性极强,成就感也很足. 验证码图像处理验证码图像识别技术主要是操作图片内的像素点,通过对图片的像素点进行一系列的操作,最后输出验证码图像内的每个字符的文本矩阵. 读取图片图片降噪图片切割图像文本输出验证字符识别验证码内的字符识别主要以机

Python 通过网站search功能监控网站内容更新

更多信息访问个人博客: http://cloudbps.com 接到需求帮朋友监控一个信息网站,当该网站有相关的数据更新的时候发送信息到指定邮箱.下面是相关的python脚本,用到了httplib, time , sys ,smtplib模块 #!/usr/bin/env python#coding=utf8import httplib, time import sys import smtplib reload(sys) sys.setdefaultencoding('utf8') from

Python中基本的读文件和简单数据处理

Python中基本的读文件和简单数据处理暂无评论 DataQuest上面的免费课程(本文是Python基础课程部分),里面有些很基础的东西(csv文件读,字符串预处理等),发在这里做记录.涉及下面六个案例: Find the lowest crime rate(读取csv文件,字符串切分,for循环和if判断过滤数据) Discover weather pattern in LA(for循环和if判断进行频数统计) Building a Spell Checker(词频统计,字符串预处理,字典

src/MD2.c:31:20: 错误：Python.h：没有那个文件或目录

一.前言在CentOS 上安装fabric时出现问题,首先已安装pip, 用pip执行以下命令pip install 出现以下问题 [plain] view plain copy [[email protected] /]$ sudo pip install fabric Requirement already satisfied (use --upgrade to upgrade): fabric in /usr/lib/python2.6/site-packages/Fabric-1.3.

使用pyinstaller把Python程序转化为exe文件

在实际应用中,有时候我们需要把python程序转化为exe文件,以方便使用首先,使用pip直接安装pyinstaller,几乎一键安装,非常方便. 安装好以后,cd 定位到安装路径下,pyinsytanller -v即可查看pyinstaller的版本,如果不希望每次把需要转化的文件拷贝到安装路径或者输入一大串的路径,最好是只环境变量吧. 下面是一些简单的使用. --onefile 制作独立的可执行程序 --onedir 制作出的档案存放在同一个文件夹下(默认值

猜你喜欢

从273二手车的M站点初探js模块化编程

前言这几天在看273M站点时被他们的页面交互方式所吸引,他们的首页是采用三次加载+分页的方式.也就说分为大分页和小分页两种交互.大分页就是通过分页按钮来操作,小分页是通过下拉(向下滑动)时异步加载数 ...

利用Travis CI 让你的github项目持续构建

Travis CI 是目前新兴的开源持续集成构建项目,它与jenkins,GO的很明显的特别在于采用yaml格式,简洁清新独树一帜.目前大多数的github项目都已经移入到Travis CI的构建队列 ...

Android学习笔记（二十）——自定义内容提供器

//此系列博文是<第一行Android代码>的学习笔记,如有错漏,欢迎指正! 如果我们想要实现跨程序共享数据的功能,官方推荐的方式就是使用内容提供器,可以通过新建一个类去继承 Conten ...

hadoop+zookepper实现namenode的高可用

Hadoop+zookeepker安装与配置: 在hadoop-env.sh中添加export JAVA的环境变量修改hostname文件的名称,/etc/hosts文件配置主机名和ip的映射关系, ...

自考《操作系统概论》之处理器管理

接上篇"自考<操作系统概论>之引论引论中简单提到了处理器,继续来重点学习它的管理. 一.多道程序设计系统让多个计算题同时进入一个计算机系统的主存储器并行执行,这种程序设 ...

归并排序的实现

归并排序也是一种很优越的排序方式,并且时间复杂度为O(nlogn),而且归并排序的思想很有意思很有启发,包括排序过程和时间复杂度的推导等等,具体可以google一下.下面给出二路归并的实现代码. #i ...

Simple Style

<ResourceDictionary xmlns="http://schemas.microsoft.com/winfx/2006/xaml/presentation" x ...

RunMR.java

<a href="servlet/RunMR">调用MR</a> package fz.servlet; import java.io.IOExceptio ...

eigenvalues problem

由于在看paper中经常会看到generalized eigenvalues.eigenvalues problem等字眼,今晚终于开始认真地重新看了一下线性代数中这部分内容.下面是在学习过程中找出来 ...

C++文件头,命名空间，new和delete,内联函数，引用，函数重载，构造函数和析构函数，深拷贝和浅拷贝，explict,this指针

目录 1 开始学习C++............................................................................. ...

带你玩转JavaScript中的隐式强制类型转换

正题开始前我想先抛出一个问题,==和===有什么区别?可能一般人会想,不就是后者除了比较值相等之外还会比较类型是否相等嘛,有什么好问的,谁不知道?!但是这样说还不够准确,两者的真正区别其实是==在比较 ...

Spring data jpa使用枚举

枚举的优越性不用多说.在实体中使用,上代码实体类: @Entity @Table(name = "cache_user") public class User { /** * 用 ...

资深程序猿冒死揭开软件潜规则：无法维护的代码

原始博文公布于: Roedy Green's Mindproducts (http://mindprod.com/unmain.html ). 翻译链接: 点击打开链接 2014年11月25日 03: ...

ASP.NET Core Security Data Protection

Introduction to Data Protection 数据保护简介 Web应用程序经常需要存储安全敏感数据.Windows为桌面应用程序提供了DPAPI,但是并不适用于Web应用程序.ASP ...

网页屏蔽Backspace事件，输入框不屏蔽

document.onkeydown = function (e) { var code; if (!e){ var e = window.event;} if (e.keyCode){ code = ...

1.什么是Servlet的生命周期容器如何创建Servlet对象.如何为Servlet对象分配资源.如何调用Servlet对象的方法来处理请求.以及如何销毁Servlet对象的整个过程 2.声明周期 ...

ubuntu16配置mysql5.7主从同步

测试环境如下: master: 10.0.0.26 slave01: 10.0.0.27 slave02: 10.0.0.28 一.三台机均安装mysql-server5.7 $ sudo apt-g ...

架设 OpenLDAP服务器

OpenLDAP是一个开放源代码的软件,可以免费获取使用,其主页地址是:http://www.openldap.org/.在RHEL 6上安装OpenLDAP还需要libtool-ltdl-2.2.6 ...

十四、添加RD 网关角色

在远程桌面服务界面,选择"RD 网关",如图 2. 在选择服务器对话框,选择RDGW01.open-cloud.com.RDGW02.open-cloud.com,如图 3. ...

读书笔记_java设计模式深入研究第七章代理模式 Proxy

1,代理模式:一个类可以用作其他东西的接口,其他类可以通过此类去访问被代理者. 2,UML图如下: 3,角色: ISubject:抽象主题接口,该接口定义对象和它的代理共用的接口. RealSubje ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.024 s.