[python] 使用urllib从页面上采集信息示例

环境:linux,python3

作用:模拟Linux curl功能,采集URL信息

示例1:从hbase集群管理页面上采集信息

#!/usr/bin/env python
# -*- coding:utf-8 -*-
‘‘‘
从URL中采集所需信息,这边是用于采集hbase集群管理页面每秒请求数和region数量
‘‘‘
import re
import urllib.request
pagehandler = urllib.request.urlopen("http://127.0.0.1:60010/master-status?filter=general#baseStats")
content = pagehandler.read().decode()
result=re.findall(‘.*Total(.*?)Used Heap.*‘,content,re.S) ####(.*?)表示除换行外的所有字符,非贪婪模式,re.S使 . 匹配包括换行在内的所有字符
msg = re.findall(r‘<td>(\d+)</td>‘,result[0])    ####取出数值,HBASE集群每秒请求数和region数量。注意,这边取出后为字符串
print(msg)

示例2:从Kafka管理界面上采集队列堵塞数据量信息

#!/usr/bin/env python
# -*- coding:utf-8 -*-
‘‘‘
kafka管理页面上,lag列为消息堵塞数量,无法直接从URL返回的信息中采集该值,需要由logSize-offset计算得出
‘‘‘
import json
import urllib.request
pagehandler = urllib.request.urlopen("http://127.0.0.1:8086/group/test_group")
content = pagehandler.read().decode()
m = json.loads(content)
topic_dict = {}
for i in m[‘offsets‘]:
    blocking_num = 0
    #print(i[‘topic‘],i[‘offset‘],i[‘logSize‘])
    blocking_num +=  (i[‘logSize‘] - i[‘offset‘])	   ####计算队列堵塞量
    if i[‘topic‘] in topic_dict:			   ####将结果按topic_name:blocking_num存放在字典里
        topic_dict[i[‘topic‘]] += blocking_num
    else:
        topic_dict[i[‘topic‘]] = blocking_num

#print(topic_dict)
for key in topic_dict:
    if topic_dict[key] > 3000:
        print("topic:",key,",blocking msg num:",topic_dict[key])
时间: 2024-10-11 05:24:31

[python] 使用urllib从页面上采集信息示例的相关文章

Python实现抓取页面上链接

方法一: # coding:utf-8import reimport requests# 获取网页内容r = requests.get('http://www.163.com')data = r.text# 利用正则查找所有连接link_list =re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')" ,data)for url in link_list:    print url 方法二: 

页面上呈现信息分页功能

<input name="sort" type="hidden" value="model_id" preserve="true"/> <input name="order" type="hidden" value="desc" preserve="true" /> <input name="pageNo&q

python模块之HTMLParser抓页面上的所有URL链接

# -*- coding: utf-8 -*- #python 27 #xiaodeng #python模块之HTMLParser抓页面上的所有URL链接 import urllib #MyParser类写法一 ''' from HTMLParser import HTMLParser class MyParser(HTMLParser): def __init__(self): HTMLParser.__init__(self) def handle_starttag(self, tag, a

使用文档对象在页面上创建学生信息表。 信息表包括学号、姓名、性别、电子邮件、联系电话、个人主页和联系地址, 信息表内容通过表单输入,提交前先使用正则表达式进行验证,联系地址不能超过20个字符, 每输入一名学生的信息,提交后,表格增加一行,表格不能被选择、复制。

<!DOCTYPE html><html>    <head>        <meta charset="UTF-8">        <title></title>    </head>    <!--        描述:使用文档对象在页面上创建学生信息表.        信息表包括学号.姓名.性别.电子邮件.联系电话.个人主页和联系地址,        信息表内容通过表单输入,提交前先使用

利用PHP获取一个页面上的链接信息

开发中我们可能会获取某个页面或是一段内容中的链接信息,下面我分享一个我写的函数给大家,希望能帮到大家. 函数功能: 1.获取一段内容中链接信息: 2.获取一个URL中链接信息: 3.剔除锚链等无效的链接 4.获取当前域下的链接信息 5.获取他域下的链接信息 6.保留链接的文本信息 代码: /** * +---------------------------------------------------------- * 功能:获取一个网页或一段内容里面的链接信息 * +------------

在同一个页面上要使用多个百度分享,控件人分享的内容信息

在同一个页面上要使用多个百度分享,控件人分享的内容信息, 需要在分享前做一个小操作. "onBeforeClick":function(cmd,config){  return { "bdUrl": $("#shareContent_url").val(), "bdText": $("#shareContent_text").val(), "bdDesc":$("#shareC

在页面上动态添加和删除【添加信息的文本框】

页面上的内容: 当点击添加或删除会做出相应的操作 页面的html代码 1 <li id="clid"> 2 <div> 3 姓名:<input type="text" name="guestName" class="dfinput" style="width: 150px;"/> 4     国别:<input name="guestState"

Python爬虫实战---抓取图书馆借阅信息

原创作品,引用请表明出处:Python爬虫实战---抓取图书馆借阅信息 前段时间在图书馆借了很多书,借得多了就容易忘记每本书的应还日期,老是担心自己会违约,影响日后借书,而自己又懒得总是登录到学校图书馆借阅系统查看,于是就打算写一个爬虫来抓取自己的借阅信息,把每本书的应还日期给爬下来,并写入txt文件,这样每次忘了就可以打开该txt文件查看,每次借阅信息改变了,只要再重新运行一遍该程序,原txt文件就会被新文件覆盖,里面的内容得到更新. 用到的技术: Python版本是 2.7 ,同时用到了ur

[Python学习] 简单爬取CSDN下载资源信息

这是一篇Python爬取CSDN下载资源信息的例子,主要是通过urllib2获取CSDN某个人所有资源的资源URL.资源名称.下载次数.分数等信息:写这篇文章的原因是我想获取自己的资源所有的评论信息,但是由于评论采用JS临时加载,所以这篇文章先简单介绍如何人工分析HTML页面爬取信息. 源代码 # coding=utf-8 import urllib import time import re import os #****************************************