Python获取web页面信息

1 import sys, urllib2
2 # req = urllib2.Request(sys.argv[1])
3 req = urllib2.Request(‘http://www.sina.com.cn‘)
4 fd = urllib2.urlopen(req)
5 print "Retrieved", fd.geturl()
6 info = fd.info()
7 for key, value in info.items():
8     print "%s = %s" % (key, value)

结果如下:

Retrieved http://www.sina.com.cn
content-length = 117199
x-cache = HIT from cnc.sy.1cf2.32.spool.sina.com.cn
x-powered-by = shci_v1.03
content-encoding = gzip
age = 3
expires = Mon, 28 Dec 2015 13:59:14 GMT
vary = Accept-Encoding
server = nginx
last-modified = Mon, 28 Dec 2015 13:57:24 GMT
connection = close
cache-control = max-age=60
date = Mon, 28 Dec 2015 13:58:14 GMT
content-type = text/html
时间: 2024-10-14 00:37:28

Python获取web页面信息的相关文章

Python网络编程小例子:使用python获取网站域名信息

Whois简介 whois(读作"Who is",非缩写)是用来查询域名的IP以及所有者等信息的传输协议.简单说,whois就是一个用来查询域名是否已经被注册,以及注册域名的详细信息的数据库(如域名所有人.域名注册商).通过whois来实现对域名信息的查询.早期的whois查询多以命令列接口存在,但是现在出现了一些网页接口简化的线上查询工具,可以一次向不同的数据库查询.网页接口的查询工具仍然依赖whois协议向服务器发送查询请求,命令列接口的工具仍然被系统管理员广泛使用.whois通常

爬虫:工作中编写的一个python爬取web页面信息的小demo

最近公司要求编写一个爬虫,需要完善后续金融项目的数据,由于工作隐私,就不付被爬的网址url了,下面总结下spider的工作原理. 语言:python:工具:jupyter: (1)使用requests模块,获取url页面. import requests url = "http://www.~~~~~~~~~~~~~~~~~~~~~~~~~~" r = requests.get(url) (2)解析html页面(若是pdf页面需要其他工具模块)需要使用BeautifulSoup模块,把

Python 获取CentOS主机信息

Python 获取主机IP地址 #!/usr/bin/env python #coding:utf-8 import os ip=os.popen("ifconfig eth0|grep 'inet addr'|awk -F ':' '{print $2}'|awk '{print $1}'") for i in ip: print "ip地址为:%s" %(i.strip()) #ip=ip.read().strip() #print ip Python获取系统的

python 获取linux系统性能信息

本文以及以后有关python 运维的文章都是<Python自动化运维:技术与最佳实践> 的读书笔记. psutil 是python的第三方库,通过它可以轻松获取系统运行的各种信息:cpu.内存.磁盘.网络等 一 安装 安装环境是centos 6.4 64位系统 yum install -y gcc python-devel wget https://pypi.python.org/packages/source/p/psutil/psutil-2.0.0.tar.gz --no-check-c

使用HttpClient登录知乎获取返回页面信息

引言 HttpClient是java语言下一个支持http协议的client编程工具包,它实现了HTTP协议的全部方法,可是不支持JS渲染.我们在做一些小玩意时,有可能须要登录某些站点获取信息,那么HttpClient就是你的好帮手,废话不多说,进入实战. 一 登录的实际意义 在HTTP横行的今天,我们每天都要登录一些站点,那么登录的意义是什么呢?首先要对cookie要有一定了解.cookie是存放在本地的一些小文件,它由server发送命令.浏览器在本地读写. 当訪问某些站点的时候,浏览器会检

用Python获取Linux资源信息的三种方法

方法一:psutil模块 #!usr/bin/env python # -*- coding: utf-8 -*- import socket import psutil class NodeResource(object): def get_host_info(self): host_name = socket.gethostname() return {'host_name':host_name} def get_cpu_state(self): cpu_count = psutil.cpu

js获取当前页面信息

设置或获取对象指定的文件名或路径.<script>alert(window.location.pathname)</script> 设置或获取整个 URL 为字符串.<script> alert(window.location.href);</script>设置或获取与 URL 关联的端口号码.<script>alert(window.location.port)</script> 设置或获取 URL 的协议部分.<script

PYTHON 获取机器硬件信息及状态

#!/usr/bin/env python # encoding: utf-8 from optparse import OptionParser import os import re import json def main(): try: parser = OptionParser(usage="%prog [options]") reg_result=re.compile('\[(.*)\]') #add option parser.add_option("-m&qu

python 获取subprocess实时输出信息

import subprocess p = subprocess.Popen("ping www.baidu.com -n 6",shell=True,stdout=subprocess.PIPE) #一下面是第一种方法(使用时请先注释第二种方法) for i in iter(p.stdout.readline, b''): print i.rstrip() #下面是第二种方法(使用时请先注释第一种方法) returncode = p.poll() #用于检查子进程是否已经结束 whi