加入实验室,要写爬虫,以前写过java的,新学python练练手
首先是发包程序,框架如下:
首先是POST方式,代码如下:
1 import urllib 2 import urllib2 3 url=‘http://someserver.com/cgi-bin/register.cgi‘ 4 user_agent=‘Mozilla/4.0‘ 5 values={ 6 ‘name‘:‘Liuyuqing‘, 7 ‘location‘:‘DUT‘, 8 ‘language‘:‘python‘ 9 } 10 headers={ 11 ‘cookie‘:‘name=LIUYUQING‘, 12 ‘User-Agent‘:user_agent 13 } 14 data=urllib.urlencode(values) 15 req=urllib2.Request(url,data,headers) 16 response=urllib2.urlopen(req) 17 the_page=response.read()
如果Request时没有data参数,则发送的是GET方式
response.geturl() #获得真正的url
response.info() #获得返回报文头
还有一些自定义opener和handler的知识暂时用不到,先不学啦~下面开始正则表达~
===================华丽的分割线===========================
正则表达基本知识不表,直接说python上的应用:
import re reg=re.compile(r‘<title>(.*)</title>‘) list=re.findall(reg,text) for i in list: print i pass
最基本的Helloworld就这么多,剩下的明天再说,睡觉了Zzz...
时间: 2024-10-11 13:18:37