使用python做最简单的爬虫

--之心

#第一种方法import urllib2  #将urllib2库引用进来response=urllib2.urlopen("http://www.baidu.com") #调用库中的方法,将请求回应封装到response对象中html=response.read() #调用response对象的read()方法,将回应字符串赋给hhtml变量print html  #打印出来

#第二中方法import  urllib2req=urllib2.Request("http://ww.baidu.com")response=urllib2.urlopen(req)html = response.read()print  html

一般情况下,上面的爬虫,如果大量爬行,会被限制访问,所以要伪装成浏览器进行访问   这里用伪装成IE9.0进行访问

#要求请的url地址import urllib2url="http://www.baidu.com"#要伪装的浏览器user_agent头user_agent="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36;"#创建字典,使请求的headers中的’User-Agent‘:对应user_agent字符串headers={‘User-Agent‘:user_agent}#新建一个请求,将请求中的headers变换成自己定义的req =urllib2.Request(url,headers=headers)#请求服务器,得到回应response=urllib2.urlopen(req)#得到回应内容the_page=response.read()#打印结果print  the_page
时间: 2024-08-30 16:51:49

使用python做最简单的爬虫的相关文章

[python]做一个简单爬虫

为什么选择python,它强大的库可以让你专注在爬虫这一件事上而不是更底层的更繁杂的事 爬虫说简单很简单,说麻烦也很麻烦,完全取决于你的需求是什么以及你爬的网站所决定的,遇到的第一个简单的例子是paste.ubuntu.com 这是一个贴代码的网站,没事喜欢看看有没有什么好玩的东西,只是上面大部分都是minecraft的东西,于是写了以下代码 1 import urllib2 2 import socket 3 import re 4 def getData(url, timeOut = 10)

python实现一个简单的爬虫

今天第一次写爬虫,感觉非常有趣!,中途也遇到了许多问题,所以写篇博客- 目标:爬取豆瓣编程类书籍中9分以上的 刚接触爬虫,说下我的认识(不一定准确^_^) 我们知道网页的呈现也是用编程语言写出来的,有源码,每个网页我们都可以查看它的源码,我的浏览器快捷键是Ctrl+U, 一般点击右键就可以看见查看源码.因为要爬取豆瓣的数据,那看看下图豆瓣图书页面的部分源码 它所对应的数据是这样的 那么我们知道了,网页上所能看见的每个数据在源码上都能找到,有的点击会跳转也是因为源码上链接着其他地方. 所以我们直接

python做数据分析-简单库的介绍和运用

一.数据分析能做什么,简单举几个例子: 1.淘宝可以观察用户的购买记录.搜索记录以及人们在社交媒体上发布的内容选择商品推荐 2.股票可以根据相应的数据选择买进卖出 3.今日头条可以将数据分析应用到新闻推送排行算法当中 4.爱奇艺可以为用户提供个性化电影推荐服务 二.python常用库 Numpy Numpy是Numerical Python的简写,主要可以用来做Python数值计算.它提供了多种数据结构.算法以及大部分涉及Python数值计算所需的接口. 快速.高效的多维数组对象ndarray

Python基础教程3——教你用Python做个简单的加密程序(还基础什么呀,直接来练习吧,带源码)

因为发现基础教程我之前推荐的那个网站就已经很完善了,就不重复写了,所以本汪来一起做练习吧. 一.加密原理 记得当时我学c++的时候,学到输入输出流的时候,当时王老师就教我们写了一个小的加密程序,所以这次既然学习了Python这个小练习当然不能放过(其实这个加密程序我用c++,java都写过可以说也算比较熟了).加密原理就是循环读取文件每个字节,然后进行相应的加密运算后就是加密操作了,解密时候进行逆运算就是解密操作了. 比如我们读取文件的第一个字节数据是20(读取出来的每位数据为0~255,因为8

用python做一个简单的pong游戏

pong游戏就是一个用挡板去控制一个小球不触底的一个小游戏,上个世纪以电视游戏的方式发行,取得巨大的成功. 看了一点书,知道pygame是python里一个强大的模块,做出这个游戏的简易模式也不难. 主要思想:1.创建游戏界面,挡板,小球以及记分牌. 2.小球碰到游戏界面四个边界会反弹,即x方向和y方向上的速度会改变为负,碰到底边生命数会减1. 3.小球与挡板碰撞y方向速度会变负,同时分数加1. 4.游戏结束会显示相关文字. 代码如下: import pygame pygame.init() s

Python学习之简单网页爬虫

0x00案例   爬取博客园某页面的所有图片并下载到本地 连续搞了一周的python,收获颇多,主要还是锻炼了自己的脾气...话不多说,先贴上脚本 #coding:utf-8 import urllib2 import re url="https://www.cnblogs.com/peterpan0707007/p/7620048.html" headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:59.0) Ge

Python写一个简单的爬虫

code #!/usr/bin/env python # -*- coding: utf-8 -*- import requests from lxml import etree class Main: def __init__(self): self.headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69

python实现一个简单的爬虫搜索功能

html.parser HTMLParser   urllib.request urlopen   urllib parse LinkParser(HTMLParser):     handle_starttag(, tag, attrs):         tag == :             (key, value) attrs:                 key == :                     newUrl = parse.urljoin(.baseUrl, v

Python做一个简单的web服务器,外接一个支持wsgi协议框架显示动态数据

import socket import re import sys import mini_frame # 通过外部传端口号给套接字 # tcp_port = sys.argv[1] class Mini_Wsgi(object): def __init__(self): self.tcp_socket = socket.socket(socket.AF_INET, socket.SOCK_STREAM) self.tcp_socket.setsockopt(socket.SOL_SOCKET