Python爬虫总结（一）入门

很多做数据分析的同学会抱怨没有实际数据，感觉巧妇难为无米之炊，而火车头采集器一类的软件很难完成一些定制性很强的数据采集任务，这时候就需要自己编写爬虫来采集数据了。python是目前做爬虫比较流行的工具。

爬虫的一般原理

爬虫一般通过发送http/https请求，从服务器获取数据，进一步解析获取的数据，最后得到有用的信息。而爬虫发送的http/https请求主要是GET和POST两类请求数据。

GET请求

简单的GET请求：

import urllib2

url ="https://movie.douban.com/"
result = urllib2.urlopen(url)
print result.read()

上述代码发送了一个的https请求给豆瓣movie的服务器，并将服务器返回的信息加载过来打印到屏幕上。

也可以发送带参数的GET 请求：

import urllib2

params = {‘n‘:‘UestcNews.Front.Document.SpecialReportArticleDocument‘,‘Id‘:‘55029‘}
url ="http://www.news.uestc.edu.cn/?%s"
result = urllib2.urlopen(url%params)
print result.read()

上述代码发送了一个http的GET请求，并添加了参数n和id。

POST请求

import urllib2
import urllib
#定义要提交的数据
postdata={
    ‘user_name‘:‘abc‘
    ‘passwd‘:‘123‘
}
#postdata编码
postdata=urllib.urlencode(postdata)
request = urllib2.Request(‘http://www.xxxx.com/login‘,postdata)
response=urllib2.urlopen(request)
print response

上述代码发送了一个登陆的POST请求,模拟登陆是数据采集常用的一个功能,后面我会有更详细的介绍.

其它说明

其实python发送http/https的包有很多,这里我只用了urllib2包,除此之外还有urllib包,更底层的httplib包,还有一个第三方包requests.

说到第三方包,用python做爬虫的一大优势就是它有很多很好用的爬虫相关的第三方包,后面我会一一介绍.

总结

今天我们学到了如何用python 发送http/https的GET POST请求,通过GET POST请求我们就可以获取到web数据,下一篇我将介绍网络爬虫经常要处理的数据的类型和处理方法.

时间： 2024-10-10 01:06:09

Python爬虫总结（一）入门的相关文章

Python爬虫Scrapy框架入门（0）

想学习爬虫,又想了解python语言,有个python高手推荐我看看scrapy. scrapy是一个python爬虫框架,据说很灵活,网上介绍该框架的信息很多,此处不再赘述.专心记录我自己遇到的问题以及解决方案吧. 给几个链接吧,我是根据这几个东西来尝试学习的: scrapy中文文档(0.24版,我学习的时候scrapy已经1.1了,也许有些过时): http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/overview.html 大神的博客介绍:

这个Python爬虫的简单入门及实用的实例，你会吗？

前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理.作者:HOT_and_COOl 利用爬虫可以进行数据挖掘,比如可以爬取别人的网页,收集有用的数据进行整合和划分,简单的就是用程序爬取网页上的所有图片并保存在自己新建的文件夹内,还有可以爬社交网站的自拍图,将几十万张的图片合在一起,就知道大众的模样.也可以将爬取的数据进行处理,生成一种可视化的东西.另外如果你python爬虫没学好,建议去小编的Python交流.裙 :一久武其而

Python爬虫基础知识入门一

一.什么是爬虫,爬虫能做什么爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来.比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据. 爬虫可以抓取的某个网站或者某个应用的内容,提取有用的价值.也可以模拟用户在浏览器或者App应用上的操作,实现自动化的程序.以下行为都可以用爬虫实现: 咨询报告(咨询服务行业) 抢票神器投票神器预测(

Python爬虫库Scrapy入门1--爬取当当网商品数据

1.关于scrapy库的介绍,可以查看其官方文档:http://scrapy-chs.readthedocs.io/zh_CN/latest/ 2.安装:pip install scrapy 注意这个库的运行需要pywin32的支持,因此还需要安装pywin32.可以在这个网站上选择合适的版本下载安装:https://sourceforge.net/projects/pywin32/files/pywin32/ 3.挖掘当当网商品数据: 首先需要创建一个名为dangdang的爬虫项目,在pow

Python爬虫Scrapy框架入门（2）

本文是跟着大神博客,尝试从网站上爬一堆东西,一堆你懂得的东西附上原创链接: http://www.cnblogs.com/qiyeboy/p/5428240.html 基本思路是,查看网页元素,填写xpath表达式,获取信息.自动爬取策略是,找到翻页网页元素,获取新链接地址,执行翻页.网页分析部分不再赘述,原博讲的很好很清楚,很涨姿势基于拿来主义,我们只需要知道怎么更改Scrapy框架就行了~ items.py: import scrapy class TestprojItem(scrapy

python 爬虫框架scrapy学习记录和整理 python爬虫框架scrapy入门文档学习

里的话并不推荐大家用python+pip安装,推荐使用Anaconda进行安装,为什么呢?因为如果你选择前者,填坑的过程可能会让你绝望,说不定会让你砸键盘.内分泌失调,所以强烈建议用Anaconda! win7(64位)Anaconda3-5.0.1-Windows-x86_64(点击下载) 一.安装Anaconda 这里的话简单介绍一下anaconda的下载,下载地址为:https://www.anaconda.com/download/ 如果官网无法打开,请移步这里:下载Anaconda P

Python爬虫Scrapy框架入门（3）

往往需要爬取的网页是呈一个树状结构.比如,需要先爬取一个目录,然后再在目录中选择具体的爬取目标.而目录和具体目标之间,网页结构不同,使得我们不能使用相同的爬取策略. 从之前的经验来看,我们对scrapy进行操作是从Spider的Parse()函数作为入口.不如在parse()函数中对对目录进行操作,获取相应目标的url,再进一步爬取具体内容. 代码如下: 1 class ZhangzishiSpider(scrapy.Spider): 2 name = 'zhangzishi' 3 allowe

Python网络爬虫入门，带你领略Python爬虫的乐趣！

前段时间小编写了一篇有关于Python入门的文章,我觉得写的还是不够好,所以我特地补上一篇Python爬虫的入门的,本文特别适合Python小白,刚学习爬虫不久.接下来就让我们一起来写第一个例子吧! 一.我们的目标 1.作为第一个例子,我就以抓取糗事百科热门贴为例吧 2.糗事百科热门帖,获取其发布者.评论.点赞数.评论等信息 3.将信息清洗并打印,循环输出 4.设计程序,使可以选择抓取的页面范围 5.将每一页的信息保存到文本二.开发环境介绍 phthon 2.7.13 IDE:PyCharm

Python爬虫怎么入门-让入门更快速，更专注

经常有同学私信问,Python爬虫该怎么入门,不知道从何学起,网上的文章写了一大堆要掌握的知识,让人更加迷惑. 我也浏览了下网上关于怎么Python爬虫入门的文章,发现有的还在教人用urllib来发送http请求,这真是有点误人子弟了.本文也不提倡刚开始去学习第三方爬虫框架,我想把要学习的知识简化一些,让入门更快速,更专注. Python爬虫入门:技能真要说Python爬虫需要具备什么知识,那就是你得会Python,哈哈. 其他的知识就是你能熟练运用Python的几个第三方库,当然你具备一点h

python爬虫Scrapy(一)-我爬了boss数据

一.概述学习python有一段时间了,最近了解了下Python的入门爬虫框架Scrapy,参考了文章Python爬虫框架Scrapy入门.本篇文章属于初学经验记录,比较简单,适合刚学习爬虫的小伙伴. 这次我选择爬取的是boss直聘来数据,毕竟这个网站的数据还是很有参考价值的,下面我们讲述怎么爬取boss直聘的招聘信息并存盘,下一篇文章我们在对爬取到的数据进行分析. 二.Scrapy框架使用步骤下面我们做一个简单示例,创建一个名字为BOSS的爬虫工程,然后创建一个名字为zhipin的爬虫