python网络爬虫入门

python网络爬虫入门(一)

网络爬虫的定义

1、网络蜘蛛、网络机器人,抓取网络数据的程序。

2、其实就是用Python(其他语言也可以这里介绍python)程序模仿人点击浏览器并访问网站,而且模仿的越逼真越好。

  

对比几种语言

1、Python :请求模块、解析模块丰富成熟,强大的Scrapy网络爬虫框架
2、PHP :对多线程、异步支持不太好
3、JAVA:代码笨重,代码量大
4、C/C++:虽然效率高,但是代码成型慢

  

爬取数据的一般步骤

1、确定需要爬取的URL地址
2、由请求模块向URL地址发出请求,并得到网站的响应
3、从响应内容中提取所需数据并保存

  

python标准库中爬虫请求模块及其方法

urllib.request

urllib.request.urlopen()方法

作用:向网站发去请求并获取响应对象
参数:
    1.所需要爬取的URL地址
    2.timeout:设置等待时间,指定时间内为未响应抛出异常

  

第一个爬虫程序

打开浏览器,输入百度网址(https://www.baidu.com/),得到百度的响应

1 # 导入请求模块(python标准库模块)
2 import urllib.request
3 ?
4 # 定义url地址
5 url = ‘http://www.baidu.com/‘
6 ?
7 # 向百度发请求,得到响应对象
8 res = urllib.request.urlopen(url)

  

响应对象方法

 1 res = urllib.request.urlopen(url)
 2 ?
 3 #获取响应对象的内容(也就是网页源代码)
 4 #用decode()转换为字符串
 5 res.read().decode(‘utf-8‘)
 6 ?
 7 #返回http响应码
 8 res.getcode()
 9 ?
10 #返回实际数据的URL地址
11 res.geturl()

向百度发起请求,并获取响应对象的内容

 1 # 导入请求模块(python标准库模块)
 2 import urllib.request
 3 ?
 4 # 定义url地址
 5 url = ‘http://www.baidu.com/‘
 6 ?
 7 # 向百度发请求,得到响应对象
 8 res = urllib.request.urlopen(url)
 9 # 获取响应对象的内容(网页源代码)
10 html = res.read().decode(‘utf-8‘)
11 print(html)

------------恢复内容开始------------

python网络爬虫入门(一)

网络爬虫的定义

1、网络蜘蛛、网络机器人,抓取网络数据的程序。

2、其实就是用Python(其他语言也可以这里介绍python)程序模仿人点击浏览器并访问网站,而且模仿的越逼真越好。

  

对比几种语言

1、Python :请求模块、解析模块丰富成熟,强大的Scrapy网络爬虫框架
2、PHP :对多线程、异步支持不太好
3、JAVA:代码笨重,代码量大
4、C/C++:虽然效率高,但是代码成型慢

  

爬取数据的一般步骤

1、确定需要爬取的URL地址
2、由请求模块向URL地址发出请求,并得到网站的响应
3、从响应内容中提取所需数据并保存

  

python标准库中爬虫请求模块及其方法

urllib.request

urllib.request.urlopen()方法

作用:向网站发去请求并获取响应对象
参数:
    1.所需要爬取的URL地址
    2.timeout:设置等待时间,指定时间内为未响应抛出异常

  

第一个爬虫程序

打开浏览器,输入百度网址(https://www.baidu.com/),得到百度的响应

1 # 导入请求模块(python标准库模块)
2 import urllib.request
3 ?
4 # 定义url地址
5 url = ‘http://www.baidu.com/‘
6 ?
7 # 向百度发请求,得到响应对象
8 res = urllib.request.urlopen(url)

  

响应对象方法

 1 res = urllib.request.urlopen(url)
 2 ?
 3 #获取响应对象的内容(也就是网页源代码)
 4 #用decode()转换为字符串
 5 res.read().decode(‘utf-8‘)
 6 ?
 7 #返回http响应码
 8 res.getcode()
 9 ?
10 #返回实际数据的URL地址
11 res.geturl()

向百度发起请求,并获取响应对象的内容

 1 # 导入请求模块(python标准库模块)
 2 import urllib.request
 3 ?
 4 # 定义url地址
 5 url = ‘http://www.baidu.com/‘
 6 ?
 7 # 向百度发请求,得到响应对象
 8 res = urllib.request.urlopen(url)
 9 # 获取响应对象的内容(网页源代码)
10 html = res.read().decode(‘utf-8‘)
11 print(html)

------------恢复内容结束------------

原文地址:https://www.cnblogs.com/xiaosashuixing/p/12404258.html

时间: 2024-10-10 19:30:51

python网络爬虫入门的相关文章

python网络爬虫入门(二)——用python简单实现调用谷歌翻译

最近在看国外的文档,有些生词不认识.就用谷歌翻译来理解,用着用着闲来无事就按F12查看了下页面的源代码.发现可以用python简单的实现下谷歌翻译的页面功能.于是先上网搜下有没有类似的文章博客,发现几篇不错的,于是参考其他代码与自己的思路,简单的实现了下翻译的功能,代码如下: import re import urllib,urllib2 #----------模拟浏览器的行为,向谷歌翻译发送数据,然后抓取翻译结果,这就是大概的思路------- def Gtranslate(text): #t

python网络爬虫入门(一)——简单的博客爬虫

最近,为了微信公众号的图文,上网疯狂的收集和看了一些有深度的新闻和有趣的引人深思的文字评论,并选择了几篇极品发布出去.但感觉一篇一篇的看实在是麻烦死了.想找一个简单的解决办法,看能不能自动把网上的资料收集起来,然后自己用统一筛选.不巧,最近准备学习下网络爬虫相关知识,于是按照网上的教程自己学着试写了一个小小的爬虫,嘻嘻,是用来爬韩寒博客的. 先把完整的代码贴上来,如果朋友们需要试验下,请先安装python相关环境,然后在复制粘贴保存,再按F5运行. #导入urllib库,python访问网页必须

Python网络爬虫入门篇

1.  预备知识 学习者需要预先掌握Python的数字类型.字符串类型.分支.循环.函数.列表类型.字典类型.文件和第三方库使用等概念和编程方法. 2. Python爬虫基本流程 a. 发送请求 使用http库向目标站点发起请求,即发送一个Request,Request包含:请求头.请求体等. Request模块缺陷:不能执行JS 和CSS 代码. b. 获取响应内容 如果requests的内容存在于目标服务器上,那么服务器会返回请求内容. Response包含:html.Json字符串.图片,

python 网络爬虫入门笔记

参考:http://www.cnblogs.com/xin-xin/p/4297852.html 一.简介 爬虫即网络爬虫,如果将互联网比做成一张大网,那么蜘蛛就是爬虫.如果它遇到资源,将会抓取下来. 二.过程 在我们浏览网页时,我们经常会看到一些形形色色的页面,其实这个过程就是我们输入url,经DNS解析成对应的ip找到对应的服务器主机,向服务器发出一个请求,服务器经过解析之后将html,js等发回浏览器显示. 其实爬虫和这个过程差不多,只不过我们在抓取到html后,通过正则表达式来确定要获取

Python网络爬虫入门,带你领略Python爬虫的乐趣!

前段时间小编写了一篇有关于Python入门的文章,我觉得写的还是不够好,所以我特地补上一篇Python爬虫的入门的,本文特别适合Python小白,刚学习爬虫不久.接下来就让我们一起来写第一个例子吧! 一.我们的目标 1.作为第一个例子,我就以抓取糗事百科热门贴为例吧 2.糗事百科热门帖,获取其发布者.评论.点赞数.评论等信息 3.将信息清洗并打印,循环输出 4.设计程序,使可以选择抓取的页面范围 5.将每一页的信息保存到文本 二.开发环境介绍 phthon 2.7.13 IDE:PyCharm

python网络爬虫学习笔记

python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章目录 1. 介绍: 2. 从简单语句中开始: 3. 传送数据给服务器 4. HTTP头-描述数据的数据 5. 异常 5.0.1. URLError 5.0.2. HTTPError 5.0.3. 处理异常 5.0.4. info和geturl 6. Opener和Handler 7. Basic Authentication 8. 代理 9. Timeout 设置 10. Cookie 11. Deb

Python网络爬虫实战(一)快速入门

本系列从零开始阐述如何编写Python网络爬虫,以及网络爬虫中容易遇到的问题,比如具有反爬,加密的网站,还有爬虫拿不到数据,以及登录验证等问题,会伴随大量网站的爬虫实战来进行. 我们编写网络爬虫最主要的目的是爬取想要的数据还有通过爬虫去自动完成我们想在网站中做的一些事情. 从今天开始我会从基础开始讲解如何通过网络爬虫去完成你想要做的事. 先来看一段简单的代码. import requests #导入requests包 url = 'https://www.cnblogs.com/LexMoon/

Python网络爬虫

http://blog.csdn.net/pi9nc/article/details/9734437 一.网络爬虫的定义 网络爬虫,即Web Spider,是一个很形象的名字. 把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛.网络蜘蛛是通过网页的链接地址来寻找网页的. 从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址, 然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止. 如果把整个互联网当成一个网站,那么

Python]网络爬虫

Originated From: http://blog.csdn.net/pi9nc/article/details/9734437#comments [Python]网络爬虫(一):抓取网页的含义和URL基本构成 一.网络爬虫的定义 网络爬虫,即Web Spider,是一个很形象的名字. 把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛.网络蜘蛛是通过网页的链接地址来寻找网页的. 从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址, 然后通过这些