python 网络爬虫学习笔记（一）

为了方便，在Windows下我用了PyCharm，个人感觉这是一款优秀的python学习软件。爬虫，即网络爬虫，大家可以理解为在网络上爬行的一直蜘蛛，互联网就比作一张大网，而爬虫便是在这张网上爬来爬去的蜘蛛咯，如果它遇到资源，那么它就会抓取下来。

学习python爬虫前，先学习下其他的一些知识：

（一）url

URL，即统一资源定位符，也就是我们说的网址，统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置以及浏览器应该怎么处理它。

URL的格式由三部分组成：
①第一部分是协议(或称为服务方式)。
②第二部分是存有该资源的主机IP地址(有时也包括端口号)。
③第三部分是主机资源的具体地址，如目录和文件名等

（二）urllib和urllib2库

urllib和urllib2库是学习Python爬虫最基本的库，利用这个库我们可以得到网页的内容，并对内容用正则表达式提取分析，得到我们想要的结果。

（三）正则表达式

正则表达式是一种用来匹配字符串的强有力的武器。它的设计思想是用一种描述性的语言来给字符串定义一个规则，凡是符合规则的字符串，我们就认为它“匹配”了，否则，该字符串就是不合法的。

时间： 2024-12-19 20:37:04

python 网络爬虫学习笔记（一）的相关文章

python网络爬虫学习笔记

python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章目录 1. 介绍: 2. 从简单语句中开始: 3. 传送数据给服务器 4. HTTP头-描述数据的数据 5. 异常 5.0.1. URLError 5.0.2. HTTPError 5.0.3. 处理异常 5.0.4. info和geturl 6. Opener和Handler 7. Basic Authentication 8. 代理 9. Timeout 设置 10. Cookie 11. Deb

python网络爬虫学习资料

第一:Python爬虫学习系列教程(来源于某博主:http://cuiqingcai.com/1052.html) Python版本:2.7 整体目录: 一.爬虫入门 1. Python爬虫入门一之综述 2. Python爬虫入门二之爬虫基础了解 3. Python爬虫入门三之Urllib库的基本使用 4. Python爬虫入门四之Urllib库的高级用法 5. Python爬虫入门五之URLError异常处理 6. Python爬虫入门六之Cookie的使用 7. Python爬虫入门七之正则

python 网络爬虫入门笔记

参考:http://www.cnblogs.com/xin-xin/p/4297852.html 一.简介爬虫即网络爬虫,如果将互联网比做成一张大网,那么蜘蛛就是爬虫.如果它遇到资源,将会抓取下来. 二.过程在我们浏览网页时,我们经常会看到一些形形色色的页面,其实这个过程就是我们输入url,经DNS解析成对应的ip找到对应的服务器主机,向服务器发出一个请求,服务器经过解析之后将html,js等发回浏览器显示. 其实爬虫和这个过程差不多,只不过我们在抓取到html后,通过正则表达式来确定要获取

Python网络爬虫学习手记（1）——爬虫基础

1.爬虫基本概念网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.--------百度百科简单的说,爬虫就是获取目标网页源代码,并提取和保存网页信息的自动化程序或者脚本.网络爬虫脚本或者程序一般包含如下几个步骤: A.获取网页源代码爬虫首要的任务就是获取需要爬取的目标网页,也就是网页源代码,一般网页源代码就是一系列HTML代码 B.提取信息得到了网页源代码后,接下来就是分析该HTML代码,按照一

网络爬虫学习笔记（二）

一个简单网络爬虫的实现 --抓取网易新闻这次来指定一个信息量稍大一点的抓取目标--网易新闻(国内新闻) http://news.163.com/domestic/ 这次要达到的目标: 1. 提取有用文本信息 2. 将新闻中所包含的图片信息保存在本地 3. 构建新的HTML文件,其中只包含有新闻主体内容与对应的图片信息首先当然是通过Jsoup与给定的种子URL建立连接,获得网易新闻(国内新闻)首页的Document,并且在其中筛选出链接,这在上一篇已经提过:然而,我们发现这里得到的许多URL并

python网络爬虫学习(六)利用Pyspider+Phantomjs爬取淘宝模特图片

本篇博文在编写时参考了http://cuiqingcai.com/2652.html,向作者表示感谢一.新的问题与工具平时在淘宝上剁手的时候,总是会看到各种各样的模特.由于自己就读于一所男女比例三比一的工科院校--写代码之余看看美女也是极好的放松方式.但一张一张点右键–另存为又显得太过麻烦而且不切实际,毕竟图片太多了.于是,我开始考虑用万能的python来解决问题. 我们先看看淘女郎页面的URL,https://mm.taobao.com/json/request_top_list.htm?

python网络爬虫学习随笔

---恢复内容开始--- requests库的7个主要方法方法描述 requests.request() 构造一个请求,支撑以下各方法的基础方法 requests.get() 获取HTML网页的主要方法,对应于HTTP的GET requests.head() 获取HTML网页头信息的方法,对应于HTTP的HEAD requests.post() 向HTML网页提交POST请求的方法,对应于HTTPde POST requests.put() 向HTML网页提交PUT请求的方法,对应于HTTP

Python网络爬虫使用总结

网络爬虫使用总结:requests–bs4–re技术路线简要的抓取使用本技术路线就能轻松应对.参见:Python网络爬虫学习笔记(定向) 网络爬虫使用总结:scrapy(5+2结构) 使用步骤: 第一步:创建工程: 第二步:编写Spider: 第二步:编写Item Pipeline: 第四步:优化配置策略: 工程路径: 网络爬虫使用总结:展望(PhantomJS) 如上所有的两条记录路线仅仅是对网页的处理,只能爬取单纯的html代码.就需要引出"PhantomJS",PhantomJ

Python网络爬虫基础知识学习

对Python有一些简单了解的朋友都知识Python编程语言有个很强大的功能,那就是Python网络爬虫(http://www.maiziedu.com/course/python/645-9570/),一提到Python,就会想到相关的Python爬虫和scrapy等等,今天就来简单认识学习Python爬虫的基础知识,有了一定的相关爬虫知识,以后学习scrapy.urllib等等知识时,会相对轻松些. 爬虫: 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组

猜你喜欢

libcanbus官方主页

libcanbus canbus(CAN BUS V2.0 B)扩展格式库项目简析注: 本文假设你已经有linux开发环境请确保你使用本库时是tag版本.该库遵循的协议是SAE J1939-21- ...

计算机网络（谢希仁版）——第四章回顾（1）

什么是网际层?其主要作用是什么? TCP/IP体系结构中的网际层(internet layer)就是网络层,核心协议为IP(Internet Protocol)协议,但是为了避免名字冲突而将inter ...

IDC机房参观

特别感谢森华易腾为我们参观及讲解活动,所有同学回来都说学到了很多知识,特别是没去过机房的同学非常好奇,回来后对IDC机房有了更深刻的认识,由于部分同学曾经去过机房,本次参观的同学大概去了不到2/3.感 ...

python gzip 压缩文件

压缩数据创建gzip文件先看一个略麻烦的做法 ? 1 2 3 4 5 6 import StringIO,gzip content = 'Life is short.I use python' zb ...

windows8.1 App中webView 使用定位

windows8.1的webview的网页中没有办法直接定位要想定位比较费劲查了好久才发现一个可行的办法那就是通过后台代码获取位置信息然后调用页面中已有的获取位置信息的JS方法把位置信 ...

常见Linux/Unix开发辅助命令什锦

很多零碎命令集锦: 1. 怎样通过命令下载ftp文件 read -s -p "Your passwd: " Passwd; wget --user=YourUserName --p ...

0X04 字符串和格式化输入/输出

字符串(character string)就是一个或多个字符的序列.如:"hello world",双引号不是字符串的一部分,而是通知编译器,这是一个字符串. C没有为字符串定义专 ...

全新奔驰C级双门轿跑谍照曝光

Coupe双门轿跑将是四门三厢轿车和旅行车之后的第三款新一代C级,2016年还将推出全新C级敞篷跑车.新车动力系统将与C级轿车共享,获得多款涡轮增压汽油和柴油发动机,以及BlueTEC柴油混合动力系统 ...

JAVA源码解读---HashMap目录扩展的奥秘

摘要:为了探索JAVA1.7源码中HashMap类数据的组织方法与目录扩展方法,本文通过对JAVA1.7源码中HashMap类源码的阅读与分析,得出结论:hashmap中存储数据的数据结构采用的是链表 ...

文件操作之FileOpenPicker、FileSavePicker和FolderPicker

Win10的开发经常需要进行文件的操作,因此文件的选择对话框FileOpenPicker.文件保存对话框FileSavePicker以及文件夹选择对话框FolderPicker十分重要.这三者的操作也 ...

思科支持的不同板卡配置方式

这次简单和大家总结下思科所支持的不同板卡的配置方式,很显然,板卡都认识不全,或者根本不了解,碰到需要针对不同板卡类型进行配置时,我们根本不需要动手,毫无还手之力.我仍旧是大家的好朋友,现在为大家讲下常 ...

eclipse 指定c++编译器

不要忘记 –std=c++0x,想要使用c++ 0x的内容,必须,1,升级编译器,2,编译时加上-std=c++0x

简单的Coretext 图文混排

在很多新闻类或有文字展示的应用中现在都会出现图文混排的界面例如网易新闻等,乍一看去相似一个网页,其实这样效果并非由UIWebView 加载网页实现.现在分享一种比较简单的实现方式 iOS sdk中为我 ...

今日卢布兑美元汇率

卢布对美元汇率: 1000卢布换多少美元今日汇率(2014年6月9日) 卢布/美元现汇买入价现钞买入价现汇卖出价现钞卖出价中行折算价发布日期 RUB/USD 2.90 2.84 2.91 ...

JavaScript之DOM-3 选取元素(通过 HTML 选取元素、通过 CSS选取元素、其他选取)

一.通过 HTML 选取元素通过 ID 选取元素 - document.getElementById('id')可用于在当前DOM树中根据ID选取某一个子元素通过标签名选取元素 - node.ge ...

C# 高性能 TCP 服务的多种实现方式

哎~~ 想想大部分园友应该对 "高性能" 字样更感兴趣,为了吸引眼球所以标题中一定要突出,其实我更喜欢的标题是<猴赛雷,C# 编写 TCP 服务的花样姿势!>. 本篇文 ...

Mysql 常用汇总更新中

mysql 密码重置先停止mysqld # mysqld_safe --skip-grant-tables & # use mysql; # update user set passwor ...

隐式类型转换

在条件判断运算 = = 中的转换规则是这样的: 如果比较的两者中有布尔值Boolean,会把 Boolean 先转换为对应的 Number,即 0 和 1,然后进行比较. 如果比较的双方中有一方为 N ...

IDA+VMWARE 调试 X86 版本 Android SO 最快的android so 调试方法

1. 首先,在VMWARE上安装 android 系统 2. 安装完成后安装APK程序, 3. 启动APK程序 4. 启动andriod上的terminal 然后su 到root 5. 用ps命令查 ...

页面距离总结

document.body.scrollTop用法网页可见区域宽: document.body.clientWidth;网页可见区域高: document.body.clientHeight;网页可 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.