python之爬虫学习记录与心得

之前在寒假的时候，学习了python基础。在慕课网上看的python入门：http://www.imooc.com/learn/177

python进阶：http://www.imooc.com/learn/317

其实好多知识都是学了忘，忘了学的。

最近因为要使用爬虫爬去数据和照片，所以现在开始学习网络爬虫。

爬虫架构：URL管理器，网页下载器，网页解析器

URL管理器：管理待抓取URL集合和已抓取URL集合防止重复抓取。

URL管理器实现方法：缓存数据库：大公司，性能高内存：个人，小公司关系数据库：永久保存URL数据或节约内存

网页下载器：将URL对应的网页以HTML下载到本地，用于后续分析常见网页下载器：Python官方基础模块：urllib2 第三方功能包：requests

python 3.x中urllib库和urilib2库合并成了urllib库。其中urllib2.urlopen()变成了urllib.request.urlopen() urllib2.Request()变成了urllib.request.Request()

Python的网页解析器分为两类： 1.模糊匹配—>正则表达式 2.结构化解析-> Beautiful Soup、html.parser、lxml 把整个网页作为一个DOM树来进行解析。（Document Objective Model）

新建一个pydev module。在里面输入：

import bs4

print(bs4)

右键文档 run as -> python as

运行出错。打开win+R，cmd

进入命令提示符。进入python的安装目录，cd script

pip install beautifulsoup4

进行安装。

安装成功后重新运行。

报错：
UserWarning: You provided Unicode markup but also provided a value for from_encoding. Your from_encoding will be ignored.
解决方法：
soup = BeautifulSoup(html_doc,"html.parser")
这一句中删除【from_encoding="utf-8"】
原因：
python3 缺省的编码是unicode, 再在from_encoding设置为utf8, 会被忽视掉，去掉【from_encoding="utf-8"】这一个好了

时间： 2024-10-09 03:34:55

python之爬虫学习记录与心得的相关文章

python网络爬虫学习资料

第一:Python爬虫学习系列教程(来源于某博主:http://cuiqingcai.com/1052.html) Python版本:2.7 整体目录: 一.爬虫入门 1. Python爬虫入门一之综述 2. Python爬虫入门二之爬虫基础了解 3. Python爬虫入门三之Urllib库的基本使用 4. Python爬虫入门四之Urllib库的高级用法 5. Python爬虫入门五之URLError异常处理 6. Python爬虫入门六之Cookie的使用 7. Python爬虫入门七之正则

python网络爬虫学习笔记

python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章目录 1. 介绍: 2. 从简单语句中开始: 3. 传送数据给服务器 4. HTTP头-描述数据的数据 5. 异常 5.0.1. URLError 5.0.2. HTTPError 5.0.3. 处理异常 5.0.4. info和geturl 6. Opener和Handler 7. Basic Authentication 8. 代理 9. Timeout 设置 10. Cookie 11. Deb

《灰帽Python-黑客和逆向工程师的Python编程》学习记录

ctypes是Python语言的一个外部库,提供和C语言兼容的数据类型,可以很方便的调用C DLL中的函数. 操作环境:CentOS6.5 Python版本:2.66 ctypes是强大的,强大到本书以后介绍的几乎所有库都要基于此.使用它我们就能够调用动态链接库中函数,同时创建各种复杂的C数据类型和底层操作函数.毫无疑问,ctypes就是本书的基础. 第一章搭建开发环境 1.3.2 使用动态链接库 from ctypes import * libc = CDLL("libc.so.6"

Python爬虫学习记录【内附代码、详细步骤】

引言: 昨天在网易云课堂自学了<Python网络爬虫实战>,视频链接老师讲的很清晰,跟着实践一遍就能掌握爬虫基础了,强烈推荐! 另外,在网上看到一位学友整理的课程记录,非常详细,可以优先参考学习.传送门:请点击本篇文章是自己同步跟着视频学习的记录,欢迎阅读~~~ 实验:新浪新闻首页爬虫实践 http://news.sina.com.cn/china/ 一.准备浏览器内建的开发人员工具(以Chrome为例) Python3 requests 库 Python3 BeautifulSoup4

Python模块章节学习记录

Python模块章节学习 Python里含有大量的标准模块和第三方模块,同时我们也可以自主定义模块. 1.自定义模块自定义模块的形式为"模块名 + .py",且模块文件的扩展名必须是.py.一个模块中包含许多函数,在其他的程序中我们可以通过使用import和from--import语句导入模块. import可以一次引用多个模块,且可以将模块用as关键字进行重命名,这个对引用长名模块,可以提供便利.一旦使用import引用模块,则将该模块中的所有函数引用.from--import可以

python爬虫学习记录

正则表达式中(.*?)是常用的匹配模式,匹配出了换行符以外的字符,是非贪婪模式,读取最少的匹配信息在编译模式中是用re.S可以让(.*?)匹配任意字符,包括换行符. try: except Exception, e: print e 捕获所有异常并打印异常信息 dir(),查看当前对象的所有可用方法,type()查看当前对象的类型 sys.exit(),os.exit()用来退出进程,第一个常用

python网络爬虫学习(六)利用Pyspider+Phantomjs爬取淘宝模特图片

本篇博文在编写时参考了http://cuiqingcai.com/2652.html,向作者表示感谢一.新的问题与工具平时在淘宝上剁手的时候,总是会看到各种各样的模特.由于自己就读于一所男女比例三比一的工科院校--写代码之余看看美女也是极好的放松方式.但一张一张点右键–另存为又显得太过麻烦而且不切实际,毕竟图片太多了.于是,我开始考虑用万能的python来解决问题. 我们先看看淘女郎页面的URL,https://mm.taobao.com/json/request_top_list.htm?

python 网络爬虫学习笔记（一）

为了方便,在Windows下我用了PyCharm,个人感觉这是一款优秀的python学习软件.爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来. 学习python爬虫前,先学习下其他的一些知识: (一)url URL,即统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址.互联网上的每个文件都有一个唯一的URL,

python matplotlib.pyplot学习记录

matplotlib是python中很强大的绘图工具,在机器学习中经常用到首先是导入 import matplotlib.pyplot as plt plt中有很多方法,记录下常用的方法 plt.plot()该方法用来画图,第一个参数是y值,第二个参数是x值,第三个参数是由两个值构成的字符串,第一个值是颜色,第二个值是线的类型颜色的可选值有 ‘b’ blue ‘g’ green ‘r’ red ‘c’ cyan ‘m’ magenta ‘y’ yellow ‘k’ black ‘w’ whi

猜你喜欢

关于解引用*和箭头操作符->的重载

这里以一个智能指针类为例,智能指针所指为一个对象. 而事实上,STL迭代器的开发均需要重载这两个操作符,上一篇文章分析STL 迭代器中除了要用到template技巧外,还需要重载技巧 1 #inclu ...

ceph 手工部署

添加3个mon,名字分别为mon.0, mon.1, mon.2 $ ../bin/monmaptool --create --add 0 192.168.1.103:568 --add 1 192. ...

Android DatePickerDialog 使用方法

(一)在Android 4.0以上系统的某些手机(如本人的测试机红米Note(系统4.4.4),以及模拟器(系统4.0)),使用如下代码创建时间选择器时,页面效果如图: Calendar cal = ...

iptables（2）

iptables命令的使用格式: iptables [-t able] COMMAND chain cretieria [-m -m matchname [per-match-options]] [ ...

在linux中查询硬件相关信息

1.查询cpu的相关 a.查询CPU的统计信息使用命令:lscpu 得到的结果如下: Architecture: x86_64 CPU op-mode(s): 32-bit, 64-bit Byte ...

Cyrus-Beck裁剪算法及OpenGL实践

恩..接着就是Cyrus-Beck算法.这个算法比之前的Cohen-Sutherland算法厉害,处理任意凸多边形对线段的裁剪.自然,这个算法也比Cohen-Sutherland算法复杂不少. 首先, ...

iOS 实现脉冲雷达以及动态增减元素 By Swift－感谢分享

Swift经过Xcode6 Beta4一版更新后,基本上已经可以作为生产工具了,虽然有一些地方和ObjC比起来要“落后”一些,但也无伤大雅.这里就用Xcode6 Beta4+iOS SDK 8.0开发 ...

ubuntu14.04中安装QuartusII9.1步骤

家里的计算机安装了WIN10,出于够用且安装文件小,想安装QuartusII9.1,按M$风格,驱动绝对是安不上的.正好是双系统ubuntu14.04 64位.安装过程不太顺利,记录下来,当作已经不灵 ...

使用Immutable优化复制注意事项

这是Orleans中对于序列化检查类型是否支持Orleans内置的高速序列化时,使用Immutable<>包装和类型声明时,有ImmutableAttribute,效果是一样的.所以无需重 ...

从文档规范性中想到的

软件开发人员不只是要写程序,还要编写各式各样的文档.有的时候,花在写文档上的时间甚至还比花在写程序上的时间还要多一些.很多开发人员认为文档编写不重要,于是敷衍了事,让之后阅读文档的人看得是云里雾里,极 ...

hdu CA Loves GCD(dp)

一道我想骂人的题,差点把我气炸了. 题意: 求一个数的集合中(非多重集,每个数只出现一次)所有子集的gcd的和.结果MOD10^8+7输出. 输入输出不说了,自己看吧,不想写了. 当时我真把它当作数论 ...

Linux下使用vsftp

参考网址: http://wenku.baidu.com/view/4339434bc850ad02de80419c.html?re=view root用户无法ftp登录,显示530 Permissi ...

[CATARC_2017S] Week2

深度神经网络的自主学习能力是自动驾驶汽车开发的重要因素: 机器能够像人类一样, 逐步从经验中调整权重获得良好的驾驶技能. 困难在于, 驾驶过程中出现的问题难以从代码层面发现漏洞, 学习好的机器是个黑箱 ...

在cmd中显示mysql -uroot-proot 不是命令

这个代码的意思是打开mysql,用户名为root,密码也是root 解决办法:方法一:首先要进入mysql的bin目录下,再执行. 密码错了,重新输入密码,没有密码嘛

圣诞节订鲜花哪个鲜花店比较好？

圣诞节来了,又到了订花的时机了,让直男们头疼的是,圣诞节订鲜花哪个鲜花店比较好?所以选择一家值得信赖的网站是非常重要的.无论对网站来说还是购买人本身来说,产品好才是相当重要的.那么究竟什么样的鲜花是 ...

欺赵诿谫乜do6z2w1jeh9z87

另一位国资委人士向记者证实:将会有包括员工持股在内的措失出台. 十八届三中全会提出国企改革后,历时22个月,顶层设计得以出台.而2016年被认为是政策落实之年. "投行们最反对员工持股这一行 ...

十一、 BOOL类型、分支结构和关系运算符

BOOL类型:表示非真即假.只有两个值:YES和NO,而二进制只识别二进制数,所以,将YES替换为“1”,NO替换为“0” BOOL数据类型占一字节的空间内存 BOOL数据类型输出为:%lu:输入为: ...

Android多媒体开发-- android中OpenMax的实现整体框架

1.android中用openmax来干啥? android中的AwesomePlayer就是用openmax来做(code)编解码,其实在openmax接口设计中,他不光能用来当编解码.通过他的组 ...

仿网易新闻广告启动页的实现

由于项目的需要,需要实现类似网易新闻广告启动页类似的效果就自己动手写了一个,主要功能如下: 第一:在启动应用的时候,首先显示第一张图片: 第二:接着淡入第二张图片(采用动画实现): 第三:动画结束之后 ...

解释器（一）词法分析器

辣鸡的我终于在一个已经保研的小哥哥(萌似泰迪)的帮助下完成了解释器!!(VS2013) 分为3步:词法分析器.语法分析器.语义分析器代码大部分出自<编译原理基础-习题与上机解答>(西安电 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.024 s.