完全零基础小白该如何学爬虫？大牛总结最适合零基础的爬虫教程！

2. 开始直接上手

转机出现在看过一篇爬虫的技术文章后，清晰的思路和通俗易懂的语言让我觉得，这才是我想学的爬虫。于是决定先配一个环境，试试看爬虫到底是怎么玩的。（当然你可以理解为这是浮躁，但确实每个小白都想去做直观、有反馈的事情）

因为怕出错，装了比较保险的 Anaconda，用自带的 Jupyter Notebook 作为IDE来写代码。看到很多人说因为配置环境出各种BUG，简直庆幸。很多时候打败你的，并不是事情本身，说的就是爬虫配置环境这事儿。

用 urllib 下载和解析页面的固定句式

当然 BeautifulSoup 中的基本方法是不能忽略的，但也无非是 find、get_text() 之类，信息量很小。就这样，通过别人的思路和自己查找美丽汤的用法，完成了豆瓣电影的基本信息爬取。

用 BeautifulSoup 爬取豆瓣电影详情

3. 爬虫渐入佳境

有了一些套路和形式，就会有目标，可以接着往下学了。还是豆瓣，自己去摸索爬取更多的信息，爬取多部电影，多个页面。这个时候就发现基础不足了，比如爬取多个元素、翻页、处理多种情况等涉及的语句控制，又比如提取内容时涉及到的字符串、列表、字典的处理，还远远不够。

requests+xpath 爬取豆瓣TOP250图书信息

通过 requests+xpath，我可以去爬取很多网站网站了，后来自己练习了小猪的租房信息和当当的图书数据。爬拉勾的时候就发现问题了，首先是自己的请求根本不会返回信息，原来要将自己的爬虫伪装成浏览器，终于知道别人代码中那一坨 headers 信息是干啥的了

欢迎大家关注我的博客：https://home.cnblogs.com/u/sm123456/

欢迎大家加入千人交流资源共享群：125240963

原文地址：https://www.cnblogs.com/sm123456/p/9061493.html

时间： 2024-10-08 06:26:43

爬虫小项目！适合有基础的！爬取葡萄酒评分！哪个阶段和那种酒呢