做一盘好的菜,食材的选用非常重要,接下来我来学习如何在菜市场买菜。
因为有一定的Python基础,所以使用Python作为工具。Python有很多好用的工具,最常见的获取数据的方法就是requests库。
import requests
requests库有很多用法,获取数据常用的是
requests.get(url)
这样就可以获取指定网页的数据了
import requests r = requests.get(r‘http://www.baidu.com‘) print(r.text)
这段代码的结果为:
<!DOCTYPE html>
<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge><meta content=always name=referrer><link rel.......
可以看到确实是返回数据了。那么我们现在已经学会了最简单的如何在菜市场买菜。买菜的高级形态就是爬虫,一个好的爬虫就相当于是蔬菜批发商,他们从农民那买大量的菜,再以更高的价格分销出去。因为我们的目的是学习机器学习,所以就不打算当经销商了,我们只需要获取自己想要的数据就足够享用了。
我使用的书里提供了一个获取经典机器学习数据集iris.data的url,我们直接使用requests.get()方法获取就行了。不在买菜上花太多的时间。
直接获取一个经典的机器学习数据集:
import requests r = requests.get(‘https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data‘) print(r.text)
此段代码的运行结果为
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa.......
我们可以对这些数据进行处理来达到快速入门的目的。
这就是去菜市场简单的买个菜的全过程,当然通过这点小伎俩获取的数据在实际上用途不是很大,但是因为网页千变万化,反爬虫措施越来越完善,我们的重点不是爬虫,所以以后实战的时候遇到爬虫问题再根据问题具体解决。
原文地址:https://www.cnblogs.com/hmzmua/p/10631421.html