0x01 Web数据挖掘类型 利用Python爬虫进行Web数据挖掘已经越来越普遍,网上的各种Python爬虫资料教程比较多,但是很少有人对Web数据挖掘进行系统地总结和分析. 从目标上来讲,Web数据挖掘分为三类.最常见的是对于网站内容的爬取,包括文本.图片和文件等:其次是对于网站结构的爬取,包括网站目录,链接之间的相互跳转关系,二级域名等:还有一种爬虫是对于Web应用数据的挖掘,包括获取网站CMS类型,Web插件等. 0x02 网站内容挖掘 网站内容挖掘应用最广,最为常见,网上的Python