前言
上个礼拜接触爬虫,本身对香港电影比较感兴趣,这2天就去拿豆瓣数据做了份香港近30年电影的分析
正文
数据来源豆瓣
这些路径是有规律 ,设置好循环条件,拿到电影url在进行下一步,在这之前有一部分电影我们过滤掉,典型的就是没有评分的电影,没有评分电影大部分是演出晚会,B级片等电影,
读者有兴趣可以查下,这些电影的数据可用性差我不来拿分析,香港上世纪90-99电影总数2700+,过滤后拿到的1100+。近30年电影初步得到是2500+
然后分析页面结构,电影名会有多的 ,我是空格分开后取的第一个,简体字电影名排在首位,静态页面的数据爬取比较简单这里有几个注意点
一:页面结构要多种预计 (有点页面没有导演或者编剧这些情况)
二:遇到ip封禁的 设定时 ,登陆后拿自己账号cookies加入headers, 或者自己定义ip(r=requests.get(url,proxies={‘http‘:random.choice(pro)},headers=head))
多线程分配url任务时 ,因为我用的是mysql,遇到一个锁表的问题,这个作为以后学习点,不过使用MongoDB这种非关系数据库就没有这种问题
数据结果
可视化的有的是echarts:
一:香港历年电影
在1993-1995年和 2000-2001是香港电影的鼎盛时期 ,前者有霸王别姬,东邪西毒,活着,与大话西游系列,后者有花样年华,卧虎藏龙,无间道这些优秀
影片,在94,95巅峰后年电影有下降的趋势应该是97香港回归的影响,在回归后的2000左右稳定,并且再次有峰值。
二:导演
三:演员
张国荣(2008年的为东西吸毒终极版)
周星驰
刘德华
还有很多蛮有趣的数据就不都展示,这段时间体会到爬虫的乐趣,后面往图像处理方向学习
原文地址:https://www.cnblogs.com/DBCicada/p/10193487.html