桌酷爬虫一点想法

一层地址
http://www.zhuoku.com/new/index.html
http://www.zhuoku.com/new/index_2.html
http://www.zhuoku.com/new/index_211.html
二层地址
http://www.zhuoku.com/zhuomianbizhi/star-starcn/20160703144045.htm
http://www.zhuoku.com/zhuomianbizhi/star-starcn/20160704145756.htm
http://www.zhuoku.com/zhuomianbizhi/design-hand/20160704205111.htm
http://www.zhuoku.com/zhuomianbizhi/game-ctwall/20160704210520.htm
三层地址

部分代码
import  requests
from bs4 import BeautifulSoup
a=0
def get_html_soup(url):
        try:
                r=requests.get(url)
                r.raise_for_status()
                r.encoding=‘GBK‘
                soup=BeautifulSoup(r.text)
                return soup
        except:
                return ‘‘

for i in range(1,212):
        if i ==1:
                url1=‘http://www.zhuoku.com/new/index.html‘
        else:
                url1=‘http://www.zhuoku.com/new/index_‘+str(i)+‘.html‘
        #print(url1)
        soup=get_html_soup(url1)
        for i in soup.find_all(‘a‘,{‘class‘:‘title‘}): #找到a标签里class为title的的标签并遍历标签
                a=a+1
                filename=i.get(‘title‘).replace(‘ ‘,‘‘).strip()#获取到title属性的值
                url2= ‘http://www.zhuoku.com‘+i.get(‘href‘)#获取超链接
                print(filename)

注意事项:
由于网页的编码问题不要用windows的cmd去执行要用python自带的IDLE执行
由于网页有反爬的机制,所以最好有Http代理,没有代理可以sleep几秒钟爬一个页面。
 windows 一个文件夹下的文件数量不要太多,爬下来的东西要分一下类放在不同文件夹下。
重复的地址可以先爬下来存入数据库,利用数据库去处理,排除重复。
桌酷网站层次、地址分类实际应该是按照大陆明星、港台明星这样分。开头这样分地址层次,不是很好。
获取到最终图片地址可使用with() f: 这种方式保存在本地。

py代码量实在是少,这要是用c#早就200行以上了。

时间: 2025-01-15 15:58:59

桌酷爬虫一点想法的相关文章

关于UED前端开发的一点想法

5.2 关于UED前端开发的一点想法 5.2.1 目前UED前端代码是一个页面对应一个JS文件,更有甚者一个JS文件的代码会超过万行,这样的代码试想该如何维护?如果在从事前端开发的时候避免这种尴尬的局面,我想最好的方式就是分而治之, 如果分而治之?首先解析页面的一般思路,初始化(init) 事件绑定(event)页面读值(getData)页面写值(setData)重置页面(resetData)页面展示(setView)页面校验(checkData)页面异步加载 (ajax),页面测试(test)

多应用统一开发平台的一点想法

几年工作下来,发现有一个问题一直困扰着我们: 随着项目的越来越完善,功能越来越丰富,单一一个应用已经不能够支撑开发人员的需要.于是我们就需要根据业务分拆成几个相对独立的应用来满足多个开发团队的需求.但是这样也造成了一些问题,多个应用需要公用的基础代码维护起来越来越复杂,导致种种问题.也有很多种方式来解决,比如公共代码放置单独的地方,这样有带来的自动化部署方面的困难.在此,鄙人提出一种解决方法,即多应用统一开发平台的概念.在此以rails应用为例. 标准的rails应用结构如下: Gemfile

对当前网络路由的一点想法

五一小长假,和朋友开车去了浙江,发现了"基于目的地的最短距离算法"的弊端,也许就是这个算法导致了高速公路在某个时间段的定期规律性拥堵!从嘉定出发,G1501一路畅通,但是一旦转到G60沪昆高速,瞬间拥堵起来,实际上,早在G1501上时,就有公告牌,说沪昆高速有施工,可是大家还是全部转到了沪昆高速,留下S19/G15成了被抛弃的摆设...知道原因是什么吗?很简单,因为沪昆高速那条路最近!人们太相信导航,很少有人没事研究地图,所以很多人都上了当,当然这并不包括我.很多导航都是根据Dijks

Installshield关于.NET安装时需要重启动的处理办法,以及延伸出的重启后继续安装的安装包的一点想法

原文:Installshield关于.NET安装时需要重启动的处理办法,以及延伸出的重启后继续安装的安装包的一点想法 很多朋友做安装包的时候,所打包的软件需要.NET Framework之类的环境,他们会检测系统是否已经安装了.NET,如果没有,则调用.NET安装包来安装.但是.NET安装完是需要重启动的,一般来说,我们都推荐使用/q/norestart的静默安装函数来使重启动推迟到安装结束时,使用如下:LaunchAppAndWait(SUPPORTDIR^"dotNetFx40_Full_x

关于标签系统的又一点想法。

前段时间,写过一篇<关于标签系统的一点想法.>.但其实没有谈到里面的内容,是有一部分来自与刘鑫老师的聊天,当时他给了我许多肯定,也是让我觉得记录下来很有必要的原因. 前一篇里没有提到,我跟刘老师谈到一个更加深入一点的.关于标签系统的想法.主要原因是因为我尚不肯定这是否也属于标签系统.直到最近disylee 送了一本标签 : 标记系统设计实践给我,里面的一个小节让我为自己的想法找到了理论依据. 很不错的一本书,没有让我失望,解答了我心中的一些困惑.书有点啰嗦,但也正因为此显得"系统&q

对创业团队的一点想法

本人 没有强大的技术,没有广阔的人脉,没有超前的远见,只因在创业团队中待过一年,有了一些想法,即记录下来.这里对给我这次机会的公司表示感谢!这里说提互联网及软件方向的创业团队. 1. 不宜过早制度化 当然,对于打卡这样的制度并不排斥.但是对于对上百人团队的管理方法,不宜过早产生.比如详细区分不同部门,部门与部门有专门负责人.做一次软件发布要层层审批,经过同意后,再到发布,已经又有很多问题修复了. 部门与部门之间建立负责人,本意是为了不让沟通变的混乱,但创业团队,每个部门又能有多少人,本来只是找某

软件工程课程教育的一点想法

大学本科的软件工程课程一直遵循瀑布型的为线索的各个里程碑的相关知识点的展开介绍,现在多有理论框架与实践能力孰重孰轻之争.这里我也有一点点自己的看法. 软件工程在项目开发教学中的作用实质上类似计算机导论在计算机教育中的学科地位,应当属于前导性,线索性,框架式介绍,细思量其内容之广.理论之重.实践之繁的教学之繁重,本身就不是一个学期能承载得了的.既然教学大纲只安排一个学期,充其量,将来慢慢发展应当只是领学习者进门的而一个入门学科而已.而不是有些人说的那么危及及乎的想法. 站在更高一些的高度,比如体系

在老男孩学习的一点想法

今天是2015年12月28日,再过3天就是2016了,时间过得真快. 转眼间已经在老男孩学习快4个月了,整个课程即将结束,说一下在老男孩这段时间学习的感受. 老男孩是不是一个好老师,这个不需要我来说,凡是知道老男孩的都应该知道.O(∩_∩)O哈哈~~老师说,思维决定高度.从零开始学习一门新的知识,最重要的要有一个自己的框架,然后把一个一个零碎的知识点放到框架上.对于运维来说更是如此,因为运维所涉及的知识点更多,更杂,更乱,如果没有一个完整的清晰的整体知识框架,根本就不可能在运维这条路上有多大发展

关于个推的一点想法

最近项目中用到了个推做推送,关于个推的接入步骤官网有很详细的步骤,这里不说,不过正是由于使用个推,引起了一点其他的思考,那就是个推是怎么做到即便把app应用进程在后台杀掉,也能接受到消息. 说到这个问题,先说一个我日常时候android app的一个体会,我们经常打开某一个不常用的应用,打开的同时会弹出很多这个app和其他不常用app的推送消息(注意是其他且不常用的app).为什么呢?因为好多推送平台都使用了一个叫"看护联盟"的东西. 个推官网上说,个推的sdk可以在后台常驻且不会耗费