从scrapy使用经历说开来

关于scrapy这个Python框架,萌萌的官网这么介绍:

An open source and collaborative framework for extracting the data you need from websites.

In a fast, simple, yet extensible way.

  没错,scrapy是合作开发的开源爬虫框架,快而简,可扩展。

  想要用好scrapy前提要有一定的python基础和数据库知识,当然一开始我也是白手起家,简单看了几天文档,做了一个demo,然后就开工了。

  对于成长中的小码哥来说边做边学是常态。

  项目开始,是对于需求和问题的分析,首先你的找到路子才好,这个点上前人的经验可以用来参考,但是一定要慎重,这是整个项目的设计阶段,虽说有些东西后期还可以修正,不过,不是前期多花功夫,后期可以避免大量的时间浪费是无数先驱换来的教训。

  不过该踩的坑还是要亲自踩一踩才能有所成长,就像你的初恋一样。

  不可避免,我也同样遇到了很多意料之外的问题,实践百度出真知。

项目笔记一:

  寻找新闻抓取来源:

  1.想省时间,找到了网站的滚动新闻界面,似乎新闻在这里聚集的结构比较清晰明了,嘻嘻就从这里下手吧。

   分析一下来源,发现新闻数目来的不够多,修改参数后发现网站有返回上限。

  2.F12找api的线索,哈哈果然找到了,修改参数后返回来的数据量充足满意,还是结构清晰好用的json格式。

    link: http://roll.news.sina.com.cn/interface/rollnews_ch_out_interface.php?col=89&spec=&type=&ch=01&k=&offset_page=0&offset_num=0&num=1

   格式如下:

var jsonData = { serverSeconds : 1458315582, last_time : 1458315350, path : [{title : "全部", id : "89", cType : "col"}], count : 19464, offset_page : 0, offset_num : 0, list : [ {channel : {title : "科技",id : "96",cType : "col",url : ""},title : "大众点评回应刷信誉:零容忍 但法律不完善",url : "http://tech.sina.com.cn/i/2016-03-18/doc-ifxqnskh0974535.shtml",type : ‘1‘,pic : ‘‘,time : 1458315350}] };

   注:后来的一些经验,现在再看新浪还是很有好地提供了一个jsonp的返回方法,效果就是其他网站和开发者可以更方便地跨域访问了。

  嗯,好了处理下格式就能利用现成的标准库函数进行处理了。import json

时间: 2024-12-12 04:40:46

从scrapy使用经历说开来的相关文章

2019春招、秋招总结【未加密】

这周接到了滴滴的薪资电话,只等签三方了,我秋招就算结束了,一个很满意的结果,薪资满意,而且10-7-5的工作时间很满意. 其实我九月底就没有继续面试笔试了,在准备毕业的事情,总结也是拖了很久一直想写,一直没写.列个流水账总结一下春招实习到秋招找工作的各种事情. 研究生一直在做机械臂的东西,后面为了找工作研究了一年视觉的东西.所以找工作的目标也是计算机视觉.春招实习被腾讯自动驾驶组招进去,实习了快三个月,主要内容是标定相关,自己太弱了,没法留在腾讯.秋招继续找工作,借着腾讯自动驾驶实习的"噱头&q

scrapy写爬虫经历

scrapy写爬虫经历 前一段时间自己做项目参赛,用scrapy爬了许多网课平台的数据,当时没咋总结.最近又要搞事情,总结一下吧.有啥想法都会在次记录下来. 1. 安装,使用 ubuntu 1604 docker+mysql5.7 anaconda>python3.6 pycharm pip install scrapy 安装Scrapy 在pycharm新建一个项目,然后在终端输入: scrapy startproject companys 就会自动建立一个文件树.如下图: 2. 3. 4.

微信开发python+django两个月的成功经历,django是个好框架!

时间:大三 上学期没有用微信内置浏览器而纯对话开发,坑了自己好一下. 下学期选错bottle框架,以为轻量好,谁知开发中什么都自己来很痛苦. 选对了框架django,终于在大三最后的个把月里写出了里程碑式的现在这个微信端,自己都感动到,作为我大三一年web开发的终结吧. 亮点1:自带后台管理 亮点2:后台权限管理 亮点3:微信回复规则设置去代码化,图形界面. 亮点4:一平台多网店 技巧:微信规则不匹配时不能回复吗?不是,规则包含空字符总能匹配任意文本,请看下面的微信规则截图. 后台 选择botl

由C++书单说开来

心血来潮,整理了一下学习C++应该读的书单,当然我并没有都读过, 权当作一个ToDo List吧. 书单 本书单暂不包含C语言相关书目,当然了想学好C++,C语言的经典图书也应该读一读. 书名 作者 备注 The C++ Programing Language Bjarne Stroustrup C++之父的TCPL C++ Primer Plus Stephen Prata C++ Primer Stanley B. Lippman Inside The C++ Object Model St

【转】Duplicate Elimination in Scrapy

本文转载自:http://blog.pluskid.org/?p=381 之前介绍 Scrapy 的时候提过 Spider Trap ,实际上,就算是正常的网络拓扑,也是很复杂的相互链接,虽然我当时给的那个例子对于我感兴趣的内容是可以有一个线性顺序依次爬下来的,但是这样的情况在真正的网络结构中通常是少之又少,一但链接网络出现环路,就无法进行拓扑排序而得出一个依次遍历的顺序了,所以 duplicate elimination 可以说是每一个 non-trivial 的必备组件之一,这样就算在遍历的

足够的经历去旁证你的认知

有足够的经历去旁证你的认知(内化的语言),有足够的语言区描述你的经历 http://www.kmcenter.org/html/s75/200511/22-2595.html ------------ 在本文中,我们分析了认知.信念体系(belief systems)与制度之间的互动关系,并探寻了它们影响经济绩效的方式.我们认为要更深刻地理解制度的产生.其运行的特征(property)及其对经 济政治结果的影响,应该从对认知过程的分析开始.我们分析了个人和集体学习的性质,认为问题并不在于行为体(

scrapy 抓取拉勾网数据

其实很简单,却因为一些小问题,折腾不少时间,简要记录一下,以备后需. >> scrapy startproject lagou >> cd lagou >> scrapy gen lagou_jd www.lagou.com 定义item 在items.py中继续完善定义: # -*- coding: utf-8 -*- # Define here the models for your scraped items # # See documentation in: #

简历中的工作经历要怎么写?

一位外企人事经理表示:"我每天用半小时浏览50份或更多的简历,如果前10秒钟未能发现任何成果表述,那么这份简历就成为历史了."虽然大部分求职顾问都主张在简历中突出业绩,但是鲜有应聘者真正重视这一建议.相反,在他们的简历中,全是职务名称.日期和职责等方面的内容.而进行自我评价则通篇充满"主要贡献"."富于活力的方案"和"显著提高"之类的形容词.这样的简历是很难让招聘者"动心"的. 与此相反,我们可以用数字来突

【转载】python3安装scrapy之windows32位爬坑

python3安装scrapy之windows32位爬坑 原创 2016年11月06日 01:38:08 标签: scrapy / windows / python / 开源框架 / 网络爬虫 早就听说scrapy不支持python3,而scrapy作为一款优秀的开源框架,不在新的python上集成一下实在可惜.最近刚好打算开始学习网络爬虫,网上又有那么多教程,so今天就来爬一下这个坑. 首先当然是安装一下python,官网可以直接安装最新的3.5.2.安装完成以后,可以成功python后在cm