第一回:Scrapy的试水

前言:今天算是见到Scrapy的第二天,之前只是偶尔查了查,对于这个框架的各种解释,我-----都-----看------不------懂----,没办法,见面就是刚。

  目的:如题,试水

  目标:《伯乐在线》python版(不要问我怎么老是惹伯乐,好欺负)的“实践项目”的一页的文章标题和简介,导入Mysql数据库。

  配置:win7+python3.4+Scrapy1.4+phpStudy(主要用它的mysql数据库)

  完成时间:2017-7-27(历时2天)

  作者:羽凡

-------------------------------------------------------------------无敌的-------------------------------------------------------------------------------------------------------------------------

正文:

scrapy的安装我就不说了,有事没事问度娘。。。。

第一步:创建项目,命令:scrapy startproject bole

成功的话就生成了这些

今天除了第三和第五个没用到,其他都有修改。

看看咋们的目标状态:

我要的是“图解机器学习。。。。”和“开发人员经常说。。。。”这两项(先简单点)

第二步:修改items.py文件

用过django的可能觉得熟悉这个东西,这就像个中转或是暂时仓库,你从网页上找到想要的东西总得放个地方吧,这里就为它们开辟了空间,这个空间在爬虫主体(spider文件夹里)会被引用(from ..items import BoleItem),空间开辟好了,items.py就改好了。

第三步:创建爬虫主体。命令:scrapy genspider -t basic Bole jobbole.com

关于命令中的有些参数我也不太清楚,genspider-生成爬虫   -t :不知道   basic:不知道  Bole:爬虫名字  jobbole.com:目标域名

该命令在spider文件夹下生成Bole.py

经过修改后的样子

这里start_urls是第一页的网址。下面的parse函数是对返回结果的处理,我们需要的数据也是在这里产生的,这里用到了xpath来搜索数据,功能与re正则差不多,还可以看到在items.py中开辟的空间在这里用到了。(假如把return item  换成  print(item[‘title’])就可以看到抓到的标题了)

加餐第四步:数据导入mysql数据库(修改setting.py和pipelines.py文件)

先是pipelines.py:

被我注释掉的是链接数据库并创建相应的库/表/项。如果你是手工用SQL来创建好的,就注释掉吧,要不然还要修改下,这里将中转的东西通过SQL指令导入数据库里了

接下来修改setting.py使上面的修改管用:

找到这行,并解除注释,就像开了水龙头。。。。

开启Mysql,运行爬虫:

--nolog是为了不打印一串日志记录,如果排查错误就不加。

以上是结果。

-----------------------------------------------------------------------无敌的我-----------------------------------------------------------------------------------------------------------------------------------

是不是写的很水,我自己都尴尬了,没办法,才真正自学两天,明天,哦不,今天在理理思路,期待第二回早点写来。

                困了,睡觉。                                                        By:羽凡  2017-7-28-0:33

 

时间: 2024-12-28 00:11:23

第一回:Scrapy的试水的相关文章

UITableView(自定义cell)试水心得

初次试水自定义cell的UITableView 实现目标      最终实现结果                界面复原度:98% 未能完全复刻的地方:下半部分的tableview与头部的控件间距上的误差 原因:在做tableview时继承了tableViewController,使下半部分无法使用masnory进行位置调整. 导师建议:在整个页面内容是由tableView布局时可以选择UITableViewController作为页面的主控制器,而且由于Xcode给出的UITableViewC

微博试水婚庆市场 用意何在?机会几何?

在整个互联网发展的历程中,始于2010年前后的社会化媒体是一个堪称转折点的阶段,在这个时期涌现的各种社会化平台不仅带来了巨大的产业创新,而且还对传统的社交方式进行了全新的颠覆.除此之外,这波新型的社会化媒体平台还在新闻媒体.O2O.线上电商等领域产生了巨大变革.在中国,微博是这种时代变革的典型平台,基于这种平台产生的各种商业模式和现象,截至今天仍然在各行各业里源源不断地上演. 根据此前微博官方公布的资料来看,企业化用户.微电商.自媒体.城市微博平台等等策略,均是微博在这个过程中所尝试过的不同尝试

程序演义第一回哥伦布水杯戏权贵

2.1第一回 哥伦布水杯戏权贵,阿兰煮酒论编程 第一回介绍的故事是关于航海家哥伦布的,本质上只说了一件事:什么是程序? 程序是怎么回事,和哥伦布又有什么关系呢?说简单很简单,用两个杯子比划一下就有了.故事还要从很久以前说起,1492年10月12日,哥伦布(Christopher Columbus)发现了新大陆--美洲大陆,他是发现美洲的第一人:同样的,在电脑世界中也有许多第一,那问一个最简单的问题:第一个程序是谁发明的呢?对于这个问题,现在很难考证.但经阿兰论证,程序和哥伦布有一定的关系,不信,

让电影尖叫:京东众筹试水跳板时代

"宝宝"撞上监管墙,收益率跌跌不休之时,互联网金融悄然转战新的战场-"众筹".阿里巴巴.百度以及京东金融相继进军众筹领域,引发业内关注. 京东金融众筹业务"凑份子"上线,在满足广大消费者日益增长的物质文化需求的同时.并推出首批募集的12个项目,包括汪峰"鸟巢"演唱会.<小时代3:刺金时代>.智能机顶盒ZIVOO.智能空气净化器等,主要集中在智能硬件及娱乐文化行业.其中,以<小时代3:刺金时代>最受欢迎,

试水“一”搏

熬过半夜,审查通过,试水第一搏,下附小诗一首. 真正的人生,是从四十岁开始的!(经典) 不知不觉就到了, 这个令人尴尬的年龄, 谈爱已老,谈死又还早. 没有轻狂的年少气盛, 没有老年的安逸生活, 却为父母的晚年担忧, 却为孩子的前程奋斗. 中年的你不像老人一样糊涂, 也不像孩子一样撒娇, 有再多的委屈,都不会倾诉, 有再深的伤痕,都不会表露. 尽管活得很累,尽管身心疲惫, 却依然面带微笑的和父母交谈, 依然和蔼可亲的和孩子游玩-- 人到中年,生命过半. 中年的苦,诉不尽道不完. 中年的你,肩上的

另辟蹊径创良机,全身投入亲试水

在<黑客与画家>第五章中,有“创业教父”之称的Paul Graham讲述了他与他的朋友罗伯特·莫里斯在95年决定创业,最后成功走上“另一条路”——设计出运行在互联网上的软件的经历.文章在对比互联网软件与桌面软件的过程中向我们展示了互联网软件的优势.竞争力及其发展前景,作者认为在未来互联网软件会占据较为主要的位置.其中,我们也能看到创业的艰辛之处以及创业成功的某些重要因素.成功向来不是说一说便能取得的光环,到达彼岸需要我们付出努力去乘坐“实践”小船,创业则更不例外. 在就业难的大趋势下,自主创业

自学it18大数据笔记-第三阶段Spark-day14;Spark-day15(开始试水找工作了)——会持续更新……

写在最前:转行大数据领域,没报班,自学试试,能坚持下来以后就好好做这行,不能就--!准备从现有这套it18掌的视屏残本开始--自学是痛苦的,发博客和大家分享下学习成果--也是监督自己,督促自己坚持学下去. (教学视屏是it18掌做活动送的,视屏不是很全,课堂笔记和源码等课堂相关资料也未放出,但徐培成老师课讲的真心很好,感兴趣的不妨听听,特此感谢it18掌--帮他们打打广告) 笔记为自学时记录,如有错误,欢迎指正,不胜感激!现已广州转移至上海,开始试水找工作了,欢迎小伙伴们加qq或微博沟通交流(Q

&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;阿里巴巴携手中国白银集团试水珠宝电商O2O平台

淘宝安全交易平台 www.xunjie36.com 淘宝店铺出售www.360feiyue.com 淘宝店铺交易www.360feiyue.com[关键词]淘宝安全交易平台 www.xunjie36.com 淘宝店铺出售www.360feiyue.com 淘宝店铺交易www.360feiyue.com店铺     一周之内,阿里巴巴.腾讯和京东商城三家线上巨头密集发布o2o战略,被b2c企业挤压了数年之久的实体零售商摇身一变,成为巨头们争夺的优质合作资源.但仅仅拉拢实体零售商已经不足以支持阿里巴

[你必须知道的.NET]第一回:恩怨情仇:is和as

本文将介绍以下内 容: • 类型转换 • is/as操作符小议 1. 引言 类型安全是.NET设计之初重点考虑 的内容之一,对于程序设计者来说,完全把握系统数据的类型安全,经常是力不从心的问题.现在,这一切已经在微软大牛们的设计框架中为你解决了.在.NET 中,一切类型都必须集成自 System.Object类型,因此我们可以很容易的获得对象的准确类型,方法是:GetType()方法.那么.NET中的类型转换,应该考虑的地方 有那些呢? 2. 概 念引入 类型转换包括显示 转换和隐式转换,在.N