PythonCrawl自学日志(2)

一、Scrapy环境的安装

1.配套组件的安装

由于开发环境是在VS2015Community中编码,默认下载的python3.5,系统是windows8.1,为此需要安装的组件有如下列表:

所有的组件在pip、easy_install或者可执行exe无法安装时,使用下面的安装方法,

(1)pywim32(win32编程)

在http://www.lfd.uci.edu/~gohlke/pythonlibs/下载对应名字的集成安装包,用import win32api检查是否安装成功,如果import win32con

可以运行,而import win32api显示DLL缺失时,将Python\Lib\site-packages\pywin32_system32\下的所有文件复制到c:\\windows\\system32文件夹下,即可运行

(2)Twisted (socket通讯)

在http://www.lfd.uci.edu/~gohlke/pythonlibs/下载对应名字的集成安装包,用import OpenSSL检测是否安装成功

(3)zope.interface

在http://www.lfd.uci.edu/~gohlke/pythonlibs/下载对应名字集成安装包,用 import zope检测是否安装成功

(4)YAML

在http://pyyaml.org/wiki/PyYAML下载对应的可执行就行了

(5)requests

使用指令 pip install requests==2.2.1

(6)progressbar

在http://www.lfd.uci.edu/~gohlke/pythonlibs/下载对应名字集成安装包

(7)pyOpenSSL(通信协议ssl)

在http://www.lfd.uci.edu/~gohlke/pythonlibs/下载对应名字集成安装包

2.Scrapy的安装

pip install scrapy

二、Scrapy一些命令行指令

1.新建爬虫项目 scrapy startproject 项目名
2.新建爬虫 scrapy genspider 爬虫名字 处理网址
3.运行爬虫 scrapy crawl 爬虫名
4.检查爬虫完整 scrapy check [-l] 爬虫名
5.列出爬虫 scrapy list
6.编辑爬虫 scrapy edit 爬虫名
7.显示爬取过程 scrapy fetch 处理网址
8.下载网页 scrapy view 处理网址
9.组件组合情况 scrapy parse 处理网址
10.爬虫压力测试scrapy bench
11.自定义指令 COMMANDS_MODULE =‘定义指令‘

时间: 2024-08-03 17:04:03

PythonCrawl自学日志(2)的相关文章

PythonCrawl自学日志

2016-09-10 PythonCrawl自学日志 1.python及Selenium的安装 (1)开发环境使用的是VS2015 Community.python3.5.Selenium3.0BETA2.FireFox47 (2)cmd命令下使用pip3 install selenium,就可以安装Selenium3.0到电脑中,进入 C:\Users\用户\AppData\Local\Programs\Python\Python35\Lib\site-packages\selenium-3.

PythonCrawl自学日志(3)

2016年9月21日09:21:431.爬虫的抓取周期:(1)首先生成初始请求爬第一个url,并指定一个回调函数被称为与下载这些请求的响应.(2)第一个请求执行通过调用 start_requests()方法(默认情况下)生成 Request中指定的url start_urls和 parse方法作为请求的回调函数.(3)在回调函数中,解析响应(网页),并返回与提取的数据字典, Item对象, Request这些对象的对象,或一个iterable.这些请求还将包含一个回调(也许相同),将由Scrap

PythonCrawl自学日志(4)

2016年9月22日10:34:02一.Selector1.如何构建(1)text构建: body = '<html><body><span>good</span></body></html>' Selector(text=body).xpath('//span/text()').extract()(2)resopnse构建 response = HtmlResponse(url='http://example.com', body=

PHP自学日志:循环语句应用

最近在自学PHP,看视频,看手册,看的时候都很清楚而且感觉到很简单,实际写的时候还真不是那么回事.所以决定每次学到点东西在这里自己写写,算是复习与记录.好回过头来看看,让自己有个动力! /* *for循环语法格式:for(表达式一;表达式二;表达式三){语句块} *FOR循环打印乘法口诀表 */ 1 for($i=1;$i<=9;$i++){ 2 for($x=1;$x<=$i;$x++){ 3 echo $x.'*'.$i.'='.$x*$i.'&nbsp&nbsp'; 4

PHP自学日志:函数的应用(一)

函数定义的语法格式:function([参数]){语句块} /**函数调用实例*输入数字,与运算符,进行相应的运算. *switch语句格式:switch(值){case "值":表达式 baeak;}*/ 1 function result($num1,$num2,$symbol){ 2 switch ($symbol){ 3 case "+": 4 $result=$num1+$num2; 5 break; 6 case "-": 7 $re

Python自学日志_2017/9/05

9月5日今天早晨学习了网易云课程<Python做Web工程师课程>提前预习课程<学会开发静态网页>.轻松的完成了第五节课的两个实战作业--感觉自己这几天的功夫没有白费,总算学会了点儿东西,即使是非常浅薄也满足感爆棚.也浏览了一遍第6节课<用css定制10MINs首页(上)>和第7节课<用css定制10MINs首页(下)>,第一遍看有点乱,没明白.明天天的学习方向是将这两节课重新仔细的学习一遍,并且记录笔记,完成作业.下午学习了中国大学Mooc课程嵩天老师的&

DirectX 9.0c游戏开发手记之RPG编程自学日志之13: Drawing with DirectX Graphics (用DirectX图形绘图)(第6节)

        本文由哈利_蜘蛛侠原创,转载请注明出处!有问题请联系[email protected]   这一次我们继续来讲述Jim Adams老哥的RPG编程书籍第二版第二章的第6节:Alpha Blending,也就是alpha混合.这一节的内容不多,所以就一次性讲完吧! 我们先将这一节的各小节的标题列在下面,以供大家参考: 1. Enabling Alpha Blending (开启alpha混合) 2. Drawing with Alpha Blending (用alpha混合进行绘图

DirectX 9.0c游戏开发手记之RPG编程自学日志之16: Drawing with DirectX Graphics (用DirectX图形绘图)(第10-12节)

        本文由哈利_蜘蛛侠原创,转载请注明出处!有问题请联系[email protected]   这一次我们继续来讲述Jim Adams 老哥的RPG编程书籍第二版第二章的第10节:Particles (粒子),第11节:Depth Sorting and Z-Buffering (深度排序和Z-缓存),以及第12节:Working with Viewports (使用视口).这两节的内容都不多,所以就放在一期里面讲了. 原文翻译: ==========================

DirectX 9.0c游戏开发手记之RPG编程自学日志之15: Drawing with DirectX Graphics (用DirectX图形绘图)(第8-9节)

        本文由哈利_蜘蛛侠原创,转载请注明出处!有问题请联系[email protected]   这一次我们继续来讲述Jim Adams 老哥的RPG编程书籍第二版第二章的第8节:Using Fonts(使用字体),和第9节:Billboards (广告牌).这两节的内容都不多,所以就放在一期里面讲了. 原文翻译: =============================================================================== 2.8 Us