Ubuntu16.04安装爬虫框架scrapy

scrapy框架需要在Python 2.7，lxml,OpenSSL,pip程序或库的基础之上创建。

因此，首先，先检查下是否包含上述四个程序或库

[email protected]:~$ python
Python 2.7.12 (default, Jul  1 2016, 15:12:24) 
[GCC 5.4.0 20160609] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>>

可以看到Ubuntu16.04已经预置了python 2.7

接着查看是否还有lxml

>>> import lxml
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
ImportError: No module named lxml
>>> 
>>> import OpenSSL
>>>

发现没有lxml，有OpenSSL,于是先安装lxml

[email protected]:~$ sudo apt-get install python-lxml

重新进入

[email protected]:~$ python
Python 2.7.12 (default, Jul  1 2016, 15:12:24) 
[GCC 5.4.0 20160609] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import lxml
>>>

没有报错。为保证后续正确安装，需依次执行

[email protected]:~$ sudo apt-get install python-dev

[email protected]:~$ sudo apt-get install libevent-dev

[email protected]:~$ sudo apt-get install python-pip

[email protected]:~$ sudo pip install --upgrade pip

最后执行

[email protected]:~$ pip install Scrapy

即可完成Scrapy的安装，查看下scrapy相关命令

[email protected]:~$ scrapy

然后可以创建一个新的项目

[email protected]:~$ scrapy startproject newproject
New Scrapy project ‘newproject‘, using template directory ‘/usr/local/lib/python2.7/dist-packages/scrapy/templates/project‘, created in:
    /home/kuku/newproject

You can start your first spider with:
    cd newproject
    scrapy genspider example example.com
[email protected]:~$ 
[email protected]:~$ sudo apt install tree

使用tree看下newproject文件目录

[email protected]:~$ tree newproject/

接下来可以根据自己需要对里面文件进行相应的编辑，以满足自己需求。

时间： 2024-10-21 09:28:40

Ubuntu16.04安装爬虫框架scrapy的相关文章

ubuntu16.04安装python3,numpy,pandas等量化计算库

ubunt安装python3 sudo add-apt-repository ppa:fkrull/deadsnakessudo apt-get updatesudo apt-get install python3.5安装完成后在终端输入"python"会进入默认的python2.7中,如果要修改成我们刚安装的python3.5的话需要做如下三步:sudo cp /usr/bin/python /usr/bin/python_bak,先备份sudo rm /usr/bin/python

Linux 安装python爬虫框架 scrapy

Linux 安装python爬虫框架 scrapy http://scrapy.org/ Scrapy是python最好用的一个爬虫框架.要求: python2.7.x. 1. Ubuntu14.04 1.1 测试是否已经安装pip # pip --version 如果没有pip,安装: # sudo apt-get install python-pip 1.2 然后安装scrapy Import the GPG key used to sign Scrapy packages into APT

教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

欢迎加入Python学习交流群:535993938 禁止闲聊 ! 名额有限 ! 非喜勿进 ! 本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试. Scrapy吸引人的地方在于

爬虫框架Scrapy

前面十章爬虫笔记陆陆续续记录了一些简单的Python爬虫知识, 用来解决简单的贴吧下载,绩点运算自然不在话下. 不过要想批量下载大量的内容,比如知乎的所有的问答,那便显得游刃不有余了点. 于是乎,爬虫框架Scrapy就这样出场了! Scrapy = Scrach+Python,Scrach这个单词是抓取的意思, 暂且可以叫它:小抓抓吧. 小抓抓的官网地址:点我点我. 那么下面来简单的演示一下小抓抓Scrapy的安装流程. 具体流程参照:官网教程友情提醒:一定要按照Python的版本下载,要不然

怎么在32位windows系统上搭建爬虫框架scrapy？

禁止转载: 自学python,然后搭建爬虫框架scrapy.费了我一上午的心血.终于搭建成功,以防以后忘记搭建流程,特此撰写此贴,开写 *************************************************************************************************************** 首先安装python,我安装的是python2.7.12,安装在F:\python2.7.12,资源自行下载.由于在安装python的时候,

【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试. Scrapy吸引人的地方在于它是一个框架,任何人都可

Learning Scrapy：《精通Python爬虫框架Scrapy》Windows环境搭建

之前用爬虫抓点数据的时候基本上就是urllib3+BeautifulSoup4,后来又加入requests,大部分情况就够用了.但是最近心血来潮想学一下Scrapy,于是找了本书——<精通Python爬虫框架Scrapy>.内容算是比较可以的,但是按书中附录搭建环境着实折腾了一点时间,于是想把碰到的问题总结一下,让大家也少走点弯路. 进入正题之前,有几点要说明一下: 安装这个环境有什么用?这个环境就是一个服务器,有需要你抓的网站,不会因现实中的网站改版而造成代码失效,书中测试代码的网站基本上都

小白学 Python 爬虫（37）：爬虫框架 Scrapy 入门基础（五） Spider Middleware

人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Linux基础入门小白学 Python 爬虫(4):前置准备(三)Docker基础入门小白学 Python 爬虫(5):前置准备(四)数据库基础小白学 Python 爬虫(6):前置准备(五)爬虫框架的安装小白学 Python 爬虫(7):HTTP 基础小白学 Python 爬虫(8):网页基