在pycharm中使用scrapy爬虫

目标在Win7上建立一个Scrapy爬虫项目，以及对其进行基本操作。运行环境：电脑上已经安装了python(环境变量path已经设置好)，

以及scrapy模块，IDE为Pycharm 。操作如下：

　　一、建立Scrapy模板。进入自己的工作目录，shift + 鼠标右键进入命令行模式，在命令行模式下，

输入scrapy startproject 项目名 ,如下：

看到以上的代码说明项目已经在工作目录中建好了。

　　二、在Pycharm中scrapy的导入。在Pycharm中打开工作目录中的TestDemo，点击File-> Settings->Project: TestDemo->Project Interpreter。

法一：如图，

选择红框中右边的下拉菜单点击Show All, 如图：

点击右上角加号，如图：

在红色框体内找到电脑里已经安装的python，比如我的是：

C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\python.exe , 导入即可。

之后，pycharm会自动导入你已经在电脑上安装的scrapy等模块。如图，即红色框体中显示的。

法二：一个不那么麻烦的方法。如图：

点击红色框体，在弹出的框体内另安装一个scrapy, 如图：

需要安装的模块，如图：

模块自下而上进行安装，其中可能出现twisted包不能成功安装，出现

Failed building wheel for Twisted

Microsoft Visual C++ 14.0 is required...

的现象，那就搜一解决方案，这里不多说了。

三、Pycharm中scrapy的运行设置。

　　法一：Scrapy爬虫的运行需要到命令行下运行，在pychram中左下角有个Terminal,点开就可以在Pycharm下进入命令行，默认

是在项目目录下的，要运行项目，需要进入下一层目录，使用cd TestDemo 进入下一层目录，然后用scrapy crawl 爬虫名，即可运行爬虫。

如图：

　　法二：在TestDemoSpider目录和scrapy.cfg同级目录下面，新建一个entrypoint.py文件,如图：

其中只需把红色框体内的内容改成相应的爬虫的名字就可以在不同的爬虫项目中使用了，直接运行该文件就能使得Scrapy爬虫运行

Tips:在创建爬虫时使用模板更加方便一些，如：

scrapy genspider [-t template] <name> <domain> 即：scrapy genspider testDemoSpider baidu.com

原文地址：https://www.cnblogs.com/yiduobaozhiblog1/p/9195403.html

时间： 2024-10-20 04:17:50

在pycharm中使用scrapy爬虫的相关文章

在Pycharm中运行Scrapy爬虫项目的基本操作

目标在Win7上建立一个Scrapy爬虫项目,以及对其进行基本操作.运行环境:电脑上已经安装了python(环境变量path已经设置好), 以及scrapy模块,IDE为Pycharm .操作如下: 一.建立Scrapy模板.进入自己的工作目录,shift + 鼠标右键进入命令行模式,在命令行模式下, 输入scrapy startproject 项目名 ,如下: 看到以上的代码说明项目已经在工作目录中建好了. 二.在Pycharm中scrapy的导入.在Pycharm中打开工作目录中的TestD

win10在Pycharm中安装scrapy

查看官网说明发现推荐是安装Anaconda 或 Miniconda,这东西有点大而全,感觉目前用不上.所以没这样做. 直接安装scrapy 如果直接装会报错的,参考文章就可以解决. 这里记一下组件下载网址. 完成安装 Pycharm的Terminal中输入scrapy命令,如果命令能找到,说明安装已成功. 原文地址:https://www.cnblogs.com/lyg-blog/p/10695284.html

解决pycharm中安装scrapy提示 Microsoft Visual C++ 14.0 is required问题

安装方法: 出现问题:error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools 上网搜了各种方法都不好使,主要试了以下方法: 解决方法:http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted下载对应

一篇文章教会你理解和定义Scrapy爬虫框架中items.py文件

在前面几篇文章中我们已经学会了如何了编写Spider去获取网页上所有的文章链接及其对应的网页目标信息.在这篇文章中,我们将主要介绍Scrapy中的Item. 在介绍Item之前,我们需要知道明确一点,网络爬虫的主要目标就是需要从非结构化的数据源中提取出结构化的数据,在提取出结构化的数据之后,怎么将这些数据进行返回呢?最简单的一种方式就是将这些字段放到一个字典当中来,然后通过字典返回给Scrapy.虽然字典很好用,但是字典缺少一些结构性的东西,比方说我们容易敲错字段的名字,容易导致出错,比方说我们

Scrapy爬虫案例01——翻页爬取

之前用python写爬虫,都是自己用requests库请求,beautifulsoup(pyquery.lxml等)解析.没有用过高大上的框架.早就听说过Scrapy,一直想研究一下.下面记录一下我学习使用Scrapy的系列代码及笔记. 安装 Scrapy的安装很简单,官方文档也有详细的说明 http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/install.html .这里不详细说明了. 创建工程我是用的是pycharm开发,打开pycharm

Scrapy爬虫框架的学习

第一步安装首先得安装它,我使用的pip安装的因为我电脑上面安装了两个python,一个是python2.x,一个是python3.x,所以为了区分,所以,在cmd中,我就使用命令:python2 -m pip install Scrapy (注意我这里使用python2的原因是我给2个python重命名了一下) 安装之后,输入scrapy,出现如下图这样子的信息,表示成功安装了如果有错误,可以参考一下:http://www.cnblogs.com/angelgril/p/7511741.

Scrapy爬虫笔记

Scrapy是一个优秀的Python爬虫框架,可以很方便的爬取web站点的信息供我们分析和挖掘,在这记录下最近使用的一些心得. 1.安装通过pip或者easy_install安装: 1 sudo pip install scrapy 2.创建爬虫项目 1 scrapy startproject youProjectName 3.抓取数据首先在items.py里定义要抓取的内容,以豆瓣美女为例: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 from sc

使用pycharm运行调试scrapy

摘要 Scrapy是爬虫抓取框架,Pycharm是强大的python的IDE,为了方便使用需要在PyCharm对scrapy程序进行调试 python PyCharm Scrapy scrapy指令其实就是一个python的运行脚本 pyCharm是一个强大的pythonIDE 在运行scrapy库时,其实是相当于运行一个python脚本: #!/usr/bin/python from scrapy.cmdline import execute execute() 所以当运行scrapy cra

scrapy爬虫框架介绍

一介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速.简单.可扩展的方式从网站中提取所需的数据.但目前Scrapy的用途十分广泛,可用于如数据挖掘.监测和自动化测试等领域,也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫. Scrapy 是基于twisted框架开发而来,twisted是一个流行的事件驱动的python网络框架.因此Scrapy使用了一