eclipse开发scrapy爬虫工程，附爬虫临门级教程

写在前面

自学爬虫入门之后感觉应该将自己的学习过程整理一下，也为了留个纪念吧。

scrapy环境的配置还请自行百度，其实也不难（仅针对windows系统，centos配置了两天，直到现在都没整明白）

就是安装python之后下载pip，setup pip，然后用pip install下载就行了（pyspider也是这样配置的）。

附主要资料参考地址

scrapy教程地址 https://www.bilibili.com/video/av13663892?t=129&p=2

eclipse开发scrapy https://blog.csdn.net/ioiol/article/details/46745993

首先要确保主机配置了eclipse、python还有pip的环境

安装scrapy框架的方法

进入cmd界面

::pip更新命令

pip install --upgrade pip

::pip安装scrapy

pip intall scrapy

安装完成之后就可以使用了

cmd环境创建scrapy的demo程序

首先创建一个目录，位置随意，随后进入目录，输入scrapy查看命令使用方式

startproject创建工程命令。格式scrapy startproject 工程名称

genspider创建爬虫命令，一个工程可以有多个爬虫。格式 scrapy genspider 爬虫名（不能和工程重名）爬虫初始ip地址值

目标是获取tmooc首页的侧边栏的内容（sub的子元素a的子元素span的文本内容)

tmooc首页

侧边栏内容

编辑item.py，位置在spider目录同级（代码简单，就不粘贴代码了）

编辑test.py

代码部分

# -*- coding: utf-8 -*-

import scrapy

# 需要导包，引入生成item的方法

from demo.items import DemoItem

class TestSpider(scrapy.Spider):

# 爬虫名，运行时要用到

name = ‘test‘

# 限制域，超出范围者不去处理，可省略

allowed_domains = [‘http://www.tmooc.cn‘]

# 起始地址

start_urls = [‘http://www.tmooc.cn/‘]

# 回调函数

def parse(self, response):

# 爬虫的本质就是请求地址，解析响应内容，然后再次请求下一个地址的程序

# 所以爬虫的主要部分就在于如何操作response对象

nodes=response.xpath("//li[@class=‘sub‘]")

for node in nodes:

#item由spider同级目录下的items.py方法生成，是一个类似与字典（java map）的类型

item=DemoItem()

item[‘name‘]=node.xpath("./a/span/text()").extract()[0]

#yield类似于return，详情百度。

yield item

编译test.py，运行spider程序

crawl是运行spider的命令。格式scrapy crawl 爬虫名 [-o 文件名]

-o参数可选，作用是将spider爬取的数据保存。保存在运行指令的目录下，可以保存成csv（excel表）json jsonl xml...等多种格式

结果展示

eclipse开发scrapyspider工程

首先要保证eclipse有python的开发环境

新建python工程，选项默认即可

创建好的目录结构

进入本地的workspace，找到该工程目录

将刚才创建的scrapy工程目录拷贝过来，不要一开始创建的那个文件夹

将demo目录

拷贝到

工程目录下。记得删除上次运行的结果文件

run -> run configuretion ->

运行结果

原文地址：https://www.cnblogs.com/kvii/p/11649337.html

时间： 2024-10-30 01:52:21

eclipse开发scrapy爬虫工程，附爬虫临门级教程的相关文章

如何设置eclipse开发的web工程自动发布到tomcat的webapps下？

使用eclipse开发web工程,在配置好服务器(tomcat)之后运行该web工程,发现能正常运行.但是问题在于,当你打开tomcat路径\webapps时,会发现没有该web应用(你的web工程名命名的文件夹),而且你也不清楚该web发布到哪去了.......那么这个问题该怎么解决呢? 一.在您打开的Eclipse工作台的其他视图中选中"服务器"视图,在该视图中双击您所用的服务器: 二.在编辑窗口中会,自动打开一个关于该服务器设置的overview页面,按下图中设置,图中的内容是我

scrapy工具创建爬虫工程

1.scrapy创建爬虫工程:scrapy startproject scrape_project_name >scrapy startproject books_scrapeNew Scrapy project 'books_scrape', using template directory 's:\\users\\jiangshan\\anaconda3\\lib\\site-packages\\scrapy\\templates\\project', created in: D:\Work

Cocos2dx 3.0开发环境的搭建--Eclipse建立在Android工程

一.前言: 这部分描述了Cocos2d-x 3.0的一些基础内容,以及在Eclipse上上编译我们的Cocos2d-x项目,成功把Helloworld执行起来了.看完本篇博客之后.你就会知道Cocos2d-x 3.0居然发生了如此大的变化.变得如此简单,环境搭建.项目创建.编译的方式更加人性化了. 二.环境准备: 1.下载ADT Bundle(Eclipse捆绑了SDK和ADT).或者是安装Eclipse了ADT插件. 2.安装JDK.NDK.Ant .Python.然后配置环境. 3.Coco

如何为Eclipse开发工具中创建的JavaWeb工程创建Servlet

在博客<在Eclipse中如何创建JavaWeb工程>中图文并茂的说明了Eclipse中创建JavaWeb工程的方法,本篇博客将告诉大家如何为Eclipse开发工具中创建的JavaWeb工程创建Servlet: 1.在Eclipse开发工具中创建的JavaWeb工程文件目录结构如下图: 说明: a).红框框定的结构用于存放Java类及其相应的包:用于存放Libraries文件夹: b).灰框框定的结构用于显示(非"存放")JavaWeb工程所依赖的JDK相关的jar包: c

爬虫--Scrapy-CrawlSpider&分布式爬虫

CrawlSpider CrawlSpider: 问题:如果我们想要对某一个网站的全站数据进行爬取? 解决方案: 1. 手动请求的发送 2. CrawlSpider(推荐) 之前的事基于Spider类 CrawlSpider概念:CrawlSpider其实就是Spider的一个子类.CrawlSpider功能更加强大(链接提取器,规则解析器). 代码: 1. 创建一个基于CrawlSpider的爬虫文件 a) scrapy genspider –t crawl 爬虫名称起始url ------

搭建Eclipse开发和调试环境（真机）

由于工作原因,最近开始了Android开发.之前接触过一段时间Android,还是在2.x时代. 那个时候搭建开发环境还是挺麻烦的.又是Eclipse,又是ADT的,不同的版本还要安装对应开发包.现在方便了,下载一个ADT压缩包就搞定了. 简单记录如下: 工具下载: JDK:http://www.oracle.com/technetwork/java/javase/downloads/index.html ADT:http://developer.android.com/sdk/index.ht

【转载】不会编程也能写爬虫？可视化爬虫工具是什么东东

原文:不会编程也能写爬虫?可视化爬虫工具是什么东东随着Scrapy等框架的流行,用Python等语言写爬虫已然成为一种时尚.但是今天,我们并不谈如何写爬虫,而是说说不要写代码就能写出来的爬虫. 爬虫新时代在早期互联网世界,写爬虫是一项技术含量非常高的活,往大的方向说,爬虫技术是搜索引擎的重要组成部分. 随着互联网技术的发展,写爬虫不再是门槛非常高的技术了,一些编程语言甚至直接提供爬虫框架,例如python的Scrapy框架,它们让写爬虫走入“寻常百姓家”. 在知乎的热门话题“能利用爬虫技术做

小白学爬虫：迷你爬虫架构（二）

摘要:从零开始写爬虫,初学者的速成指南! 介绍大家好!回顾上一期,我们在介绍了爬虫的基本概念之后,就利用各种工具横冲直撞的完成了一个小爬虫,目的就是猛.糙.快,方便初学者上手,建立信心.对于有一定基础的读者,请不要着急,以后我们会学习主流的开源框架,打造出一个强大专业的爬虫系统!不过在此之前,要继续打好基础,本期我们先介绍爬虫的种类,然后选取最典型的通用网络爬虫,为其设计一个迷你框架.有了自己对框架的思考后,再学习复杂的开源框架就有头绪了. 今天我们会把更多的时间用在思考上,而不是一根筋的co

Nutch搜索引擎（第4期）_ Eclipse开发配置

1.环境准备 1.1 本期引言前三期分别介绍了Nutch与Solr在Linux上面的安装,并做了简单的应用,这一期从开发的角度进行,因为我们日常最熟悉的开发环境是Windows,所以本期详细介绍Windows平台的Nutch二次开发所需要进行的配置安装.当我们开发好之后,最后在部署到Linux环境中. 为了方便以后Nutch开发以及软件安装的管理,我们对开发环境配置进行如下安排: E:/(盘符) |----cygwin |----NutchWorkPlat |----ant |----solr