Scrapy指定顺序输出 -《狗嗨默示录》-

items.py

import scrapy

class CollectipsItem(scrapy.Item):

    IP = scrapy.Field()
    PORT = scrapy.Field()
    POSITION = scrapy.Field()
    TYPE = scrapy.Field()
    SPEED = scrapy.Field()
    CONNECT_TIME = scrapy.Field()
    SURVIVE_TIME = scrapy.Field()
    LAST_CHECK_TIME = scrapy.Field()

(1)在spiders中增加文件csv_item_exporter.py

from scrapy.conf import settings
from scrapy.contrib.exporter import CsvItemExporter

class MyProjectCsvItemExporter(CsvItemExporter):

    def __init__(self, *args, **kwargs):
        delimiter = settings.get(‘CSV_DELIMITER‘, ‘,‘)
        kwargs[‘delimiter‘] = delimiter

        fields_to_export = settings.get(‘FIELDS_TO_EXPORT‘, [])
        if fields_to_export :
            kwargs[‘fields_to_export‘] = fields_to_export

        super(MyProjectCsvItemExporter, self).__init__(*args, **kwargs)

(2)在settings.py中配置

FEED_EXPORTERS = {
    ‘csv‘: ‘CollectIPs.spiders.csv_item_exporter.MyProjectCsvItemExporter‘,
} #CollectIPs为工程名

FIELDS_TO_EXPORT = [
    ‘IP‘,
    ‘PORT‘,
    ‘POSITION‘,
    ‘TYPE‘,
    ‘SPEED‘,
    ‘CONNECT_TIME‘,
    ‘SURVIVE_TIME‘,
    ‘LAST_CHECK_TIME‘
]

在settings.py中也可以指定csv文件中的分隔符

CSV_DELIMITER = "\t"
时间: 2024-10-24 23:32:13

Scrapy指定顺序输出 -《狗嗨默示录》-的相关文章

web.py搭建个人网址微信二维码后台开发 -《狗嗨默示录》-

建议在Python2.x版本食用 webapp.py #!/usr/bin/env python # -*- coding:UTF-8 -*- import web import qrcode from PIL import Image import datetime urls = ( '/','Index' # '/images/logo.png','Logo' #可放于静态文件夹static中 ) render = web.template.render('templates')#模板引擎

Scrapy 爬取保险条款 -《狗嗨默示录》-

items.py class IachinaItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() COMPANY = scrapy.Field() TYPE = scrapy.Field() PRODUCT = scrapy.Field() CLAUSE = scrapy.Field() CLAUSE_URL = scrapy.Field() iachina.py # -*-

MySQL使用手册 -《狗嗨默示录》-

1.创建数据库 CREATE DATABASE database dbname 2.删除数据库 drop database dbname 3.备份sql server -- 创建 备份数据的 device USE master EXEC sp_addumpdevice 'disk', 'testBack', 'c:\Mysql\MyNwind_1.dat' -- 开始 备份 BACKUP DATABASE pubs TO testBack 4.创建新表 create table tabname(

分布式爬虫基本原理 -《狗嗨默示录》-

分布式爬虫基本原理: 找一台高性能服务器,用于redis队列的维护以及数据的存储. 扩展scrapy程序,让其通过服务器的redis来获取start_urls,并改写pipeline里数据存储部分,把存储地址改为服务器地址. 在服务器上写一些生成url的脚本,并定期执行. 常见的防抓取屏蔽的方法: 设置download_delay,这个方法基本上属于万能的,理论上只要你的delay足够长,网站服务器都没办法判断你是正常浏览还是爬虫.但它带来的副作用也是显然的:大量降低爬取效率.因此这个我们可能需

使用http.cookiejar带cookie信息登录爬取方法 -《狗嗨默示录》-

Login.py # !/usr/bin/env python # -*- coding: utf-8 -*- import urllib.request import urllib.parse import user_info import http.cookiejar import re import time import socket cookie = http.cookiejar.CookieJar() #创建cookieJar保存cookie handler = urllib.req

jQuery hover() 方法 -《狗嗨默示录》-

jQuery hover() 方法 实例 当鼠标指针悬停在上面时,改变 <p> 元素的背景颜色: $("p").hover(function(){    $("p").css("background-color","yellow");},function(){    $("p").css("background-color","pink");}); 尝试一

爬取小说网站整站小说内容 -《狗嗨默示录》-

# !/usr/bin/env python # -*- coding: utf-8 -*- import urllib.request import re import MySQLdb import socket domain = 'http://www.quanshuwang.com' headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Ch

鼠标经过图片时图片上出现文字,鼠标移出时隐藏(通俗版) -《狗嗨默示录》-

<script type="text/javascript"> $(".news_con_col").mouseover(function(){ $(this).find(".bg-hover").show(); }); $(".news_con_col").mouseout(function(){ $(this).find(".bg-hover").hide(); }); </scrip

jQuery slideToggler() 方法 -《狗嗨默示录》-

jQuery slideToggle() 方法  jQuery 效果方法 实例 在所有 <p> 元素上进行 slideUp() 和 slideDown() 之间的切换: $("button").click(function(){$("p").slideToggle();}); 尝试一下 ? 定义和用法 slideToggle() 方法在被选元素上进行 slideUp() 和 slideDown() 之间的切换. 该方法检查被选元素的可见状态.如果一个元素