瓜子二手车爬虫源码

/*使用javascript编写的爬虫源码,用于爬取瓜子二手车上的二车手信息。

代码粘贴到神箭手云爬虫平台(http://www.shenjianshou.cn/)上就可以直接跑了,

不需要安装编译环境。要爬取其他网站,可以更改源码即可。

代码执行具体步骤点这里

更多源码下载点这里

*/

var scanUrl = "http://www.guazi.com/hz/buy/";//@input(scanUrl, 入口url, 请输入一个需爬取城市的url,格式为:“http://www.guazi.com/城市名称/buy/”)

if (scanUrl.trim().length > 0) {
    var city = scanUrl.trim().substring(scanUrl.indexOf(".com/") + 5, scanUrl.indexOf("/buy/"));
}

var configs = {
    domains: ["guazi.com"],
    scanUrls: [scanUrl],
    contentUrlRegexes: ["https?://www\\.guazi\\.com/" + city + "/\\w+\\.htm"],
    helperUrlRegexes: ["https?://www\\.guazi\\.com/" + city + "/buy/(o\\d+/)?"],
    enableJS: false,
    interval: 10000,
    fields: [
        {
            name: "car_name",
            selector: "//h1[contains(@class,‘dt-titletype‘)]"
        },
        {
            name: "car_price",
            selector: "//span[contains(@class,‘fc-org pricestype‘)]"
        },
        {
            name: "car_license",
            selector: "//li[contains(@class,‘one‘)]/b"
        },
        {
            name: "car_mileage",
            selector: "//ul[contains(@class,‘assort‘)]/li[2]/b"
        },
        {
            name: "car_gearbox",
            selector: "//ul[contains(@class,‘assort‘)]/li[3]/b"
        },
        {
            name: "car_emission_standard",
            selector: "//li[contains(@class,‘em-sta detailHoverTips‘)]/b"
        },
        {
            name: "car_license_location",
            selector: "//ul[contains(@class,‘assort‘)]/li[5]/b"
        },
        {
            name: "car_owner",
            selector: "//li[contains(@class,‘owner‘)]/text()[2]"
        },
        {
            name: "car_description",
            selector: "//*[@id=‘base‘]/p"
        }
    ]
};

configs.afterExtractField = function(fieldName, data, page) {
    if (fieldName == "car_price") {
        var price = extract(data, "//b").replace("¥", "¥");
        var coinUnit = exclude(data, "//b");
        return (price + coinUnit);
    }
    else if (fieldName == "car_owner") {
        return data.trim();
    }
    else if (fieldName == "car_description") {
        return data.replace("<em></em>", "");
    }
    return data;
};

var crawler = new Crawler(configs);
crawler.start();
时间: 2024-12-19 16:21:10

瓜子二手车爬虫源码的相关文章

沪商财富爬虫源码

使用javascript编写的爬虫源码,用于爬取沪商财富网上的商品信息. 代码粘贴到神箭手云爬虫平台(http://www.shenjianshou.cn/)上就可以直接跑了, 不需要安装编译环境.要爬取其他网站,可以更改源码即可. 代码执行具体步骤点这里 代码详细讲解点这里 更多源码下载点这里 var configs = { domains: ["www.hushangcaifu.com"], scanUrls: ["http://www.hushangcaifu.com/

尚妆网爬虫源码

使用javascript编写的爬虫源码,用于爬取尚妆网上的商品信息. 代码粘贴到神箭手云爬虫平台(http://www.shenjianshou.cn/)上就可以直接跑了, 不需要安装编译环境.要爬取其他网站,可以更改源码即可. 代码执行具体步骤点这里 代码详细讲解点这里 更多源码下载点这里 var configs = { domains: ["www.showjoy.com","list.showjoy.com","item.showjoy.com&qu

自动抓取163新闻的Python爬虫源码

Python爬虫的学习,自动抓取163新闻的Python爬虫源码,这是一个用Python语言编写的,自动抓取网易新闻的python爬虫实现方法一文. Python爬虫的抓取思路是:(1)通过分析目标新闻网址 ,分析其中以News.xxx.com 开头的链接(2)获取每一个链接的内容,并做整理合并到事前准备好的.txt 文本中,以便查看各新闻.但是需要注意的是:由于今天的测试对象,网易新闻的格式不是非常统一,所有会有部分漏掉的情况,还能大家见谅.也希望有能力的朋友们帮着改进一下. 自动抓取163新

提供一份爬虫源码,叫我雷锋

#coding=utf-8from Tkinter import * #GUI(图像用户界面)模块from ScrolledText import ScrolledText #文本滚动条import urllib,requests #请求模块import re #正则表达式import threading #多线程处理与控制url_name = []#url+namea = 1#页码def get(): global a #全局变量 hd = {'User-Agent':'Mozilla/5.0

豌豆荚游戏排行榜爬虫源码

var configs = { domains: ["apps.wandoujia.com"], scanUrls: ["http://apps.wandoujia.com/api/v1/apps?type=weeklytopgame&max=12&start=0"], contentUrlRegexes: ["http://www\\.wandoujia\\.com/apps/.*"], helperUrlRegexes: [&

大量 python 爬虫源码分享--说说 python 爬虫这件小事

没有爬虫就没有互联网,越来越觉得写 Python 爬虫原来是一件快乐而高兴的事情,以下是本人收集整理的一批 python 爬虫代码,顺便分享到了别的网站上,喜欢的下下来看看吧. 内容: yunpan.360.cn.py 360 网盘爬虫 ed2k_search.py 电驴爬虫 music.163.com.py 163 音乐爬虫 music.baidu.com.py 百度音乐爬虫 pan.baidu.com.py 百度网盘爬虫 115.py 115 爬虫 91porn.py 91porn 爬虫 等

Bing爬虫源码

BingBong架构采用MFC处理UI搭建.配置处理,Python实现爬虫模块的架构.调用时将对应的参数传入爬虫模块,随后爬虫开始下载. Python代码相对简单,耗时的反而是找各种第三库的资料啊~ #!C:\Python27\python # -*- coding: utf-8 -*- import string,urllib2,re,time,sys import win32api, win32con, win32gui import Image #主函数 def BingBong(path

一年佣金翻番,看瓜子二手车如何亩产万斤

最近瓜子二手车悄悄将佣金比例从3%提到4%,单车佣金已经来到最低3500.其意义不只是增加一个点,让报表的数字好看一些,能跟投资人说事,这些都是量的差别.更重要的是质的问题,其商业模式进一步向C2B(传统经销商)倾斜,把个人买家挤出这个市场.短期数字好看,是以牺牲长期的市场发展为代价的.甚至把这个市场做死,回到传统线下的灰色状态. 二手车和二手车市场都很有技术含量.那举一个和瓜子的商业模式接近,又容易理解的例子:成人社(yue)交(pao)网站.瓜子是C2C模式,理论上为二手车的个人买家和卖家对

被315曝光的瓜子二手车,退车激增,融资无望

对于很多企业来说,315可能是公关团队的不眠之夜,也可能会成为企业生命的重要转折点.在目前正火爆的二手车行业,除了车易拍在央视315被报道,大打广告的瓜子二手车直卖网也因出售事故车.调表车.混杂车商不直卖等问题,被全国多地电视台315专题曝光,暴露的问题比车易拍更严重.坊间流传一个说法是,"车易拍要钱,瓜子二手车要命".这对本来就因为融资不顺而焦头烂额的瓜子二手车来说,无异于雪上加霜. 315北京.成都重镇失守,口碑崩盘 北京315晚会上,瓜子二手车因出售调表车上榜.北京王先生在瓜子二