大众点评网商家数据采集爬虫实现源码

源码如下,以大家最爱的黄焖鸡米饭为例~大家可以拷贝到神箭手云爬虫(http://www.shenjianshou.cn/)上直接运行:

// 大众点评上爬取所有"黄焖鸡米饭"的商户信息
var keywords = "黄焖鸡米饭";
var scanUrls = [];
//国内的城市id到2323,意味着种子url有2323个
//作为sample,这里改成1,只爬取上海的黄焖鸡米饭门店
//for (var i = 1; i <= 2323; i++) {
for (var i = 1; i <= 1; i++) {
    scanUrls.push("http://www.dianping.com/search/keyword/"+i+"/0_"+keywords);
}

var configs = {
    domains: ["dianping.com"],
    scanUrls: scanUrls,
    helperUrlRegexes: ["http://www.dianping.com/search/keyword/\\d+/0_.*"],
    contentUrlRegexes: ["http://www.dianping.com/shop/\\d+/editmember"],
    enableProxy: true,
    interval: 5000,
    fields: [
        {
            name: "shop_name",
            selector: "//div[contains(@class,‘shop-review-wrap‘)]/div/h3/a/text()"
        },
        {
            name: "id",
            selector: "//div[contains(@class,‘shop-review-wrap‘)]/div/h3/a/@href"
        },
        {
            name: "create_time",
            selector: "//div[contains(@class,‘block raw-block‘)]/ul/li[1]/span"
        },
        {
            name: "region_name",
            selector: "//div[@class=‘breadcrumb‘]/b[1]/a/span/text()",
            required: true
        },
        {
            name: "province_name",
            selector: "//div[@class=‘breadcrumb‘]/b[1]/a/span/text()"
        }
    ]
};

configs.onProcessHelperUrl = function(url, content, site) {
    var urls = extractList(content, "//div[@class=‘tit‘]/a[not(contains(@class,‘shop-branch‘))]/@href");
    for (var i = 0; i < urls.length; i++) {
        site.addUrl(urls[i]+"/editmember");
    }
    var nextPage = extract(content,"//div[@class=‘page‘]/a[@class=‘next‘]/@href");
    if (nextPage) {
        site.addUrl(nextPage);
        var result = /\d+$/.exec(nextPage);
        if (result) {
            var data = result[0];
            var count = nextPage.length-data.length;
            var lll = nextPage.substr(0, count)+(parseInt(data)+1);
            site.addUrl(nextPage.substr(0, count)+(parseInt(data)+1));
            site.addUrl(nextPage.substr(0, count)+(parseInt(data)+2));
        }
    }
    return false;
}

configs.afterExtractField = function(fieldName, data, page) {
    if (fieldName == "id") {
        var result = /\d+$/.exec(data);
        if (result) {
            data = result[0];
        }
    }
    else if (fieldName == "shop_name") {
        if (data.indexOf("黄焖鸡米饭") == -1) {
            page.skip();
        }
    }
    else if (fieldName == "create_time") {
        var result = /\d{2}-\d{2}-\d{2}$/.exec(data);
        data = "20"+result[0];
    }
    else if (fieldName == "province_name" || fieldName == "region_name") {
        var position = data.indexOf("县");
        if (position != -1 && position < data.length -1) {
            data = data.substr(0,position+1);
        }
        position = data.indexOf("市");
        if (position != -1 && position < data.length -1) {
            data = data.substr(0,position+1);
        }
        data = data.replace("餐厅","");
        if (fieldName == "province_name") {
            data = getProvinceNameByRegion(data);
        }
    }
    return data;
}

var crawler = new Crawler(configs);
crawler.start();

  

时间: 2024-08-04 21:35:52

大众点评网商家数据采集爬虫实现源码的相关文章

2015年全国大众点评网商户信息数据

2015年更新全国总数据量将近1500万条 [数据说明] 大众点评网商户信息数据 1500万 条 [更新时间] 2015年10月 [字段说明] 商户ID,是否加V,是否停业,商户名称,别名,省,市,城市拼音,城市ID,区,一级分类,一级分类ID,二级分类,二级分类ID,地址,商圈,联系电话,营业时间,均价,星级,图片,描述,标签,地图类型,腾讯纬度,腾讯经度,GPS经度,GPS纬度,导航,交通,氛围,特色,支付,产品评分,环境评分,服务评分,总点评数,5星数,4星数,3星数,2星数,1星数,推荐

DLH家校通管理系统源码

一.源码特点    采用典型的三层架构技术进行开发,实现的一个家校通系统,适合毕业设计二.功能介绍    本源码是一个家校通管理系统,实现家校通管理的基本功能等,欢迎下载三.菜单功能    该系统分为四个角色:管理员.家长.教师.学生     管理员:1.信息查询(学生信息查询.教师信息查询.考试信息查询.学生成绩查询.学生评语查询.我的信息)2.信息管理(班级信息管理.学生信息管理.教师信息管理.课程信息管理.考试信息管理.学生成绩管理.学生评语管理)3.系统用户管理(系统用户管理.修改个人信

爬取京东商品信息和评价的爬虫实现源码

话不多说,直接上源码: var keyword = "d3.js";//@input(keyword, 查询关键字, 爬取该关键字搜索出来的京东商品) var comment_count = 100;//@input(comment_count, 爬取的评论数, 最多爬取多少条评论) var page_count = comment_count / 10; keyword = keyword.trim(); var scanUrls = []; scanUrls.push("

java-原生爬虫机制源码

这是一个web搜索的基本程序,从命令行输入搜索条件(起始的URL.处理url的最大数.要搜索的字符串),它就会逐个对Internet上的URL进行实时搜索,查找并输出匹配搜索条件的页面. 这个程序的原型来自<java编程艺术>,为了更好的分析,站长去掉了其中的GUI部分,并稍作修改以适用jdk1.5.以这个程序为基础,可以写出在互联网上搜索诸如图像.邮件.网页下载之类的“爬虫”.先请看程序运行的过程: package com.utils; import java.io.DataOutputSt

2018新版正方教务 ---爬虫--- JAVA源码--课表--平时分----成绩-----排名----考试安排

JAVA War 链接:https://pan.baidu.com/s/1UYDDSlLSvNILcXwyKpYKLA 密码:rijq 使用方法 解压上面链接包 启动Tomcat 修改 jwxt web App里的 Settings配置文件 有问题私我 [email protected] 原文地址:https://www.cnblogs.com/zhangtalent/p/9473590.html

Hawk: 20分钟无编程抓取大众点评17万数据

1. 主角出场:Hawk介绍 Hawk是沙漠之鹰开发的一款数据抓取和清洗工具,目前已经在Github开源.详细介绍可参考:http://www.cnblogs.com/buptzym/p/5454190.html,强烈建议先读这篇文章,该文介绍了详细原理和抓取链家二手房的攻略,以此为基础,才能较好的理解整个操作. 本文将讲解通过本软件,获取大众点评的所有美食数据,可选择任一城市,也可以很方便地修改成获取其他生活门类信息的爬虫. 本文将省略原理,一步步地介绍如何在20分钟内完成爬虫的设计,基本不需

国内主流源码类学习网站

转   留着到时候看看 哪些可以用 1.365源码之家 (http://www.365code.com) 365源码之家始建于2004年9月,是一个专门针对各大小网站提供技术及资源服务的网站,我们所 拥有的服务包括源码下载,书籍下载,技术文章 ,网站运营.管理资料,业内最新动态等栏目,提供 全方便从学技术. 2.积木网 (http://www.gimoo.net/) 学习编程技术从积木网(gimoo.net)开始,积木网建站与2006年,提供PHP.asp.net.js.jquery.ruby.

出售51aspx上的商业源码 贵的我只要1/3价格 便宜的只要半价 QQ联系 847129860

ahsupermarketshopping AH外贸公司英文企业网站源码 http://www.51aspx.com/Code/AHForeignTradeCompanyrayxietongoa RayOA协同办公服务平台源码 http://www.51aspx.com/code/RayXieTongOAxtright Ext.net权限管理(带CMS)系统源码 http://www.51aspx.com/code/ExtRightCMSlargeenterpriseserp 大型企业通用管理E

高仿大众点评应用安卓源码

该源码是高仿大众点评应用源码,本源码只用于个人研究使用,不可用于商业用途,由于本源码引起的纠纷皆与作者无关. 本套源码是本人在校的时候做的一个练手的列子,高仿大众点评,项目源码不算是太完善,还请专业人士指导并完善他. 源码部分没有完成,服务器部分也不是太完善,只是实现了查询方面的东西. 由于现在没有时间去优化,所以把源码发出来给新手们参考学习,代码不规范的地方还请扣扣告诉我, 我想多向大家学习,充实自己,希望大家多多提供意见让我更快的去成长,谢谢. <ignore_js_op> 运行截图 &l