豌豆荚游戏排行榜爬虫源码

var configs = {
    domains: ["apps.wandoujia.com"],
    scanUrls: ["http://apps.wandoujia.com/api/v1/apps?type=weeklytopgame&max=12&start=0"],
    contentUrlRegexes: ["http://www\\.wandoujia\\.com/apps/.*"],
    helperUrlRegexes: ["http://apps\\.wandoujia\\.com/api/v1/apps\\?type=weeklytopgame&max=12&start=\\d+"],//可留空
    fields: [
        {
            // 第一个抽取项
            name: "title",
            selector: "//span[contains(@class,‘title‘)]",
            required: true //是否不能为空
        },
        {
            // 第二个抽取项
            name: "download",
            selector: "//i[@itemprop=‘interactionCount‘]",
            required: false //是否不能为空
        },
        {
            //第三个抽取项
            name:"thumb",
            selector:"//div[contains(@class,‘app-icon‘)]/img[@itemprop=‘image‘]/@src",
        }  

    ]
};
configs.onProcessHelperUrl = function(url, content, site) {
    var jarr = JSON.parse(content);
    //发现内容页
    for (var i = 0, n = jarr.length; i < n; i++) {
        var new_url = "http://www.wandoujia.com/apps/"+jarr[i].packageName;
        site.addUrl(new_url);
    }
    var currentStart = parseInt(url.substring(url.indexOf("&start=") + 7));
    var start = currentStart+12;
    if(start < 100){
        site.addUrl("http://apps.wandoujia.com/api/v1/apps?type=weeklytopgame&max=12&start="+start);
    }
    return true;
}
var crawler = new Crawler(configs);
crawler.start();

  

看到有人问豌豆荚游戏榜单的爬虫如何写,这里特别贴一下完整的代码。

这里只爬了豌豆荚应用的名称,下载量和图标地址,有其他需求的朋友可以自己写xpath进行提取。

运行方法:复制代码到神箭手云爬虫平台上运行即可。

时间: 2024-10-29 19:08:52

豌豆荚游戏排行榜爬虫源码的相关文章

瓜子二手车爬虫源码

/*使用javascript编写的爬虫源码,用于爬取瓜子二手车上的二车手信息. 代码粘贴到神箭手云爬虫平台(http://www.shenjianshou.cn/)上就可以直接跑了, 不需要安装编译环境.要爬取其他网站,可以更改源码即可. 代码执行具体步骤点这里 更多源码下载点这里 */ var scanUrl = "http://www.guazi.com/hz/buy/";//@input(scanUrl, 入口url, 请输入一个需爬取城市的url,格式为:“http://www

沪商财富爬虫源码

使用javascript编写的爬虫源码,用于爬取沪商财富网上的商品信息. 代码粘贴到神箭手云爬虫平台(http://www.shenjianshou.cn/)上就可以直接跑了, 不需要安装编译环境.要爬取其他网站,可以更改源码即可. 代码执行具体步骤点这里 代码详细讲解点这里 更多源码下载点这里 var configs = { domains: ["www.hushangcaifu.com"], scanUrls: ["http://www.hushangcaifu.com/

尚妆网爬虫源码

使用javascript编写的爬虫源码,用于爬取尚妆网上的商品信息. 代码粘贴到神箭手云爬虫平台(http://www.shenjianshou.cn/)上就可以直接跑了, 不需要安装编译环境.要爬取其他网站,可以更改源码即可. 代码执行具体步骤点这里 代码详细讲解点这里 更多源码下载点这里 var configs = { domains: ["www.showjoy.com","list.showjoy.com","item.showjoy.com&qu

自动抓取163新闻的Python爬虫源码

Python爬虫的学习,自动抓取163新闻的Python爬虫源码,这是一个用Python语言编写的,自动抓取网易新闻的python爬虫实现方法一文. Python爬虫的抓取思路是:(1)通过分析目标新闻网址 ,分析其中以News.xxx.com 开头的链接(2)获取每一个链接的内容,并做整理合并到事前准备好的.txt 文本中,以便查看各新闻.但是需要注意的是:由于今天的测试对象,网易新闻的格式不是非常统一,所有会有部分漏掉的情况,还能大家见谅.也希望有能力的朋友们帮着改进一下. 自动抓取163新

提供一份爬虫源码,叫我雷锋

#coding=utf-8from Tkinter import * #GUI(图像用户界面)模块from ScrolledText import ScrolledText #文本滚动条import urllib,requests #请求模块import re #正则表达式import threading #多线程处理与控制url_name = []#url+namea = 1#页码def get(): global a #全局变量 hd = {'User-Agent':'Mozilla/5.0

大量 python 爬虫源码分享--说说 python 爬虫这件小事

没有爬虫就没有互联网,越来越觉得写 Python 爬虫原来是一件快乐而高兴的事情,以下是本人收集整理的一批 python 爬虫代码,顺便分享到了别的网站上,喜欢的下下来看看吧. 内容: yunpan.360.cn.py 360 网盘爬虫 ed2k_search.py 电驴爬虫 music.163.com.py 163 音乐爬虫 music.baidu.com.py 百度音乐爬虫 pan.baidu.com.py 百度网盘爬虫 115.py 115 爬虫 91porn.py 91porn 爬虫 等

Bing爬虫源码

BingBong架构采用MFC处理UI搭建.配置处理,Python实现爬虫模块的架构.调用时将对应的参数传入爬虫模块,随后爬虫开始下载. Python代码相对简单,耗时的反而是找各种第三库的资料啊~ #!C:\Python27\python # -*- coding: utf-8 -*- import string,urllib2,re,time,sys import win32api, win32con, win32gui import Image #主函数 def BingBong(path

草莓果园游戏开发系统源码开发

草莓果园游戏开发系统源码开发(微or电 158.1500.1390 小凡团队)草莓果园开发系统,草莓果园模式开发系统,草莓果园平台开发系统,草莓果园软件定制开发,草莓果园app开发. 草莓果园这个拆分盘简单的说就是:原始股就是果实.通过种植产生利息,利息大概一天有3.0%-3.6%左右,地里种植的果实x每日利率=每日收益(即每天产生的化肥).如果发展直推会员,那么每一位直推会员每天得到的利息的10%是领导的奖金.除了开地所需的最低果实(普通地块每块地最低种300果实,金地块每块地种3000)永久

东麓庄园游戏开发系统源码分析

东麓庄园游戏开发系统源码分析 袁生:151.1222.4001(微信同步)东麓庄园游戏,东麓庄园模式,东麓庄园理财,东麓庄园软件,东麓庄园app,东麓庄园源码,东麓庄园农场,东麓庄园平台,东麓庄园开发,东麓庄园返利,东麓庄园定制开发. 注册和交易注册后最低投资66元,普通领导人帮下级玩家注册激活收66元,转660个金币,其中6元是平台管理费.到达下级会员账号600个金币.会员之间交易不收手续费,果实兑换成金币平台收取10%的手续费.东麓庄园源码开发 151.1222.4001(微信同步) 东麓庄