沪商财富爬虫源码

使用javascript编写的爬虫源码,用于爬取沪商财富网上的商品信息。

代码粘贴到神箭手云爬虫平台(http://www.shenjianshou.cn/)上就可以直接跑了,

不需要安装编译环境。要爬取其他网站,可以更改源码即可。

代码执行具体步骤点这里

代码详细讲解点这里

更多源码下载点这里

var configs = {
    domains: ["www.hushangcaifu.com"],
    scanUrls: ["http://www.hushangcaifu.com/invest/index1.html"],
    contentUrlRegexes: ["http://www\\.hushangcaifu\\.com/invest/a\\d{4}\\.html"],
    helperUrlRegexes: ["http://www\\.hushangcaifu\\.com/invest/index\\d+\\.html"],
    fields: [
        {
            name: "title",
            selector: "//div[contains(@class,‘product-content-top-left-top‘)]/h3/text()",
            required: true
        },
        {
            name: "user_name",
            selector: "//div[contains(@class,‘product-content-top-left-top‘)]/p/span/text()"
        },
        {
            name: "total_money",
            selector:"//div[contains(@class,‘product-content-top-left-middle‘)]/div[1]/h4/text()"
        },
        {
            name: "project_time",
            selector:"//div[contains(@class,‘product-content-top-left-middle‘)]/div[2]/h4/text()"
        },
        {
            name: "annual_return",
            selector:"//div[contains(@class,‘product-content-top-left-middle‘)]/div[3]/h4/text()"
        },
        {
            name: "return_method",
            selector:"//div[contains(@class,‘product-content-top-left-middle‘)]/div[4]/h4/text()"
        }

    ]
};

var crawler = new Crawler(configs);
crawler.start();
时间: 2024-10-28 21:33:35

沪商财富爬虫源码的相关文章

瓜子二手车爬虫源码

/*使用javascript编写的爬虫源码,用于爬取瓜子二手车上的二车手信息. 代码粘贴到神箭手云爬虫平台(http://www.shenjianshou.cn/)上就可以直接跑了, 不需要安装编译环境.要爬取其他网站,可以更改源码即可. 代码执行具体步骤点这里 更多源码下载点这里 */ var scanUrl = "http://www.guazi.com/hz/buy/";//@input(scanUrl, 入口url, 请输入一个需爬取城市的url,格式为:“http://www

尚妆网爬虫源码

使用javascript编写的爬虫源码,用于爬取尚妆网上的商品信息. 代码粘贴到神箭手云爬虫平台(http://www.shenjianshou.cn/)上就可以直接跑了, 不需要安装编译环境.要爬取其他网站,可以更改源码即可. 代码执行具体步骤点这里 代码详细讲解点这里 更多源码下载点这里 var configs = { domains: ["www.showjoy.com","list.showjoy.com","item.showjoy.com&qu

自动抓取163新闻的Python爬虫源码

Python爬虫的学习,自动抓取163新闻的Python爬虫源码,这是一个用Python语言编写的,自动抓取网易新闻的python爬虫实现方法一文. Python爬虫的抓取思路是:(1)通过分析目标新闻网址 ,分析其中以News.xxx.com 开头的链接(2)获取每一个链接的内容,并做整理合并到事前准备好的.txt 文本中,以便查看各新闻.但是需要注意的是:由于今天的测试对象,网易新闻的格式不是非常统一,所有会有部分漏掉的情况,还能大家见谅.也希望有能力的朋友们帮着改进一下. 自动抓取163新

提供一份爬虫源码,叫我雷锋

#coding=utf-8from Tkinter import * #GUI(图像用户界面)模块from ScrolledText import ScrolledText #文本滚动条import urllib,requests #请求模块import re #正则表达式import threading #多线程处理与控制url_name = []#url+namea = 1#页码def get(): global a #全局变量 hd = {'User-Agent':'Mozilla/5.0

豌豆荚游戏排行榜爬虫源码

var configs = { domains: ["apps.wandoujia.com"], scanUrls: ["http://apps.wandoujia.com/api/v1/apps?type=weeklytopgame&max=12&start=0"], contentUrlRegexes: ["http://www\\.wandoujia\\.com/apps/.*"], helperUrlRegexes: [&

大量 python 爬虫源码分享--说说 python 爬虫这件小事

没有爬虫就没有互联网,越来越觉得写 Python 爬虫原来是一件快乐而高兴的事情,以下是本人收集整理的一批 python 爬虫代码,顺便分享到了别的网站上,喜欢的下下来看看吧. 内容: yunpan.360.cn.py 360 网盘爬虫 ed2k_search.py 电驴爬虫 music.163.com.py 163 音乐爬虫 music.baidu.com.py 百度音乐爬虫 pan.baidu.com.py 百度网盘爬虫 115.py 115 爬虫 91porn.py 91porn 爬虫 等

Bing爬虫源码

BingBong架构采用MFC处理UI搭建.配置处理,Python实现爬虫模块的架构.调用时将对应的参数传入爬虫模块,随后爬虫开始下载. Python代码相对简单,耗时的反而是找各种第三库的资料啊~ #!C:\Python27\python # -*- coding: utf-8 -*- import string,urllib2,re,time,sys import win32api, win32con, win32gui import Image #主函数 def BingBong(path

承兑商跑分系统源码

承兑商跑分系统源码,承兑商开发找梁经理(153微2202电6891)承兑跑分系统商系统开发,承兑商跑分系统系统APP,承兑商跑分系统系统软件开发. 在网络经济中,由于外界环境的变化极其迅速,推动公司发展的不再是效率,而是高度的适应性.应该把公司看成是有机体,它可以感受环境.适应环境,甚至改变环境.市场环境则是一种选择机制,它可以判定哪种有机体更适合生存.公司可通过下列几种手段来设计自己的组织结构,使之具有高度的适应性. 什么是承兑商跑分系统? 承兑商跑分系统:持有币或者是持有资产的团队企业或个人

Python 爬虫入门(三)—— 寻找合适的爬取策略

写爬虫之前,首先要明确爬取的数据.然后,思考从哪些地方可以获取这些数据.下面以一个实际案例来说明,怎么寻找一个好的爬虫策略.(代码仅供学习交流,切勿用作商业或其他有害行为) 1).方式一:直接爬取网站 目标网址:http://chanyouji.com/ 注意:这个网站会拦截IP,访问次数过多,IP会被封,所以,上节的IP代理就用到了. a).打开网页,可以看到这是一个游记类的网站,里面有很多人分享的游记.那我们就爬这些游记.说不定以后有时间出去玩的时候可以用到. b).点开其中一篇游记,可以看