node 写的简单爬虫

安装cheerio

npm install cheerio --save

引入http和cheeri

var http=require("http");
var cheerio=require("cheerio");

1.爬取新闻

我们选择新浪新闻来进行爬取

http://news.sina.com.cn/china/

http.get(url,function(res){
     var html=‘‘;
     res.on(‘data‘,function(data){
         html +=data
     })

     res.on(‘end‘, function() {
         var $=cheerio.load(html);
        $("#subShowContent2_static .news-item h2").each((iten,i)=>{
            console.log($(i).text());
        })
　　　　　　console.log("数据加载完毕");
     });
 }).on(‘error‘, function() {
     console.log("获取数据出错！")
 });

结果如下：

2.爬取图片

我们选择天极网的图片进行爬取

http://pic.yesky.com/

http.get(url, function (res) {
        var imageData =‘‘;
        res.on(‘data‘,function(data){  //图片加载到内存变量
            imageData += data;
        }).on(‘end‘,function(){        //图片加载完
            var $=cheerio.load(imageData);
            $Imgs = $(‘img‘),
            $Imgs.each((iten,i)=>{
            console.log($(i).attr(‘src‘)+"------");
           })
        });
    });

结果如下：

原文地址：https://www.cnblogs.com/aSnow/p/8438425.html

时间： 2024-10-08 05:55:53

node 写的简单爬虫的相关文章

用node写个简单的静态服务器

直接上代码吧,我把它命名为 app.js, 只要在该文件所在目录下,控制台运行 node app.js 即可启动一个本地服务器了. /** * 服务器 * Author jervy * Date */ var MINE_TYPES = { 'html': 'text/html', 'xml': 'text/xml', 'txt': 'text/plain', 'css': 'text/css', 'js': 'text/javascript', 'json': 'application/json

那些年我们写过的爬虫

从写nodejs的第一个爬虫开始陆陆续续写了好几个爬虫,从爬拉勾网上的职位信息到爬豆瓣上的租房帖子,再到去爬知乎上的妹子照片什么的,爬虫为我打开了一扇又一扇新世界的大门.除了涨了很多姿势之外,与网管斗智斗勇也是一个比较有意思的事情.虽然很多东西都是浅尝辄止,但万事都有个由浅入深的过程嘛(天真脸~~) 一只爬虫的模样爬虫?应该是长这样的吧: 其实,没有那么萌啦. 所谓爬虫,就是把目标网站的信息收集起来的一种工具.基本流程跟人访问网站是一样的,打开链接>>获取信息>>打开链接……这个

Hello Python!用python写一个抓取CSDN博客文章的简单爬虫

网络上一提到python,总会有一些不知道是黑还是粉的人大喊着:python是世界上最好的语言.最近利用业余时间体验了下python语言,并写了个爬虫爬取我csdn上关注的几个大神的博客,然后利用leancloud一站式后端云服务器存储数据,再写了一个android app展示数据,也算小试了一下这门语言,给我的感觉就是,像python这类弱类型的动态语言相比于java来说,开发者不需要分太多心去考虑编程问题,能够把精力集中于业务上,思考逻辑的实现.下面分享一下我此次写爬虫的一下小经验,抛砖引玉

Python写的网络爬虫程序（很简单）

Python写的网络爬虫程序(很简单) 这是我的一位同学传给我的一个小的网页爬虫程序,觉得挺有意思的,和大家分享一下.不过有一点需要注意,要用python2.3,如果用python3.4会有些问题出现. python程序如下: import re,urllib strTxt="" x=1 ff=open("wangzhi.txt","r") for line in ff.readlines(): f=open(str(x)+".txt&

也写一个简单的网络爬虫

引子在cnblogs也混了许久,不过碍于平日工作太忙,一篇随笔也没有写过.最近经常感觉到自己曾经积累过的经验逐步的丢失,于是开通了博客,主要是记录一下自己在业余时间里玩的一些东西. 缘起言归正传.某次在在某高校网站闲逛,看到了一些有趣的东西想要保存起来,但是却分散在各个页面,难以下手.使用baidu,google却有无法避免的搜索到此站点之外的内容.于是就想如果有一个爬虫,可以抓取指定域名的某些感兴趣的内容,不是很好.在网上简单搜索了一下,简单的都不满意,功能强大的又太复杂,就想自己写一个.

python写的简单有效的爬虫代码

python写的简单有效的爬虫代码 by 伍雪颖 import re import urllib def getHtml(url): html = urllib.urlopen(url) scode = html.read() return scode def getImage(source): reg = r'src="(.*?\.jpg)"' imgre = re.compile(reg) images = re.findall(imgre,source) x = 0 for i

Node.js 网页瘸腿爬虫初体验

延续上一篇,想把自己博客的文档标题利用Node.js的request全提取出来,于是有了下面的初哥爬虫,水平有限,这只爬虫目前还有点瘸腿,请看官你指正了. // 内置http模块,提供了http服务器和客户端功能 var http=require("http"); // 内置文件处理模块 var fs=require('fs'); // 创建一个将流数据写入文件的WriteStream对象 var outstream=fs.createWriteStream('./1.txt'); /

基于Node.js的强大爬虫能直接发布抓取的文章哦

基于Node.js的强大爬虫能直接发布抓取的文章哦基于Node.js的强大爬虫能直接发布抓取的文章哦!本爬虫源码基于WTFPL协议,感兴趣的小伙伴们可以参考一下一.环境配置 1)搞一台服务器,什么linux都行,我用的是CentOS 6.5: 2)装个mysql数据库,5.5或5.6均可,图省事可以直接用lnmp或lamp来装,回头还能直接在浏览器看日志: 3)先安个node.js环境,我用的是0.12.7,更靠后的版本没试过: 4)执行npm -g install forever,安装f

python简单爬虫

爬虫真是一件有意思的事儿啊,之前写过爬虫,用的是urllib2.BeautifulSoup实现简单爬虫,scrapy也有实现过.最近想更好的学习爬虫,那么就尽可能的做记录吧.这篇博客就我今天的一个学习过程写写吧. 一正则表达式正则表达式是一个很强大的工具了,众多的语法规则,我在爬虫中常用的有: . 匹配任意字符(换行符除外) * 匹配前一个字符0或无限次 ? 匹配前一个字符0或1次 .* 贪心算法 .*? 非贪心算法 (.*?) 将匹配到的括号中的结果输出 \d 匹配数字 re.S 使得.