有趣的Node爬虫，数据导出成Excel

　　最近一直没更新了诶，因为学习Backbone好头痛，别问我为什么不继续AngularJs~因为2.0要出来了啊，妈蛋！好，言归正传，最近帮我的好基友扒数据，他说要一些股票债券的数据。我一听，那不就是要做爬虫了么...果断用Node做！（其实也有一个股票数据API，sina提供的，但是由于不适用于债券，没办法，只好自己动手丰衣足食了）

　　工欲善其事，必先利其器嘛，蓬勃的Node社区提供了非常多的好的工具，下面我列出将要使用的工具：

request，封装了Node的原生的http模块，使API更加简洁明了。
cheerio，简化的jQuery库，可以让你操作DOM事半功倍。
node-xlsx，Node平台上非常好用的读写xlsx的插件。
fs，Node自带的文件操作的模块

　　这次，因为是一个入门教程，涉及到的东西当然也就不多。比如对时间格式化的moment插件，还有对傻（哔！）的GBK和gb2312编码解码的插件iconv-lite，这些都是非常好的东西，可以帮助大家更快更舒服的构建自己所需要的东西。所以就要求如何更快的学习阅读API。（当然英文要好啊擦！）

　　首先就是通过npm加载node_modules，你可以一个个加载(npm install request)，也可以在npm的package.json里的dependencies一次性npm install加载。相信大家都已经耳熟能详啦，就不再赘述啦！（不知道的赶紧去补啊擦）

　　然后我们的爬虫之旅就开始了，首先，当然就是各种require。

　　然后指定一个URL，供request去发送请求。就像下面一样，这是一个异步的函数，回调函数的三个参数当然很好理解啦。

　　重点是在body上，body是将整个url的html文档解析并存入body中。如果用http.on("data")，可麻烦啦。这下可好，已经帮你封装妥当。当我们有一个DOM文档，最想干的事情当然就是，操作DOM啊！这时cheerio就派上场了，它可以像jQuery一般操作文档。我们来看一下，怎么做的。

　　是不是十分的简单易懂呢，之后我们就可以对body尽情的揉捏了。通过jQuery的选择器，获取特定的DOM上的值，然后保存起来。最后来说一说，如何将保存后的值，转化成一个Excel表格，也就是xlsx格式的文件。

　　node-xlsx是通过操作一个数组，然后数组里面通过不同的对象来指定Excel的sheets，然后对象里面有各种属性，如data属性和name属性，一个是放数据的，一个是指定sheets的名称的，若不填则默认为Sheet。若存在多个同名Sheet，则会使用后一个，所以name属性，没事就加上吧~。data属性是精华，通过二维数组来确定行列。光说无益，来看一下代码。

　　当把数据准备妥当后，便是通过fs模块的 writeFileSync 写入文件，参数分别为（文件名，文件数据，options选项）。最后node一执行，就可以导出文件了。可以查看一下成果。

　　嗯，妥妥的！

　　当然国内大部分坑爹的gb2312，就没那么简单咯。这里留个坑~~因为我在buffer这一块，也没弄懂~~。

时间： 2024-10-29 22:38:44

有趣的Node爬虫，数据导出成Excel

有趣的Node爬虫，数据导出成Excel的相关文章

C# 泛型List对象数据导出成 EXCEL数据表

SQL大圣之路笔记——把数据库中表里的数据导出成Excel（Copy时，会因分隔符问题导致许多数据存放在一个单元格中）

java数据导出成EXCEL

c# 数据导出成excel 方法总结见标红部分

java数据导出成Excel文件

php将数据库导出成excel的方法

将数据库的数据导出到excel中

GridView导出成Excel字符"0"丢失／数字丢失的处理方式收藏

mysql将查询到的数据导出为excel