nodejs单页面爬虫(二)--解决编码问题

上次写的爬虫虽然数据爬下来了,但是有乱码问题。查了相关的书之后,找到解决办法。重新写了一下,好像比之前更简洁了。

解决办法是:引入iconv-lite模块,用来转换编码的网页内容。

这次跟着书上用了request模块,而不是用原来的http模块。

var request = require(‘request‘);
var cheerio = require(‘cheerio‘);
var iconv = require(‘iconv-lite‘);

//博客标题
request({
	url:‘http://qmkkd.blog.51cto.com/‘,
	encoding:null
	},function(err,res,body){

	if(err) return console.log(err);

	body = iconv.decode(body,‘gbk‘);

	//根据网页内容创建DOM操作对象
	var $ = cheerio.load(body);

	//读取博文类别列表
	var bloglist = [];
	$(‘.blogList .artHead h3 a‘).each(function(){
		var $me = $(this);
		var name = $me.text().trim();
		bloglist.push(name);
	});

	//输出结果
	console.log(bloglist);
});

结果如下:

时间: 2024-11-09 09:54:32

nodejs单页面爬虫(二)--解决编码问题的相关文章

Node.js实现单页面爬虫

在imooc网上跟着老师写了两个爬虫,一个最简单的直接爬整个页面,一个完善版把章节标题和对应编号打出来了. 看完之后,自己也想写一个爬虫,用自己的博客做测试,虽然结果并没有很成功- -,还是把代码放上来. 目标是抓取章节的标题. 博客页面: 对应标签: 页面源代码: 经过分析,我们应该要抓取class=artHead的<div>,往下还有一个没有类的<div>,然后找到它的<h3>标签下子标签<a>的内容,就是章节的名字. 上代码: //引入http模块 v

我的第一个的python抓取 单页面爬虫

爬取豆瓣推荐书籍页的图书的图片保存到本地 # -*- coding UTF-8 -*- import re import requests import os def getsite(url): website=requests.get(url) url="https://book.douban.com/tag/%E7%BC%96%E7%A8%8B" website=requests.get(url) links=re.findall("(https:\/\/img3.dou

记 history.replaceState方法一次应用 解决单页面应用刷新切换页面问题

恩,以前就知道history api 新加了几个方法但是没怎么研究过,今天碰到了一个小问题,用history完美解决了,很兴奋,记录下 首先说下我遇到的问题场景: 现在有两个页面 A,B A页面时提交信息页面 B页面是结果页 并且 A,B 页面是同一个html文件内用 js 模板 动态渲染的, 那么当结果页面动态渲染出来以后,每次刷新就会显示A页面,其实,我更想显示B页面对吧,肯定不想让用户再次提交一次,而且大多数情况下我其实并不希望用户直接进入提交信息页面的,因为如果是支付的话,会造成二次支付

sharepoint 2013基于AD的Form表单登录(二)——form登录页面自定义

配置好了sharepoint 2013基于AD的Form登录,只是成功了第一步,如何自定义登录页呢?特别是不要出现sharepoint2013自带登录页面,每次登录前还需要选择是否是form或者windows验证. 打开vs2012新建sharepoint 2013 project,在layouts目录下添加application page,页面命名为CustomLogin.aspx. 前台页面:为避免母版页中其他控件影响,注意继承的是simple.master         后台页面:继承F

fullpage在vue单页面当中使用会出现的问题以及解决办法

在 vue 单页面当中发现fullpage会报错,报错信息大概意思为,fullpage不允许初始化多次. 解决办法,在使用fullpage的组件跳转路由进入销毁组件之前的生命周期的时候对fullpage也进行销毁,这样就可以重新初始化一个fullpage组件了. $.fn.fullpage.destroy('all'); 在beforeDestroy这个生命周期执行,就可以了

AngularJS进阶(二十五)requirejs + angular + angular-route 浅谈HTML5单页面架构

requirejs + angular + angular-route 浅谈HTML5单页面架构 众所周知,现在移动Webapp越来越多,例如天猫.京东.国美这些都是很好的例子.而在Webapp中,又要数单页面架构体验最好,更像原生app.简单来说,单页面App不需要频繁切换网页,可以局部刷新,整个加载流畅度会好很多. 废话就不多说了,直接到正题吧,浅谈一下我自己理解的几种单页面架构: 1.requirejs+angular+angular-route(+zepto) 最后这个zepto可有可无

ASP页面显示乱码解决方法/ASP设置编码

ASP页面显示乱码解决方法/ASP设置编码(转) 如果你发现浏览页面的时候出现乱码.你可以尝试一下步骤: 确保你页面本身编码格式正确:例如test.asp中使用charset=utf-8,那么请先确保这个文件本身就是Utf-8编码的.你可以利用记事本 进行转换.同样如果使用charset=GBK,请先确保这个文件本身就是GBK编码的. 确认你得到的原数据(例如从数据库中得到的数据)编码方式与页面编码方式一至. 尝试指定IIS按什么编码读取. <%@ codepage=65001%>UTF-8

浅谈HTML5单页面架构(二)——backbone + requirejs + zepto + underscore

本文转载自:http://www.cnblogs.com/kenkofox/p/4648472.html 上一篇<浅谈HTML5单页面架构(一)——requirejs + angular + angular-route>探讨了angular+requirejs的一个简单架构,这一篇继续来看看backbone如何跟requirejs结合. 相同地,项目架构好与坏不是说用了多少牛逼的框架,而是怎么合理利用框架,让项目开发更流畅,代码更容易管理.那么带着这个目的,我们来继续探讨backbone. 首

Vue爬坑之旅(二):vue单页面二级套嵌路由

在一个单页面应用里使用二级套嵌路由 目录结构如下: 其中main.js为全局配置文件,App.vue为项目入口. main.js中路由配置如下 import Vue from 'vue'//引入vue import App from './App'//引入主模板 import Router from 'vue-router'// 引入router路由 // 引入项目的模块组件 import licai from './components/licai' import home from './c