R语言读写中文编码方式

最近遇到一个很头疼的事,就是 R语言读写中文编码方式。在网上找到了一篇博文,谢谢博主的精彩分享,让我很快解决了问题,在此也分享一下

R语言读写数据的方法很多,这里主要是我在使用read.csv/read.table和write.csv/write.table时遇到的一些中文格式编码的问题。常见的中文编码方式两种:GBK(GB2312)和UTF-8。

    Windows系统下:

read.csv()和read.table()方法不指定文件格式时,默认读取的文件是GBK格式。Rstudio里面有设置默认文本编码方式,但是修改前后读入中文数据情况都一样。

   Linux(我使用的Redhat)系统下:

系统指定中文编码方式是UTF-8,所以read.csv()和read.table()都要求UTF-8。

如下两个文件,分别是UTF-8格式和GBK格式,首先用read.csv读取,可以看到不指定编码方式时,读取UTF-8格式文件是乱码。用encoding指定读取的文件编码方式为UTF-8后,正常。这样看起来read.csv()方法读取UTF-8好像可行?

那么我们再来看一个例子,相同的数据,只是最后多增加一列中文。同样,上面三种方式,读取UTF-8的时候问题直接变成了读取出错,“列的数目比列的名字要多”,并且制定编码方式为UTF-8也无法拯救你了。为什么会这样呢?

提示意思是,列名少了,那就去掉表头header=F就行了,结果如下,还是乱码,并且原本四列数据读进来后变成了七列。虽然指定encoding为UTF-8后没有了乱码,但是读取时行之间会错乱。但是用fileEncoding就没有问题了!

上述,总结而言,使用read.csv()时,有中文的话,请务必保证你的文件是GBK编码格式的。或者用fileEncoding来指定编码格式,不要用encoding!

用同样的数据来看read.table方法,只是需要多指定一个sep=”,”。同样,指定encoding无效,指定fileEncoding有效。

跟read.csv一样的问题,并且,这里header=F也可行。read.table比read.csv更严格,要求行都有相同的长度,不会自动填充NA。

write.csv/write.table方法可以使用,可以使用fileEncoding来指定输出文件的编码方式,如下,只要你的系统能识别这种方式就OK。

其实啰啰嗦嗦了这么久,总结而言就一句话read.csv/read.table尽量读入文件GBK格式(Win下),或者UTF-8格式(Linux下),不是的话,用fileEncoding指定编码格式,不要用encoding。

转载于:http://blog.csdn.net/cl1143015961/article/details/46453495

时间: 2024-10-09 21:56:58

R语言读写中文编码方式的相关文章

R语言两种方式求指定日期所在月的天数

             R语言两种方式求指定日期所在月的天数 days_monthday<-function(date){ m<-format(date,format="%m") days31<-c("01","03","05","07","08","10","12") days30<-c("04",&

R语言基于S4的面向对象编程

前言 本文接上一篇文章 R语言基于S3的面向对象编程,本文继续介绍R语言基于S4的面向对象编程. S4对象系统具有明显的结构化特征,更适合面向对象的程序设计.Bioconductor社区,以S4对象系统做为基础架构,只接受符合S4定义的R包. 目录 S4对象介绍 创建S4对象 访问对象的属性 S4的泛型函数 查看S4对象的函数 S4对象的使用 1 S4对象介绍 S4对象系统是一种标准的R语言面向对象实现方式,S4对象有明确的类定义,参数定义,参数检查,继承关系,实例化等的面向对象系统的特征. 2

皮尔森相似度计算举例(R语言)

整理了一下最近对协同过滤推荐算法中的皮尔森相似度计算,顺带学习了下R语言的简单使用,也复习了概率统计知识. 一.概率论和统计学概念复习 1)期望值(Expected Value) 因为这里每个数都是等概率的,所以就当做是数组或向量中所有元素的平均数吧.可以使用R语言中函数mean(). 2)方差(Variance) 方差分为population variance总体方差和sample variance样本方差,区别是总体方差除以N,样本方差除以N-1. 数理统计中常用样本方差,R语言的var()

在 SPSS Statistics 和 Modeler 中调用 R 语言的实现和应用

http://www.ibm.com/developerworks/cn/data/library/ba/ba-1401spss-r/index.html 登录 | 注册   IBM 技术主题 软件下载 社区 技术讲座 搜索 developerWorks 打印本页面 用电子邮件发送本页面 新浪微博 人人网 腾讯微博 搜狐微博 网易微博 Digg Facebook Twitter Delicious Linked In developerWorks 中国 技术主题 Information Mana

比较分析C++、Java、Python、R语言的面向对象特征,这些特征如何实现的?有什么相同点?

一门课的课后题答案,在这里备份一下: 面向对象程序设计语言 –  比较分析C++.Java.Python.R语言的面向对象特征,这些特征如何实现的?有什么相同点? C++ 语言的面向对象特征: 对象模型:封装 (1)  访问控制机制: C++提供完善的访问控制机制,分别是: public,protected和private. private, public, protected 访问标号的访问范围 public 可访问 1.该类中的函数 : 2.子类的函数: 3.其友元函数访问:4.该类的对象访

R语言使用RMySQL连接及读写Mysql数据库 测试通过

R语言使用RMySQL连接及读写Mysql数据库 简单说下安装过程,一般不会有问题,重点是RMySQL的使用方式. 系统环境说明 Redhat系统:Linux 460-42.6.32-431.29.2.el6.x86_64 系统编码:LANG=zh_CN.UTF-8(中文UTF-8格式) MySQL版本:mysql  Ver 14.14 Distrib 5.1.73, forredhat-linux-gnu (x86_64) using readline 5.1   安装mysql 1.    

关于安装R语言的Rattle报错问题的解决方式

安装R语言的相关内容就不再赘述. 安装Rstudio的地址:https://www.rstudio.com/products/rstudio/download/ 安装rattle,执行的时候 library(rattle)没有问题,但是直接rattle()后没有跳出框,提示报错信息为: Error in method(obj, ...) : Invalid root element: 'requires' 或者压根没有报错信息,这个主要是RGtk2的问题,需要更换一下版本为2.20.31,更换方

R语言中判断是否是整数。以及读写excel

今天接手一个重复性工作, 需要手工把产品运营们在excel里写的活动规则, 插入数据库表中.为了减少出错, 提高效率. 再加上最近刚刚学R语言, 就用R练练手, 自动生成mysql的sql语句. 一次性提交. 刚才就是判断一个值是否是整数折腾了一小会儿.后来发现R判断这个很简单. 就是as.integer(money) != as.numeric(money) require("XLConnect")library("WriteXLS")wb <-loadWo

windows修改PowerShell(命令提示符)默认中文编码方式

目的:由于编程的时候经常会用到其他编码,但是使用chcp命令只能修改当前的中文编码方式 chcp命令 chcp chcp 65001 修改注册表方式 win+R regedit 找到注册表位置:[HKEY_CURRENT_USER\Console\CodePage] 附编码表 代码页 国家(地区)或语言 437 美国 708 阿拉伯文(ASMO 708) 720 阿拉伯文(DOS) 850 多语言(拉丁文 I) 852 中欧(DOS) - 斯拉夫语(拉丁文 II) 855 西里尔文(俄语) 85