R语言csv与txt文本读入区分（sep参数）

R语言csv与txt文本读入区分

R语言用来处理数据很方便，而处理数据的第一步是把数据读入内存空间，平时最常用的文本数据储存格式有两种；

一种是CSV（逗号分隔符文本）另一种是TXT（Tab分隔符或空格分隔符），有时候读这两种文件格式读入容易混淆。

1，我们读入数据的时候，一般写文件名有两种方式：

（1）将储存数据的文件所在的目录设置为工作目录（setwd（“file path"）),读文件时只需要写文件名即可

1 setwd(‘C:/Data/mydata‘)
2 data <- read.table(‘cancer.txt‘, header=TURE)

（2）不设置工作目录，读入文件时使用完整路径（包括绝对路径和相对路径）

1 data <- read.table(‘C:/Data/mydata/cancer.txt‘, header=TURE)

（3）我个人偏爱第一种，因为设置好目录之后我很清楚地知道我当前是在哪个目录下；这并不意味这第二种就没有意义；

当我们一开始就在系统环境下切换到某个确切的目录下（DOS和Linux都使用cd命令），这种情况下使用第二种方法也同样

只要写文件名即可。总而言之，切换目录是必须的，区别在于你是交给系统（通过cd命令切换），setwd函数还是指定确切的路径来完成。

2，使用read.table函数读入

（1）读入txt文件

1 data <- read.table(‘cancer.txt‘, header=TRUE)

header=TRUE代表读入数据时将第一行作为列名（若是FALSE则相反，不使用文件中第一行作为列名），也可以简写问header=T(或是header=F)

不用指定sep参数，因为read.txt函数默认参数sep=‘\t‘。当然愿意的话你也可以指定，那样的话会显得有点多余

（2）读入csv文件

1 data <- read.txt(‘cancer.csv‘, header=TURE, sep=‘,‘)

必须指定sep=‘,‘不指定不会报错但是会出现你读入的数据只有一列的情况

3，使用read.csv函数读入

（1）读入txt文件

1 data <- read.csv(‘cancer.txt‘, header=TURE, sep=‘\t‘)

必须指定sep参数

（2）读入csv文件

1 data <- read.csv(‘cancer.csv‘, header=TURE)

不强制指定sep参数，因为默认sep=‘,‘

4，我推荐使用read.table函数读入txt文件，read.csv函数读入csv文件；可以少写几个字为啥不偷点懒呢？

原文地址：https://www.cnblogs.com/hanweiblog/p/9281854.html

时间： 2024-08-27 11:18:51

R语言csv与txt文本读入区分（sep参数）的相关文章

R语言做文本挖掘 Part3文本聚类

Part3文本聚类分类和聚类算法,都是数据挖掘中最常接触到的算法,分类聚类算法分别有很多种.可以看下下面两篇文章对常见的分类聚类算法的简介: 分类算法:http://blog.csdn.net/chl033/article/details/5204220 聚类算法:http://blog.chinaunix.net/uid-10289334-id-3758310.html 文本分类聚类会要用到这些算法去实现,暂时不用深究算法细节,R中已经有成熟的可以直接调用的这些算法了.大概说下分类和聚类的差

R语言--CSV文件

本文记录学习R语言之读取和写入CSV文件,因本人学习过程看的资料比较琐碎,包括WSCSchool等网站以及一些R语言的书籍(包括PDF文件),内容如有雷同,万望见谅.本人谨作记录学习工作路径一般我们会设置一个工作路径,方便我们在该路径读取和写入文件 setwd():设置当前工作路径 getwd():获取当前工作路径 # 设置工作路径,即R从该路径读取/保存文件 setwd("D://Test/R") # 获取当前工作路径 getwd() 原文地址:https://www.cnblo

R语言-文本挖掘主题模型文本分类

####需要先安装几个R包,如果有这些包,可省略安装包的步骤.#install.packages("Rwordseg")#install.packages("tm");#install.packages("wordcloud");#install.packages("topicmodels") 例子中所用数据数据来源于sougou实验室数据. 数据网址:http://download.labs.sogou.com/dl/so

R语言进行网站评论文本数据挖掘聚类

对于非结构化的网站中文评论信息,r的中文词频包可能是用来挖掘其潜在信息的好工具,要分析文本内容,最常见的分析方法是提取文本中的词语,并统计频率.频率能反映词语在文本中的重要性,一般越重要的词语,在文本中出现的次数就会越多.词语提取后,还可以做成词云,让词语的频率属性可视化,更加直观清晰. 比如对于如下的网站评论信息: 通过一系列的文本处理和高频词汇的提取,最后结合聚类,我们可以得到如下的可视化结果. 第一类客户: 第二类第三类这是根据某网站成交评论制作的可视化词云,词频的统计,分词和词云的制

R语言做文本挖掘 Part4文本分类

Part4文本分类 Part3文本聚类提到过.与聚类分类的简单差异. 那么,我们需要理清训练集的分类,有明白分类的文本:測试集,能够就用训练集来替代.预測集,就是未分类的文本.是分类方法最后的应用实现. 1. 数据准备训练集准备是一个非常繁琐的功能,临时没发现什么省力的办法,依据文本内容去手动整理.这里还是使用的某品牌的官微数据,依据微博内容.我将它微博的主要内容分为了:促销资讯(promotion).产品推介(product).公益信息(publicWelfare).生活鸡汤(l

R与数据分析学习总结之一：R语言基本操作

最近开始学习R语言,把学习笔记和小伙伴们分享一下吧,欢迎一起交流 R 起源: R是S语言的一种实现.S语言是由 AT&T贝尔实验室开发的一种用来进行数据探索.统计分析.作图的解释型语言.最初S语言的实现版本主要是S-PLUS.S-PLUS是一个商业软件,它基于S语言,并由MathSoft公司的统计科学部进一步完善.后来Auckland大学的Robert Gentleman 和 Ross Ihaka 及其他志愿人员开发了一个R系统.R的使用与S-PLUS有很多类似之处,两个软件有一定的兼容性.

第二章 R语言基础

二.操作基础 %%取余 %/%整数除法 (1)eigen(...)求解方阵的特征值和特征向量 (2)solve(D,A)求解DX=A (3)data<-list(...)取里面的对象data[["列名称"]]:data[[下标]]:data$列名称 (4)unlist(列表对象)把列表对象转化为向量对象 (5)names(数据框)读取并编辑列的名称 (6)数据框data 取里面的对象data[["列名称"]]:data[[下标]]:data$列名称;data[

R语言之Logic回归分析

理论上,回归分析是在目标变量为连续型数据的情况下建模的,它不能处理目标变量为分类型数据的情况. 而logic回归分析的思路是把分类变量(“是否开通VIP”)转化为连续变量(“开通VIP的概率”),进而使用回归分析的方法间接地研究分类分析的问题. 一.原理假设vip变量为分类变量,其取值只有0和1,这是分类型变量,无法通过回归分析建模. 但是,vip取值为1的概率却是一个连续型变量(prob.vip),可以使用回归分析为prob.vip建模: prob.vip=k1*x1+k2*x2+k3*x3

R语言︱文件读入、读出一些方法罗列（批量xlsx文件、数据库、文本txt、文件夹）

笔者寄语:小规模的读取数据的方法较为简单并且多样,但是,批量读取目前看到有以下几种方法:xlsx包.RODBC包.批量转化成csv后读入. R语言中还有一些其他较为普遍的读入,比如代码包,R文件,工作空间等. source #读取R代码dget #读取R文件load #读取工作空间 -------------------------------- SPSS-STATA格式的读入包--foreign 读取其他软件的格式foreigninstall.packages("foreign&