R语言重要数据集分析研究——  数据集本身的分析技巧

数据集本身的分析技巧

          作者:王立敏

          文章来源:网络

1.数据集

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。

Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。

2.数据分析

数据结构

创建向量和矩阵

函数c(), length(), mode(), rbind(), cbind()

求平均值,和,连乘,最值,方差,标准

函数mean(), sum(), min(), max(), var(), sd(), prod()

帮助

函数help()

生成向量

seq()

生成字母序列letters

新建向量

Which()函数,rev()函数,sort()函数

生成矩阵

函数matrix()

矩阵运算

函数t(),矩阵加减

矩阵运算

矩阵相乘,函数diag()

矩阵求逆,函数rnorm(),solve()

解线性方程组

函数solve(a,b)

3.怎样创建数据集

数据集通常是由数据构成的一个矩形数组,行表示观测,列表示变量。

R中有许多用于存储数据的结构,包括标量、向量、数组、数据框和列表。

在R中,对象(object)是指可以赋值给变量的任何事物,包括常量、数据结构、函数、甚至是图形。因子(factor)是名义型变量或有序型变量,在R中被特殊地存储和处理。

R中的数据结构

4.分析技巧

首先分析文本内容,格式思考如何抽取,文件有三种类型answer,comment,vote,因此在开始的时候根据前面几个字符先判断文件类型。

接着根据需求构造对象和方法,并构造对象list来储存抽取出来的信息。

具体的抽取方法是用户split字符将文本划分为数组,然后用相同的方法再继续划分直到获得所需的关键字并将其存入split中

获取的得到的所有作者和姓名的答案数量,回复数量,并保存结果,若有相同作者,根据回复是否为空来判断答案或者回复并计数

最后结果存入新的list中,格式,作者,姓名和答案数量回复数量,最后构造comparator来比较器来排序,根据写作数量升序,若相同按照答案排序,以及统计总量。答案总数,回复总数。

求取平均每个作者写的答案数量和回复数。要注意的是结果用小数表示。

时间: 2024-10-06 20:34:17

R语言重要数据集分析研究——  数据集本身的分析技巧的相关文章

R语言和数据分析十大:购物篮分析

提到数据挖掘,我们的第一个反应是之前的啤酒和尿布的故事听说过,这个故事是一个典型的数据挖掘关联规则.篮分析的传统线性回归之间的主要差别的差别,对于离散数据的相关性分析: 常见的关联规则: 关联规则:牛奶=>卵子[支撑=2%,置信度=60%] 支持度:分析中的所有事务的2%同一时候购买了牛奶和鸡蛋,需设定域值,来限定规则的产生. 置信度:购买了牛奶的筒子有60%也购买了鸡蛋,需设定域值,来限定规则的产生. 最小支持度阈值和最小置信度阈值:由挖掘者或领域专家设定. 与关联分析相关的专业术语包含: 项

R语言与数据分析之十:购物篮分析

提到数据挖掘,我们第一反应就是之前听到的啤酒和尿不湿的故事,该故事就是典型的数据挖掘中的关联规则.购物篮分析区别于传统的线性回归的主要区别为,关联分析针对离散数据: 常见关联规则: 关联规则:牛奶=>鸡蛋[支持度=2%,置信度=60%] 支持度:分析中的全部事务的2%同时购买了牛奶和鸡蛋,需设定域值,来限定规则的产生: 置信度:购买了牛奶的筒子有60%也购买了鸡蛋,需设定域值,来限定规则的产生: 最小支持度阈值和最小置信度阈值:由挖掘者或领域专家设定. 与关联分析相关的专业术语包括: 项集:项(

R语言实战(五)方差分析与功效分析

本文对应<R语言实战>第9章:方差分析:第10章:功效分析 ==================================================================== 方差分析: 回归分析是通过量化的预测变量来预测量化的响应变量,而解释变量里含有名义型或有序型因子变量时,我们关注的重点通常会从预测转向组别差异的分析,这种分析方法就是方差分析(ANOVA).因变量不只一个时,称为多元方差分析(MANOVA).有协变量时,称为协方差分析(ANCOVA)或多元协方差分析

R语言对推特数据进行文本情感分析

美国调查公司盖洛普公司(Gallup poll found)民调显示,至少51%美国人不赞同总统特朗普的政策.据外媒报道,特朗普上任8天以来引发51%美国人的不满,42%美国人赞同新总统的政策.该项调查共有1500名成年美国人,误差为3%. 为了验证美国民众的不满情绪,我们以R语言抓取的特朗普推特数据为例,对数据进行文本挖掘,进一步进行情感分析,从而得到很多有趣的信息. 找到推特来源是苹果手机或者安卓手机的样本,清理掉其他来源的样本 tweets <-trump_tweets_df>%sele

R语言-Kindle特价书爬榜示例 &amp; 输出HTML小技巧

自从买了kindle以后,总是想要定期刷有没有便宜的书,amazon经常有些1元/2元的书打特价,但是每次都去刷那些榜单太麻烦了,而且榜单又不能按照价格排名,捞书有点累 所以自己用R语言的rvest包简单写了一个小程序,让它自动按照不同价格区间把特价书给分出来. 主要看的是kindle新品排行榜和最快畅销榜. 销售爬升最快榜: http://www.amazon.cn/gp/movers-and-shakers/digital-text/ 新品榜: http://www.amazon.cn/gp

R语言-Kindle特价书爬榜示例 &amp; 输出HTML小技巧(转)

自从买了kindle以后,总是想要定期刷有没有便宜的书,amazon经常有些1元/2元的书打特价,但是每次都去刷那些榜单太麻烦了,而且榜单又不能按照价格排名,捞书有点累 所以自己用R语言的rvest包简单写了一个小程序,让它自动按照不同价格区间把特价书给分出来. 主要看的是kindle新品排行榜和最快畅销榜. 销售爬升最快榜: http://www.amazon.cn/gp/movers-and-shakers/digital-text/ 新品榜: http://www.amazon.cn/gp

R语言解决最优化运营研究问题-线性优化(LP)问题

使用R中的线性编程工具来解决优化问题. 优化通常用于运营研究领域,以解决生产计划,运输网络设计,仓库位置分配和调度等问题,我们尝试最大化或最小化具有决策变量和约束数量的线性函数. 在这里,我使用了我的一个咨询项目,帮助我们的投资组合公司选择一个无线供应商,其中包含可以满足所有要求(总线数和汇总数据量)的数据计划组合,同时花费最少的金钱. 这种优化通常可以在Excel求解器中解决.但是,由于我有20个投资组合公司有2个提供商和2个方案进行分析,要在Excel中完成,我将不得不运行80次.使用R会容

R语言︱决策树族——随机森林算法

笔者寄语:有一篇<有监督学习选择深度学习还是随机森林或支持向量机?>(作者Bio:SebastianRaschka)中提到,在日常机器学习工作或学习中,当我们遇到有监督学习相关问题时,不妨考虑下先用简单的假设空间(简单模型集合),例如线性模型逻辑回归.若效果不好,也即并没达到你的预期或评判效果基准时,再进行下换其他更复杂模型来实验. ---------------------------------------------- 一.随机森林理论介绍 1.1 优缺点 优点. (1)不必担心过度拟合

R语言多元分析系列

R语言多元分析系列之一:主成分分析 主成分分析(principal components analysis, PCA)是一种分析.简化数据集的技术.它把原始数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推.主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征.这是通过保留低阶主成分,忽略高阶主成分做到的.这样低阶成分往往能够保留住数据的最重要方面.但是在处理观测数目小于变量数目时无法发挥