现在的位置: 首页 > 综合 > 正文

数学之路(2)-数据分析-R基础(12)

2014年03月05日 ⁄ 综合 ⁄ 共 1397字 ⁄ 字号 评论关闭

本博客所有内容是原创,未经书面许可,严禁任何形式的转载。

http://blog.csdn.net/u010255642

有序因子

> ordered(nums)

 [1] 11 22 34 71 14 68 21 22 11 34

Levels: 11 < 14 < 21 < 22 < 34 < 68 < 71

3、函数tapply进行分类(组)统计

对每个分组应用函数

> fruit_class<-c("苹果","梨子","桔子","草梅","苹果","桔子","桔子","草梅","桔子","草梅")

> fruit_prices<-c(3.5,2.5,1.5,5.5,4.2,3.2,2.8,4.8,2.9,5.8)

求平均价格

> tapply(fruit_prices,fruit_class,mean)

    草梅     桔子     梨子     苹果 

5.366667 2.600000 2.500000 3.850000 

ax)

求最低价格

> tapply(fruit_prices,fruit_class,min)

草梅 桔子 梨子 苹果 

 4.8  1.5  2.5  3.5 

求最高价格

ax)

草梅 桔子 梨子 苹果 

 5.8  3.2  2.5  4.2 

求方差

ar)

     草梅      桔子      梨子      苹果 

0.2633333 0.5666667        NA 0.2450000 

求标准差

> tapply(fruit_prices,fruit_class,sd)

     草梅      桔子      梨子      苹果 

0.5131601 0.7527727        NA 0.4949747 

求标准识,标准误即样本均数的标准差,是描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度,反映的是样本均数之间的变异。标准误不是标准差,是样本均值的标准差,用来衡量抽样误差。

标准误越小,表明样本统计量与总体参数的值越接近,样本对总体越有代表性,用样本统计量推断总体参数的可靠度越大,即使从同一总体用同样方法随机抽取例数相同的一些样本,各样本算得的某种指标,也参差不齐存在一定的差异,样本指标与相应的总体指标之间有或多或少的相差,这种差异,即由于抽样而带来的样本与总体间的误差,叫抽样误差。  

S为样本标准差

> stderr <- function(x)  sqrt(var(x)/length(x))

> tapply(fruit_prices,fruit_class,stderr)

     草梅      桔子      梨子      苹果 

0.2962731 0.3763863        NA 0.3500000 

3、数组与矩阵 

R提供了简单的工具处理数组以及矩阵。

1)数组

维数向量是元素都非负的向量,指示数组或矩阵的维数

矩阵的维数是2

>  dim(my_num)<-c(2,5)

> my_num

     [,1] [,2] [,3] [,4] [,5]

[1,]   11   34   14   21   11

[2,]   22   71   68   22   34

数组的维数是1

>  dim(my_num)<-c(10)

> my_num

 [1] 11 22 34 71 14 68 21 22 11 34

抱歉!评论已关闭.