数学之路(2)-数据分析-R基础(12)

现在的位置: 首页 > 综合 > 正文

RSS

数学之路(2)-数据分析-R基础(12)

2014年03月05日 ⁄ 综合 ⁄ 共 1397字 ⁄ 字号小中大 ⁄ 评论关闭

本博客所有内容是原创，未经书面许可，严禁任何形式的转载。

http://blog.csdn.net/u010255642

有序因子

> ordered(nums)

[1] 11 22 34 71 14 68 21 22 11 34

Levels: 11 < 14 < 21 < 22 < 34 < 68 < 71

3、函数tapply进行分类（组）统计

对每个分组应用函数

> fruit_class<-c("苹果","梨子","桔子","草梅","苹果","桔子","桔子","草梅","桔子","草梅")

> fruit_prices<-c(3.5,2.5,1.5,5.5,4.2,3.2,2.8,4.8,2.9,5.8)

求平均价格

> tapply(fruit_prices,fruit_class,mean)

草梅桔子梨子苹果

5.366667 2.600000 2.500000 3.850000

ax)

求最低价格

> tapply(fruit_prices,fruit_class,min)

草梅桔子梨子苹果

4.8 1.5 2.5 3.5

求最高价格

ax)

草梅桔子梨子苹果

5.8 3.2 2.5 4.2

求方差

ar)

草梅桔子梨子苹果

0.2633333 0.5666667 NA 0.2450000

求标准差

> tapply(fruit_prices,fruit_class,sd)

草梅桔子梨子苹果

0.5131601 0.7527727 NA 0.4949747

求标准识，标准误即样本均数的标准差，是描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度，反映的是样本均数之间的变异。标准误不是标准差，是样本均值的标准差，用来衡量抽样误差。

标准误越小，表明样本统计量与总体参数的值越接近，样本对总体越有代表性，用样本统计量推断总体参数的可靠度越大，即使从同一总体用同样方法随机抽取例数相同的一些样本，各样本算得的某种指标，也参差不齐存在一定的差异，样本指标与相应的总体指标之间有或多或少的相差，这种差异，即由于抽样而带来的样本与总体间的误差，叫抽样误差。

S为样本标准差

> stderr <- function(x) sqrt(var(x)/length(x))

> tapply(fruit_prices,fruit_class,stderr)

草梅桔子梨子苹果

0.2962731 0.3763863 NA 0.3500000

3、数组与矩阵

R提供了简单的工具处理数组以及矩阵。

1)数组

维数向量是元素都非负的向量，指示数组或矩阵的维数

矩阵的维数是2维

> dim(my_num)<-c(2,5)

> my_num

[,1] [,2] [,3] [,4] [,5]

[1,] 11 34 14 21 11

[2,] 22 71 68 22 34

数组的维数是1维

> dim(my_num)<-c(10)

> my_num

[1] 11 22 34 71 14 68 21 22 11 34

【上篇】PHP面向对象编程
【下篇】2013年终学习总结

作者: winding520

该日志由 winding520 于10年前发表在综合分类下，最后更新于 2014年03月05日.
转载请注明: 数学之路(2)-数据分析-R基础(12) | 学步园 +复制链接

抱歉!评论已关闭.

学步园