4.3单组数据的描述性统计分析
4.3.1单组数据的图形描述(直方图以及茎叶图和框须图)
程序包DAAG中有内嵌数据集“possum”,
它包括了从维多利亚南部到皇后区的七个地区的104只负鼠(possum)的年龄、尾巴的长度、总长 度等9个特征值,
我们仅考虑43只雌性负鼠的特征值,我们建立子集fpossum,考查雌性负鼠(fpossum)的总长度的频率分布.
直方图
library(DAAG)
data(possum)
fpossum <- possum[possum$sex=="f",]
par(mfrow=c(1,2))
attach(fpossum)
hist(totlngth,breaks=72.5+(0:5)*5,ylim=c(0,22), xlab="total length", main="A:Breaks at 72.5,77.5...")
hist(totlngth,breaks=75+(0:5)*5,ylim=c(0,22), xlab="total length", main="B:Breaks at 75,80...")
茎叶图
stem(fpossum$totlngth)
框须图,或称为盒形图
boxplot()的调用格式
boxplot(formula, data = NULL, subset,na.action = NULL)
说明:formula是指明盒形图的作图规则(y〜grp,表示数值变量y根据因子grp分类),data说明数据的来源.
library(DAAG)
data(possum)
fpossum<-possum[possum$sex=="f",]
boxplot(fpossum$totlngth)
4.3.2正态性检验
1)使用QQ图
qqnorm(fpossum$totlngth,main="Normality Check via QQ Plot")
qqline(fpossum$totlngth, col='red')
表明数据与正态性略有差异,特别在图形的中部.
2)与正态密度函数比较
dens<-density(totlngth)
xlim<-range(dens$x); ylim<-range(dens$y)
par(mfrow=c(1,2))
hist(totlngth,breaks=72.5+(0:5)*5,xlim=xlim,ylim=ylim, probability=T, xlab="total length", main="A:Breaks at 72.5,77.5...")
lines(dens, col=par('fg'),lty=2)
m<-mean(totlngth)
s<-sd(totlngth)
curve(dnorm(x, m,s), col='red', add=T)
hist(totlngth,breaks=75+(0:5)*5,xlim=xlim,ylim=ylim, probability=T, xlab="total length", main="B:Breaks at 75,80...")
lines(dens,col=par('fg'),lty=2)
m<-mean(totlngth)
s<-sd(totlngth)
curve(dnorm(x, m,s),col='red',add=T)
3)使用经验分布函数
x<-sort(totlngth)
n<-length(x)
y<-(1:n)/n
m<-mean(totlngth)
s<-sd(totlngth)
plot(x,y,type='s',main="empirical cdf of ")
curve(pnorm(x,m,s),colored',lwd=2, add=T)