统计211

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 66275|回复: 0
打印 上一主题 下一主题

Stata教程:描述性统计命令与输出结果说明

[复制链接]
跳转到指定楼层
1
发表于 2011-6-28 22:15:45 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
  本节STATA 命令摘要
  by
  分组变量:]summarize变量名1 变量名2 …
  变量名m[,detail]
  ci变量名1 变量名2 …
  变量名m [,level(#)binomial
  poissonexposure(varname)by(分组变量) ]
  cii
  样本量
  均数
  标准差[,level(#)]
  tab1变量名[,generate(变量名)]
  ·
  资料特征描述(均数,中位数,离散程度)
  例:某地测定克山病患者与克山病健康人的血磷测定值如下表(数据摘自四川医学院主编的卫生统计学,1978出版,p21):
  患者
  2.6
  3.24
  3.73
  3.73
  4.32
  4.73
  5.18
  5.58
  5.78
  6.40
  6.53
  健康人
  1.67
  1.98
  1.98
  2.33
  2.34
  2.50
  3.60
  3.73
  4.14
  4.17
  4.57
  4.82
  5.78
  并假定这些数据已以STATA格式存入ex2.dta文件中,其中 变量x1 为患者的血磷测定值数据,变量x2为 健康人的血磷测定值数据。上述数据也可以用变量x表示血磷测定值,分组变量group=0 表示患者组和group=1表示健康组(如:患者组中第一个数据为2.6,则x=2.6,group=0;又如:健康组中第三个数据为1.98,则x为1.98以及group为1),并假定这些数据已以STATA格式存入ex2a.dta文件中。
  计算 资料 均数,标准差命令summarize,以述资料为例:
  useex2,clear
  summarizex1 x2
  结果:
  变量
  样本数
  均数
  标准差
  最小值
  最大值
  Variable|
  Obs
  Mean
  Std.Dev.
  Min
  Max
  ---------+
  x1|
  11
  4.710909
  1.302977
  2.6
  6.53
  x2|
  13
  3.354615
  1.304368
  1.67
  5.78
  即:本例中急性克山病患者组的样本数为11,血磷测定值均数为4.711(mg%), 相应的标准差为1.303,最小值为2.6以及最大值为6.53;健康组的样本量为13,血磷测定值均数为3.3546,相应的标准差为1.3044,最小值为1.67以及最大值为5.78。
  计算 资料 均数,标准差,中位数,低四分位数和高四分位数的 命令summarize以及子命令detail, 仍以述资料为例:
  use ex2,clear
  summarizex1x2,detail
  结果:
  x1
  Percentiles
  Smallest(最小值)
  1%
  2.6
  2.6
  5%
  2.6
  3.24
  10%
  3.24
  3.73
  Obs
  11(样本数)
  25%
  3.73(低四分位) 3.73
  SumofWgt.
  11
  50%
  4.73(中位数)
  (最大值)
  Mean
  4.710909(均数)
  Largest
  Std.Dev.
  1.302977(标准差)
  75%
  5.78(高四分位)
  5.58
  90%
  6.4
  5.78
  Variance
  1.697749(方差)
  95%
  6.53
  6.4
  Skewness
  -.0813446(偏度)
  99%
  6.53
  6.53
  Kurtosis
  1.809951(峰度)
  x2
  ④
  Percentiles
  Smallest
  1%
  1.67
  1.67
  5%
  1.67
  1.98
  10%
  1.98
  1.98
  Obs
  13
  25%
  ① 2.33
  2.33
  SumofWgt.
  13
  50%
  ② 3.6
  Mean
  3.354615
  ⑤
  ⑥
  Largest
  Std.Dev.
  1.304368
  75%③
  4.17
  4.17
  90%
  4.82
  4.57
  ⑥Variance
  1.701377
  95%
  5.78
  4.82
  ⑦Skewness
  .2963943
  99%
  5.78
  5.78
  ⑧Kurtosis
  1.875392
  由上述结果可知:summarize命令并使用子命令detail, 不仅可以得到各变量资料的均数和⑥标准差,而且可以得到主要的非参数描述指标:①低四分位(lowerquartile),②中位数(Median)以及③高四分位(upperquartile)。对于非正态资料,一般不应用均数±标准差进行描述,而应使用中位数 以及(低四分位-高四分位,称 interquartilerange,IQR)进行描述。如:若本资料不正态[1],则x1的Median以及IQR为: 4.73(3.73-5.78)以及 x2的Median以及IQR为:3.6(2.33-4.17)。⑥为样本方差;⑦为偏度,偏度 的绝对值越小,表明该数据的正态对称性越好;⑧峰度,峰度值越大表明该数据的正态峰越明显;④在该数据中最小的四个数据;⑤在该数据中最大的四个数据。
  若调用ex2a.dta 文件,进行描述性统计,可用下列命令:
  use ex2a,clear
  sortgroup (将资料以 group 变量为例从小到大排序)
  bygroup:summarizex
  结果:
  ->group=
  0
  x
  Percentiles
  Smallest
  1%
  2.6
  2.6
  5%
  2.6
  3.24
  10%
  3.24
  3.73
  Obs
  11
  25%
  3.73
  3.73
  SumofWgt.
  11
  50%
  4.73
  Mean
  4.710909
  Largest
  Std.Dev.
  1.302977
  75%
  5.78
  5.58
  90%
  6.4
  5.78
  Variance
  1.697749
  95%
  6.53
  6.4
  Skewness
  -.0813446
  99%
  6.53
  6.53
  Kurtosis
  1.809951
  ->group=
  1
  x
  Percentiles
  Smallest
  1%
  1.67
  1.67
  5%
  1.67
  1.98
  10%
  1.98
  1.98
  Obs
  13
  25%
  2.33
  2.33
  SumofWgt.
  13
  50%
  3.6
  Mean
  3.354615
  Largest
  Std.Dev.
  1.304368
  75%
  4.17
  4.17
  90%
  4.82
  4.57
  Variance
  1.701377
  95%
  5.78
  4.82
  Skewness
  .2963943
  99%
  5.78
  5.78
  Kurtosis
  1.875392
  上述结果与前面的结果对应相同。
  ·
  根据样本数据计算可信限[2]
  95% 可信限计算:
  正态数据:ci
  变量名
  0-1数据:ci
  变量名, binomial
  poisson分布数据:ci 变量名,poisson
  90% 可信限计算(其它可信限类推)
  正态数据:ci
  变量名,level(90)
  0-1数据:ci
  变量名, level(90)binomial
  poisson分布数据:ci 变量名,level(90)poisson
  以ex2.dta为例计算x1,x2的95%可信限。
  use ex2.dta,clear
  ①
  ②
  ③
  ④
  Variable|
  Obs
  Mean
  Std.Err.
  [95%Conf.Interval]
  ---------+
  x1
  |
  11
  4.710909
  .3928624
  3.835557
  5.586261
  x2
  |
  13
  3.354615
  .3617667
  2.566393
  4.142837
  以上结果中:①为样本数;②为均数;③为标准误;④为95%的可信限,因此x1的95%可信限为[3.8356,5.5863],x2的95%可信限为[2.5664,4.1428]。
  ·
  根据样本数,样本均数 和标准差计算可信限[3]。
  若数据服从正态分布,并已知样本均数和标准差以及样本数,则95%可信限计算为:
  cii
  样本数
  样本均数
  标准差[,level(#)]
  例:已知样本数为90 样本均数为40以及样本标准差为12,则:计算该 样本均数的95%可信限为
  cii 904012
  Variable|
  Obs
  Mean
  Std.Err.
  [95%Conf.Interval]
  +
  |
  90
  40
  1.264911
  37.48665
  42.51335
  该样本均数的90%
  可信限为[37.48665,
  42.51335]
  cii 904012,level(90)
  Variable|
  Obs
  Mean
  Std.Err.
  [90%Conf.Interval]
  ---------+
  |
  90
  40
  1.264911
  37.89752
  42.10248
  ·
  计数资料中频数和比例
  STATA命令:
  tab1 变量名[,g(新变量名)
  因为该命令主要适用描述计数资料(即:属性资料),当使用子命令g(新变量),则产生属性指示变量。在回归分析中经常需要这些指示变量作为亚元变量进行分析。
  例:50只小鼠随机分配到5 个不同饲料组,每组10 只小鼠。在喂养一定时间后,测定鼠肝中的铁的含量(mg/g)如表所示:试比较各组鼠肝中铁的含量是否有显著性差别(摘自医学统计方法,金丕焕主编,p220)。用x 表示鼠肝中铁的含量以及用group=1,2,3,4,5分别表示对应的5个组。
  tab1group,g(a)
  ->tabulationofgroup
  ①
  ②
  ③
  group|
  Freq.
  Percent
  Cum.
  +
  1|
  10
  20.00
  20.00
  2|
  10
  20.00
  40.00
  3|
  10
  20.00
  60.00
  4|
  10
  20.00
  80.00
  5|
  10
  20.00
  100.00
  +
  Total|
  50
  100.00
  ①为各属性资料的频数;②为该属性占整个资料样本数的百分比;③为累计百分比。
  本例中,总样本数为50,共有5 组,每组有10个样本点,各占总样本数的10%。因为使用了子命令g(a),从而产生5个指示变量(又可称亚元变量):a1,a2,a3,a4和a5。变量a1用于 指示第1组的资料:即:当资料属于第1组的(group=1),则a1=1;其它组的资料(group¹1),则a1=0。变量 a2用于指示第2组的资料,变量a3,a4和a5相应分别指示第3,4,5组的资料(详细见下表)。
  [1] 此处仅是举例而已, 事实上该资料可以用正态检验证明近似服从正态分布。
  [2]
  可信限是对总体均数的区间估计。
  例:95%可信限 表示它所给出的区间能包 含总体均数的概率为 0.95。通俗地说:在同一个总体中, 独立地抽 样100次,每次抽取的样本量相同以及计算相应的95%可信限,则平均有95次抽样所得到的95%可信限所对应区间包含该总体均数。
  [3]
  直接 出现在统计命令中的数据称为立即数,相应的命令称为立即命令
  
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 支持支持 反对反对
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


免责声明|关于我们|小黑屋|联系我们|赞助我们|统计211 ( 闽ICP备09019626号  

GMT+8, 2025-4-11 06:50 , Processed in 0.074791 second(s), 21 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表