统计211
标题:
SAS中岭回归分析的程序设计详解
[打印本页]
作者:
275932488
时间:
2011-7-1 13:53
标题:
SAS中岭回归分析的程序设计详解
岭回归分析方法是传统的多元回归分析方法的一个补充,在实际工作中经常使用。但是在标准统计软件SAS 中没有专门的岭回归分析过程,本文介绍如何通过设置伪样品后使用SAS进行岭回归分析。
关键词岭回归标准统计软件程序设计
岭回归分析是一种改进的最小二乘法。当自变量x1, x2, ., xm 间相关性强时,或某些变量的变化范围太小时,用传统的基于最小二乘法估计参数的多元回归、逐步回归方法往往不能得到令人满意的结果,甚至有些回归系数的符号与专业知识不一致,在这种情况下往往可以采用岭回归分析方法。在国际著名的标准统计软件SA S 中没有专门的岭回归分析过程,但可以通过设置伪样品后使用SA S 中的REG 过程来估计岭回归系数。
一、程序设计步骤
设有n 个观察单位,每个观察单位测定m 个变量 x1, x2, ., xm ,对于岭参数k,当k 取定0~ 1 之间的某个值后,估计岭回归系数的步骤为:
(1)先用SAS 中的STANDARD 过程把x1, x2, ., xm , y 作标准化转换,转换后的标准化变量均数为0,标准差为1。(2)根据k 值求k (n- 1)。(3)对原样本增加m + 1 个伪样品,每个伪样品有m + 1 个值。第i 个伪样品的m + 1 个值记为xi= (xi1, xi2, ., xim , yi),其中, xii=k (n- 1), xij= 0, j≠i。(4)以原来n 个观察单位的m + 1 个测定值再加上m + 1 个伪样品的数据,样本含量为n+ m ,对其采用SAS 中的REG 过程拟合过原点的多元回归方程,所估计出的回归系数即为岭回归系数bzi (k), i= 1, 2, .,m。
通过直观分析bz
i (k)随k 变化的趋势,决定选择哪一个k 值下的bz
i (k)作为最后的结果。
二、程序
福建省1991 年9 个地区的婴儿死亡率及有关指标见表1,采用岭回归分析来比较各种因素对婴儿死亡率的相关次序及数量程度。
表1 1991 年福建省9 个地区的婴儿死亡率及相关指标
地区编号x1 x2 x3 x4 x5 x6 y
1 71. 35 22. 90 3. 76 1158. 18 12. 20 55. 87 28. 46
2 67. 92 34. 48 17. 11 1494. 38 19. 82 56. 60 27. 76
3 79. 38 24. 91 33. 60 691. 56 16. 17 92. 78 26. 02
4 87. 97 10. 18 0. 73 923. 04 12. 15 24. 66 33. 29
5 59. 03 7. 71 3. 58 696. 92 13. 50 61. 81 40. 84
6 55. 23 22. 94 1. 34 1083. 84 10. 76 49. 79 44. 50
7 58. 30 12. 78 5. 25 1180. 36 9. 58 57. 02 28. 09
8 67. 43 9. 59 2. 92 797. 72 16. 82 38. 29 46. 24
9 76. 63 15. 12 2. 55 919. 49 17. 79 32. 07 45. 21
其中x1:从事乡妇儿保工作年限2 年以上的人员占乡妇儿保人员比重(% ); x2; 7 岁以下儿童系统管理率(% ); x3: 3 岁以下儿童生长发育监测率(% ); x4:年人均收入(元); x5:文盲、半文盲率(% ); x6:乡级妇儿保人员培训比例(% ); y:婴儿死亡率(‰)。
(1)先取k= 0. 1,则k (n- 1) = 0. 1×(9- 1) = 0. 8944。编写如图1 的SA S 程序。
data datal; inpu t x1- x6 y;
inpu t x1- x6 y; cards;
cards; 0. 8944 0 0 0 0 0 0
71. 35 22. 90 3. 76 1158. 18 12. 20 55. 87 28. 46 0 0. 8944 0 0 0 0 0
67. 92 34. 48 17. 11 1494. 38 19. 82 56. 60 27. 76 0 0 0. 8944 0 0 0 0
79. 38 24. 91 33. 60 691. 56 16. 17 92. 78 26. 02 0 0 0 0. 8944 0 0 0
87. 97 10. 18 0. 73 923. 04 12. 15 24. 66 33. 29 0 0 0 0 0. 8944 0 0
59. 03 7. 71 3. 58 696. 92 13. 50 61. 81 40. 84 0 0 0 0 0 0. 8944 0
55. 23 22. 94 1. 34 1083. 84 10. 76 49. 79 44. 50 0 0 0 0 0 0 0. 8944
58. 30 12. 78 5. 25 1180. 36 9. 58 57. 02 28. 09 ;
67. 43 9. 59 2. 92 797. 72 16. 82 38. 29 46. 24 run;
76. 63 15. 12 2. 55 919. 49 17. 79 32. 07 45. 21 p roc append base= data2 data= data3;
; p roc reg data= data2;
p roc standard m = 0 s= 1 ou t= data2; model y= x1- x6ˆno in t;
data data3; run;
图1 岭回归分析的SA S 程序
表2 不同k 值时的岭回归系数k 值x1 x2 x3 x4 x5 x6
0. 1 - 0. 481804 0. 209310 - 0. 333095 - 0. 673404 0. 318496 - 0. 510863
0. 2 - 0. 387141 0. 054384 - 0. 316630 - 0. 502178 0. 299228 - 0. 387626
0. 3 - 0. 329846 - 0. 015349 - 0. 293633 - 0. 411343 0. 269860 - 0. 329741
0. 4 - 0. 289009 - 0. 052509 - 0. 273888 - 0. 353241 0. 242308 - 0. 293924
0. 5 - 0. 257764 - 0. 074145 - 0. 257320 - 0. 312066 0. 218243 - 0. 268545
0. 6 - 0. 232887 - 0. 087366 - 0. 243237 - 0. 280988 0. 197568 - 0. 249103
0. 7 - 0. 212529 - 0. 095601 - 0. 231065 - 0. 256481 0. 179818 - 0. 233434
0. 8 - 0. 195516 - 0. 100724 - 0. 220378 - 0. 236520 0. 164506 - 0. 220349
0. 9 - 0. 181070 - 0. 103810 - 0. 210879 - 0. 219866 0. 151219 - 0. 209144
1. 0 - 0. 168650 - 0. 105520 - 0. 202354 - 0. 205717 0. 139625 - 0. 199374
图1 中的程序运行结果见图2。
NAM E
EAN
STD
N
x1
69. 248888889 10. 827755359
9
x2
17. 845555556 8. 9501733379
9
x3
7. 8711111111 10. 816633539
9
x4
993. 94333333 261. 95797449
9
x5
14. 31 3. 4817273012
9
x6
52. 098888889 19. 86838723
9
Y
35. 601111111 8. 5013755423
9
A nalysis of V ariance
Sum of
M ean
F
Model
6
6. 29126 1. 04854
4. 180
0. 0230
Erro r
10
2. 50869 0. 25087
U To tal
16
8. 79995
Roo tM SE
0. 50087
R 2square
0. 7149
Dep M ean
0. 05590
A dj R2sq
0. 5439
C. V.
896. 00767
Param eter Est im ates
Param eter
Standard
T fo r HO:
V ariab le DF
Est im ate
°T °
x1
1
- 0. 481804 0. 21750274
- 2. 215
0. 0511
x2
1
0. 209310 0. 30139110
0. 694
0. 5032
x3
1
- 0. 333095 0. 36039390
- 0. 924
0. 3771
x4
1
- 0. 673404 0. 26145878
- 2. 576
0. 0276
x5
1
0. 318496 0. 20883787
1. 525
0. 1582
x6
1
- 0. 510863 0. 33845128
- 1. 509
0. 1621
图2 SA S 程序的结果输出
从图2 的结果输出中,可以得到k= 0. 1 时,岭回归系数bz
i (k)的估计值(Param eter Est i2m ates),从而建立回归方程:
yd= - 0. 481804x 1 + 0. 209310x 2 - 0. 333095x 3 - 0. 673404x 4 + 0. 318496x 5 - 0. 510863x 6
(2)对k= 0. 2、0. 3、.、0. 9、1 重复(1)的步骤,所用的程序也相同,只是将程序中第18 行~第24 行的0. 8944 改为相应的k (n- 1)值,则可得到不同k 值时的岭回归系数(见表2)。
岭回归分析主要用于解释,即用岭回归系数bzi (k)( i= 1, 2, .,m )说明各自变量与应变量的数量关系。从表2 可见,当k≥0. 7 之后每个变量相应的岭回归系数变化较为稳定,因而可选k= 0. 7,建立岭回归方程:yd= - 0. 212529x 1 - 0. 095601x 2 - 0. 231065x 3 - 0. 256481x 4 + 0. 179818x 5 - 0. 233434x 6
从该岭回归方程中,可以得出结论:
(1) x5 (文盲、半文盲率)与婴儿死亡率之间呈正相关,其它变量与婴儿死亡率呈负相关;
(2)对婴儿死亡率影响最大的是x4 (年人均收入),其次是x6 (乡级妇儿保人员培训比例)、x3 (3 岁以下儿童生长发育监测率)及x1 (从事乡妇儿保工作年限2 年以上的人员占乡妇儿保人员比重)。
附录:均匀正交设计表
附表1 UL 9 (34)
1 2 3 4
1 1 1 1 2
2 1 2 3 1
3 1 3 2 3
4 2 1 3 3
5 2 2 2 2
6 2 3 1 1
7 3 1 2 1
8 3 2 1 3
9 3 3 3 2
附表3 UL 16 (45)
1 2 3 4 5
1 1 1 3 1 2
2 1 2 4 4 4
3 1 3 2 2 1
4 1 4 1 3 3
5 2 1 1 2 4
6 2 2 2 3 2
7 2 3 4 1 3
8 2 4 3 4 1
9 3 1 4 3 1
10 3 2 3 2 3
11 3 3 1 4 2
12 3 4 2 1 4
13 4 1 2 4 3
14 4 2 1 1 1
15 4 3 3 3 4
16 4 4 4 2 2
附表2 UL 27 (313)
1 2 3 4 5 6 7 8 9 10 11 12 13
1 1 1 1 2 2 3 2 3 3 3 3 3 2
2 1 1 2 2 3 2 3 1 1 3 1 2 3
3 1 1 3 2 1 1 1 2 2 3 2 1 1
4 1 2 1 3 1 1 3 2 3 1 1 2 2
5 1 2 2 3 2 3 1 3 1 1 2 1 3
6 1 2 3 3 3 2 2 1 2 1 3 3 1
7 1 3 1 1 3 2 1 1 3 2 2 1 2
8 1 3 2 1 1 1 2 2 1 2 3 3 3
9 1 3 3 1 2 3 3 3 2 2 1 2 1
10 2 1 1 1 2 2 3 2 1 1 3 1 1
11 2 1 2 1 3 1 1 3 2 1 1 3 2
12 2 1 3 1 1 3 2 1 3 1 2 2 3
13 2 2 1 2 1 3 1 1 1 2 1 3 1
14 2 2 2 2 2 2 2 2 2 2 2 2 2
15 2 2 3 2 3 1 3 3 3 2 3 1 3
16 2 3 1 3 3 1 2 3 1 3 2 2 1
17 2 3 2 3 1 3 3 1 2 3 3 1 2
18 2 3 3 3 2 2 1 2 3 3 1 3 3
19 3 1 1 3 2 1 1 1 2 2 3 2 3
20 3 1 2 3 3 3 2 2 3 2 1 1 1
21 3 1 3 3 1 2 3 3 1 2 2 3 2
22 3 2 1 1 1 2 2 3 2 3 1 1 3
23 3 2 2 1 2 1 3 1 3 3 2 3 1
24 3 2 3 1 3 3 1 2 1 3 3 2 2
25 3 3 1 2 3 3 3 2 2 1 2 3 3
26 3 3 2 2 1 2 1 3 3 1 3 2 1
27 3 3 3 2 2 1 2 1 1 1 1 1 2
[ 1 ]陈希孺,王松桂(1984),《近代实用回归分析》,广西人民出版社。
[ 2 ]田俊(1987),《多因素分析与SA S 应用》,福建科技出版社。
On SAS Program of Ridge Regress ion
T ian Jun
(FujianM edical U niversity)
Abstract
R idge regression is a m ethod fo rm u lt i2variate analysis and of ten app lied in p ract ical data
analysis. Since there is no ridge regression p rocedu re availab le in SA S, the p resen ted paper
gives a p ract ical m ethod to est im ate coeff icien t s of ridge regression equat ion s w ith SA S by
adding p seudo variates.
Key words: R idge regression, SA S, p rogram design
欢迎光临 统计211 (http://tj211.com/)
Powered by Discuz! X3.2