比例加权需要注意的几个问题:
1)加权只能调整样本各组之间的相对比例、并不会产生任何新的信息。
2)一个重要细节是如果S/P值中有小于0.5(也即P/S值或权数大于2)的,则不能靠过分灌水来解决问题。这时的对策有三个:
l 增加那些采样不足的(under-sampled)组别的case数量(上策)
l 用S/P值最小值(Scale-down的策略)来加权(最保守、浪费资源、但不犯I类错误)
l 前两者的结合,即增加部分case数然后按新的最小S/P值来加权
3)如果那些采样不足的(under-sampled)组case数量太少(一般不能少于30),需要按2)同样的原则来处理。
对于2)和3)中提到的情况,另外一种变通的方法就是重新划分组,此法省时省力。
4)经过加权的样本,能够推算总体的常规统计量,但计算误差时则不能用加权样本直接计算。
5)为了便于解释,上述例子只涉及一个变量(买家级别)的加权。实际上,研究买家除了级别,注册时长、月成交量/额等也很重要。所以需要用多个变量同时加权 (weighted by several variables simultaneously)。
(本小节以上内容参考了香港城市大学祝建华博士的BLOG文章《如何对样本进行加权?》,在此表示感谢,愿祝老师健康、笔耕不辍!)