统计211

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 4932|回复: 0
打印 上一主题 下一主题

修正调研数据,扩展使用限度(上)

[复制链接]
跳转到指定楼层
1
发表于 2014-8-14 13:01:54 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
缘起——网络调查具有先天的优劣势
最近一个季度做了N多调研项目,结项之余,不由自主地对比了一下网络调查与传统调查的优劣,详见下图:

调研数据的修正
有了这些先天的优劣势,网络调查一般执行的周期较短,但时常为了样本均衡,会采用脉冲式投放,收集数据的时间会适当延长一些。在我主导的网络调研项目中,投放的样本量一般都有几十万,一是为了能够快速收集足够多的调研样本,二是考虑到低响应率的问题。
如此大的投放量,而网络调研中又有很多不可控的因素,最终使用的有效调研样本量相对较低,他们到底是否能够有效代表总体呢?我想这个问题可以一分为二来看,在相同的执行条件下,只针对性地研究特殊用户的调研,有效调研样本在达到一定量的前提下,代表性偏差一般不大;需要推断网站全体用户的调研,虽然有效调研样本也能达到一定量,但代表性还是会打折扣,尤其是对淘宝用户而言。

加权——弥补网络调研数据先天的劣势
统计学中关于随机抽样的理论中讲过,一个研究随机抽取多少样本与总体的大小无关,而主要与最大允许误差和置信区间有关。但真正执行的时候,未必会这么理想,尤其是在人力财力有限的条件下,随机抽取的投放样本与有效调研样本之间,受响应率和认真填答的积极性等因素影响,会存在偏差。
那么在推断网站全体用户的调研中,就需要引入加权的思想,适当的加权可以使样本的关键结构,调整到与总体的关键结构相一致,从而提升样本的应用范围,所得结论会更严谨更具推广性;针对特殊用户的调研,也可以对样本进行加权,更有效地发挥样本的代表性。
加权的经典场景(例子中引用的数据均为虚拟数据,仅作为说明问题的案例,与真实数据无关)
A场景:常常遇到这样的问题:产品经理想要了解全体买家对某一个产品的使用体验、需求或满意度,也要比较初级买家和高级买家。
一般而言,随机抽取条件下,95%的置信度、5%的最大允许误差,推及目标总体所需样本量为384个,此处为计算方便,近似为400个。
事先已知,全网初级买家与高级买家的比例为39:1,高级买家所占比例仅为2.5%。若按照随机抽样原则抽取投放样本,为保证高级买家对比时满足统计需要,至少应有400个调研样本。那么,随机填答的前提下,总体调研样本至少需要16000个,响应率按照5%计算,需要投放的样本量达到32万。这只是理想状态下的情况,事实上高级买家的响应率更低,这就使得需要投放的总体样本量更大,工作中又不能经常投放如此大量的用户。——事前我们无法保证统计要求,怎么办?

B场景:若要推及全体卖家对某一产品的使用体验,如果随机抽取了20万投放样本,最终有效调研样本有4000个。经过数据匹配可知,调研样本的开店时间分布与总体存在较大差异,而该研究中开店时间是非常重要的指标。——事后我们无法保证统计要求,怎么办?
不论是事前还是事后,为使得研究有效,应该保证统计要求;调研理论与现实执行常常存在很大差距,这也是不争的事实。因此,研究中引入加权的思想,非常重要也很有必要。
加权的前提
样本加权是为了推及总体情况,主要用于两种情形:
调研数据的修正

加权的准备


来源:http://www.itongji.cn/article/0I125092013.html

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 支持支持 反对反对
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


免责声明|关于我们|小黑屋|联系我们|赞助我们|统计211 ( 闽ICP备09019626号  

GMT+8, 2025-4-4 21:57 , Processed in 0.085778 second(s), 24 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表