统计211

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 5110|回复: 6
打印 上一主题 下一主题

大数据分析的四类陷阱

[复制链接]
跳转到指定楼层
1
发表于 2012-5-10 19:43:08 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    作者:r-bloggers.com
    高科技领域的人们正摩拳擦掌以迎接大数据(Big Data)时代的到来。大数据技术的本质是能够对数十亿的信息进行分析,从中获得有价值的洞见。例如惠普的研究人员就能根据Twitter来预测好莱坞的票房。由此看来,其它行业只要具备合适的工具,就能对社会网络进行数据分析。但是事情并非如此简单。首先,分析大数据集并不是什么新鲜事。有些公司已经做了几十年的数据分析。当前技术的不同之处在于,它提升了分析的速度,扩展了数据规模,使小型企业也能使用这种技术。而另一方面,大数据也会造成更严重的错误。针对上例,普林斯顿大学就得出了不同的研究结论:Twitter并不能真的预测票房成绩。
对同一个问题,研究者怎么会得出相反的结论呢?我们来看一下数据分析中最常见的四类陷阱。  
   
1、样本缺乏代表性
    大数据的背景仍是统计分析和推断。而统计系学生应该学到的一件事就是:统计结论依赖于样本的代表性。Twitter用户可能受到更高教育且收入更高,其年龄也会偏大一些。如果用这种有偏的样本来预测目标观众是年轻人的电影票房,其统计结论可能就不会合理了。
提示:确保你得到的样本数据代表了研究总体。否则,你的分析结论就缺乏坚实的基础。
2、事物是变化的
    对研究对象的科学理解需要耐心。可能你的实验获得了预期的效果,但这还不够。你应该进行后续实验看能否得到相同的结果,还要看其他研究人员能否重现你的实验结果。特别是在处理人类个体或团队行为的时候,这一点尤其重要。这是因为事物在是不断变化的。惠普和普林斯顿大学的研究项目有两年的时间间隔,在这段时间中Twitter用户有可能发生了改变。同样的道理,如果观察到公司的增长速度发生变化,这有可能是客户群的情绪变化,也可能是使用了错误的数据收集或分析方法。
提示:不要只进行一次分析。要定期验证你之前的结论。
3、理解数据方式不同
    惠普和普林斯顿的两组研究人员所看到的数据不仅仅是推文。惠普的研究人员建立了一个模型,来研究电影首映时的发推率和上映影院数量。但上映影院的数量与票房成功之间有很强相关性。而普林斯顿的研究人员使用机器学习技术,来研究在三个不同时间段(影片上映之前、期间或观影后)用户的推文情绪特征(正面或负面)。也就是说,这两个研究团队都表示,他们在研究Twitter的预测能力。但实际上,他们除了使用twitter数据之外还利用了其它数据资源,例如上映影院数量和IMDB评分等等。这样Twitter的预测效果与其它因素混合在一起,它或许是预测票房成功的一种影响因素,这要取决于研究人员如何理解和使用它。
    提示:一组数据可以提供多种类型的信息。你需要找到不同的解释方式,并加以分析。
4、错误和偏差
    人会犯各种错误。有可能是某个研究小组出现了某个错误。例如试图将所有的推文都归为正面或负面的情绪,这种方法也许有些粗糙。又或许研究人员不自觉地选择数据,以支持他们的论点。例如普林斯顿大学研究人员假设,是推文本身而非推文的数量,蕴含着消费者的情绪表达。
提示:不要只使用一种方法。用事实来检验你的假设是否奏效。
    大数据技术能很好的改善企业产品和服务,并更好地满足市场。但是,信息需要人来解释,而人的错误有时是致命的。所以大数据是一柄双刃剑,成功与否还得看持剑人的功力。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x

评分

参与人数 1统计币 +10 收起 理由
wwy + 10 很给力!

查看全部评分

分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 支持支持 反对反对
2
发表于 2013-7-22 12:41:26 | 只看该作者
3
发表于 2013-7-22 18:35:54 | 只看该作者
大数据带动的反馈经济会使得消费者产生去个性化
4
发表于 2013-7-22 22:57:53 | 只看该作者
5
发表于 2013-7-24 16:03:05 | 只看该作者
统计学存在于生活的方方面面
6
发表于 2013-7-25 11:58:39 | 只看该作者
好文好文,几乎戳到了统计分析的痛处。
7
发表于 2013-7-25 23:06:46 | 只看该作者
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


免责声明|关于我们|小黑屋|联系我们|赞助我们|统计211 ( 闽ICP备09019626号  

GMT+8, 2025-4-11 02:07 , Processed in 0.087543 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表