原文链接:http://blog.sina.com.cn/s/blog_7172d97e0100oxqa.html 有人的地方就有江湖,有江湖的地方就需要数据分析。 此话不假。前半句大家都熟,后半句需要给大家解析解析。目前社交网站热门吧?最热门的当属facebook了。facebook就是一个大江湖。各种内容,各种照片,各家广告,琳琅满目。其他的就不瞎扯了,主要探讨其中涉及到的analytics possibility。其实目前西方分析界已经开始大量研究此类江湖中的数据,进行整理后发布各项社会指数/品牌指数等等,具体涉及商业机密,投条详谈哈。 微博/围脖世界也是一个大江湖。顺便扯一下,根据本人近日考证,围脖最早的起源在中国。酒香不怕巷子深,是我们熟知的谚语了。虽然巷子很深,可是店主早就想出办法招揽客户了:发微博嘛。没有互联网,没有电脑的时代,围脖照样深入人心。下面的图片就是世界上最早的微博,公元前就存在了。言简意赅,穿透力强,还有观众围观及口口相传,不是围脖主要的特性吗? 今天想到从业多年对数据分析项目的几个难点,有感而发,和行内的兄弟姐妹,大兵小将们探讨探讨。 1.行业理解 行业知识非常重要,这一点本人深有体会。就拿做过的一个邮局的project来说,客户想要知道为什么公司每年都要投入大笔资金购买新的containers,而公司业务量并没有显著增加。这就需要熟悉邮政行业的内部运作流程,各种型号的containers在大型中转站和地方邮局之间怎样运转,邮局内部的数据录入是按照双向记录还是单项记录,在这种情况下缺少行业知识会让你面对海量数据却无从下手。 2. 数据表(data table)理解 面对有很多数据表的分析项目时候,真的是喜忧参半,高兴的是不用担心做出“无米之炊”,让你头大的是数百个相互关联复杂的数据表你该选用哪个,更让人抓狂的是要从表与表之间数个链接中选择正确的一个,特别是涉及到Left join和Right join的时候要格外谨慎。 3. 变量理解 这就需要多和公司内部人员沟通了,每个公司内部都有自己的记录规则和命名习惯,只是单纯的看数据是观察不出来的,而且当变量很多的时候很少有时间逐个解读。另外就是,要多挖掘数据的潜在变量,可能一张表有数百个变量但可以用来分析的只有一两个,这两个变量很可能被漏掉,这时呢,就要发扬“宁可错看一千,不可漏掉一个”的精神。 4. 分析目的理解 当你接到一个project的时候,分析目的也就是转化成我们分析术语后的客户需求,对项目的整个流程都非常重要,它是整个分析的大方向和最重要的衡量标准。本人曾做过一家报纸的项目,该公司推出“bi-media”的服务,客户如果要了解他纸媒及网络双重用户的上网特征,这时就要剔除Visitors对上网数据的影响,把历史数据(offline data)和上网数据(online data)结合起来综合分析,找出各个用户群的上网特征,比如一些新注册的用户上网主要看新闻而老用户更倾向于参加论坛讨论,用电子邮箱的人比没有的人上网更频繁,男性用户对Sports更有兴趣等等,分析的方方面面都要围绕这分析目的展开和深入。
|