统计211

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 8993|回复: 0
打印 上一主题 下一主题

如何评价《Big Data:大数据时代》这本书?

[复制链接]
跳转到指定楼层
1
发表于 2014-9-15 19:42:47 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
如何评价《Big Data:大数据时代》这本书?
这是在知乎上看到的一个话题讨论,我们首先来看看这本图书的基本情况。
第一部分:图书简介
图书简介
        《大数据时代》是国外大数据系统研究的先河之作,本书作者维克托·迈尔·舍恩伯格被誉为“大数据商业应用第一人”,拥有在哈佛大学、牛津大学、耶鲁大学和新加坡国立大学等多个互联网研究重镇任教的经历,早在2010年就在《经济学人》上发布了长达14页对大数据应用的前瞻性研究。
维克托·尔耶·舍恩伯格在本书中前瞻性地指出,大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型,并用三个部分讲述了大数据时代的思维变革、商业变革和管理变革。
        维克托最具洞见之处在于,他明确指出,大数据时代最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。这颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战。
        《大数据时代》认为大数据的核心就是预测。大数据将为人类的生活创造前所未有的可量化的维度。大数据已经成为了新发明和新服务的源泉,而更多的改变正蓄势待发。书中展示了谷歌、微软、亚马逊、IBM、苹果、facebook、twitter、VISA等大数据先锋们最具价值的应用案例。
作者简介
        维克托·迈尔-舍恩伯格(Viktor Mayer-Sch·nberger),“大数据时代的预言家”,他是十余年潜心研究数据科学的技术权威,他是最早洞见大数据时代发展趋势的数据科学家之一,也是最受人尊敬的权威发言人之一。他曾先后任教于世界最著名的几大互联网研究学府。现任牛津大学网络学院互联网治理与监管专业教授,曾任哈佛大学肯尼迪学院信息监管科研项目负责人,哈佛国家电子商务研究中网络监管项目负责人;曾任新加坡国立大学李光耀学院信息与创新策略研究中心主任。并担任耶鲁大学、芝加哥大学、弗吉尼亚大学、圣地亚哥大学、维也纳大学的客座教授。
名人推荐
        维克托•迈尔-舍恩伯格教授这本《大数据时代》,是我看到的最好的大数据著作,不仅对于产业实践者,还是对于政府和公众机构,都是非常具有价值的。只要我们以开放的心态、创新的勇气拥抱“大数据时代”,就一定会抓住历史赋予中国创新的机会。
        ——田溯宁 宽带资本董事长
        正如迈尔-舍恩伯格教授认为的,大数据要求人们改变对精确性的苛求,转而追求混杂性;要求人们改变对因果关系的追问,转而追求相关关系。这种思维的转变将是革命性的,如果企业不能认识到这一思维方式转变的重要性和迫切性,将会面临 “数据鸿沟”的挑战。
        ——张亚勤 微软全球资深副总裁,微软亚太研发集团主席
        过去几年,在大数据方面我读过十几本书、上百篇论文和文章。相对而言,维克托的《大数据时代》是迄今为止我读过的最好的一本专著,中英文都算上。
        ——谢文 中国互联网发展的重要参与者,知名IT评论人
        大数据正把我们变成新的物种。首先,大数据改变了我们的思维方式,让我们从因果关系的串联思维变成了相关关系的并联思维。第二,大数据改变了我们的生产方式,物质产品的生产退居次位,信息产品的加工将成为主要的生产活动。第三,大数据改变了我们的生活方式,我们的精神世界和物质世界都将构建在大数据之上。大数据不仅仅是一门技术,更是一种全新的商业模式,它与云计算共同构成了下一代经济的生态系统。一切皆信息。
        ——郭昕 北京云基地首席顾问,云华时代智能科技有限公司董事长
        随着大数据热潮的不断升温,相信今后几年会有更多以大数据为主题的著作问世。这本先河之作用各种案例生动阐述了大数据所带来的变革。你可以不同意书中的某些观点,但是大数据所带来的变革已经开始发生并将继续深入。我们需要共同面临的挑战是:越来越大的数据如何才能让世界变得越来越美丽?
        ——汪小帆 上海交通大学长江学者特聘教授,致远学院常务副院长
        我们生活在社会中,就不得不同数据打交道。我们也是数据的一部分,不论我们想不想与大数据牵扯到一起,数据都会找到我们,覆盖我们。大数据时代已经来临,如何从海量数据中发现知识,寻找隐藏在大数据中的模式、趋势和相关性,揭示社会现象与社会发展规律,以及可能的商业应用前景,都需要我们拥有更好的数据洞察力。
        ——沈浩 中国传媒大学教授
        大数据无疑是当前的热门话题,对产业界、学术界和教育界都正在产生巨大的影响。然而到底什么是大数据,大数据到底和过去的数据分析技术有何联系和不同?这又是一个各执一词的问题。本书的角度非常独特而深入,提出了“不是随机样本,而是所有数据”“不是精确性,而是混杂性”“不是因果关系,而是相关关系”这样三个关于大数据的鲜明观点,并引用很多例子加以说明,非常值得仔细研读和思考。
        ——陈文光 清华大学计算机科学与技术系副主任、教授
        维克托认为大数据将使人们从对因果关系的渴求转向关注相关关系,这是对人类关系结构变革的深刻洞察。因果关系通向金字塔的建立,相关关系通向扁平化的实现。大数据由此将带来对人的重新认识,不是在阿波罗神庙,而是在小世界网络中“认识你自己”。
        ——姜奇平 中国社科院信息化研究中心秘书长,《互联网周刊》主编
        大数据时代已经来临,先知、先觉、先行和先试者既可能率先受益,也可能率先迷失,关键在于能否看清创新方向并找到应用模式。《大数据时代》这本书最突出的价值,就在于其对商业实践的跟踪与建议。即使作者的一些预见在未来也许会落空,其大胆探索大数据商业应用的努力,仍然值得鼓励。
        ——何刚 《财经》杂志执行主编,《哈佛商业评论》中文版主编
        在人们还在沉浸于讨论多大规模的数据才是“大数据”的时候,《大数据时代》这本书就“大数据时代”将对人类社会带来的革命性影响进行了深刻的分析。正如书中所述,“大数据”的本质是思维、商业和管理领域前所未有的大变革。领衔翻译本书的周涛教授是国内大数据和网络科学领域的青年领军人物,相信对不同层次的读者都会裨益匪浅。
        ——谢幸 微软亚洲研究院主管研究员
第二部分:精彩评论
以下是来自@熊小龙 的精彩点评:
        大致看完了舍恩伯格的《大数据时代:生活、工作、思维的大变革》。我看推荐说这是“迄今为止最好的一本大数据专著”。目前公司在搞Hadoop、大数据应用,外面各类零碎的资料也非常多,那么想我应该去看一下这“最好”的专著吧。
买回来看完的感觉是平平而已。个人看法,在五分制下,大概也就是最多打三分。这本书可以买来看看,写得比较完整全面,案例比较多,有一定的参考意义,写PPT吹牛用得上,但是有什么巨大的意义就谈不上了。很多观点不能同意。
        一、主要观点上可以探讨的地方
        作者提出了关于大数据的“掷地有声”的三个原则。这三个原则凡讲大数据必被提及,很多人奉为圭臬。但是我觉得每一点都值得探讨。这三点分别是:不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。
看完之后感觉都有点不是那么回事。
        1.不是随机样本,而是全体数据
        这个说得好像人类从来就不知道使用全体数据可以得到更全面的结论,而非要去煞费苦心发展出一套抽样技术一样。人类早就知道处理全量数据的好处,而之所以要进行抽样分析,原因不外乎两点:一是处理能力跟不上,二是数据收集能力跟不上。作者认为人类之前主要受限于数据的处理能力而不去处理全量数据,但在目前机器处理能力有了巨大的提升的时代,限制绝大多数应用的瓶颈不是计算能力而是数据采集能力(不要去提那些极少数需要超级计算机的场合,那个和多数人无关、和本书的商业主题也无关)。但是即便如此,抽样所要针对的很多应用场景是不太可能收集全量数据的情况。比如人口普查,无论计算机力量如何强大,当前很多数据还是要人工去收集,所以这个普查还是要用抽样的方式。有意思的是,作者用人口普查是抽样分析来说明非“全量”时代我们被迫采用了抽样,而最终也没法说我们是否已经可以用全量数据来做人口普查了。实际上至少在目前,对于人口普查,抽样还是必然的选择(嗯,你可以设想,以后人人都装一块芯片,你可以在你的PPT里讲给你的客户和老板听)。再比如我们统计里的经典问题:怎么估算一批零件的使用寿命?怎么去分析一批奶品里的三聚氰胺?以前我们不可能去做全量测试,因为这意味着这批零件就废了,这批奶也全部用于测试了,这样测出结果也没啥意义了(嗯,你也可以说:我我们去收集历史上所有此类零件的使用情况来进行分析吧.....嗯,加油吧,雄心勃勃的骚年)。现在 ?我们还是必须依赖抽样,是必须。
        即便不提这些例子,仅从逻辑而言:收集、处理数据的行为本身也在不断产生着新的数据。我们又怎么证明这些数据不是你需要的“全量”的一部分呢?
        作者的行文中,关于什么是“全量”,处于不断的摇摆之中。有时指“我们需要的所有数据”,有时指“我们能收集到的所有数据”。作者举了人口普查的例子,这个全量显然指前者。而在很多商业案例中,又显然指后者。我们有能力处理越来越多的、在以前不敢想象的大量数据,但是至少目前看,我们还没可能说我们处理了“全量”。我们最多可以说我们能处理我们能搜集到的“全量”,但如果据此产生了我们已经没有遗漏数据了的感觉,认为所有数据尽在掌握了,那我认为是一种很可能导致错误的错觉。
        2.不是精确性,而是混杂性
        这个么,说得好像以前的人类在使用“抽样”数据时竟然都认为取到的数据是“精确”的一样。在使用抽样数据的时候,我们就知道要容忍一定的误差。我们甚至知道在就算取得了“全样”数据的时候,也可能因为有各种原因而导致的不精确,统计实践中对此有相当多的案例。人类从未奢望过我们通过数据分析取得的多数结论是精确的。我们从来都要在信息混杂的情况下做出大多数的决策。
        3.不是因果关系,而是相关关系
        这是很多人(包括作者)认为最有价值、最重大的发现,而实际上却也是最收到批评的一个观点。连译者周涛教授在序言里都表示看不下去了,他至于认为如果放弃对因果关系的分析,是人类的堕落。我不说这么高的哲学层面,只从逻辑和技术上讨论一下。
        计算机能够提供给我们的结论(到目前为止以及在可见的未来),都是相关性。计算机从未提供过明确的因果关系给人类。是否因果关系,是人类在数据基础上,进行的人为判断。一直有相当多的应用,也是只考虑相关性,不考虑因果关系的:确定因果关系,是需要更大的精力、更多的投入的。所以只看相关性而不看因果性也不是什么新的结论(实际上已经是个很旧的结论了)。而这个相关性是不是可以作为决策的基础呢?这个一样离不开人的判断。有一个这样的故事:通过大量的数据分析,慈善组织得出结论:一个国家、地区的电视机的普及率与发达富裕程度很有关系(冰箱、洗衣机、空调、高跟鞋、牛仔裤,etc.,也会和发达程度有这样的相关性),于是他们就向贫困国家赠送了很多电视,认为此举可以促进该国的经济发展。你可以鬼扯电视的普及与经济文化的密切相关,但是实际上最终发现更可能是经济发展导致了电视的普及,而不是反过来。所以,我们真的不需要因果分析吗?说得玩笑一点:这个世界真的不需要脑子了吗?
        作者举了一个例子:谷歌分析搜索关键字来确定哪里可能发生了流行病。认为这就是利用了相关性而不是因果性。这是没有利用因果判断吗?现在在投入巨大的机器资源进行分析之前,分析师已经预计了得病的症状可能会导致人们去网上进行相关搜索(影响了搜索行为)。谷歌存储的用户上网信息肯定远远不止一个搜索关键字,分析师为何不开足马力把“全量”数据、各个指标都分析一遍呢?比如用户上网地点?上网时间?上网频率?上网语言?浏览器版本?客户端操作系统?etc...为何会像导弹一样精确地将机器资源投放到了关键字上呢?
        总之,对于这些原则,作者为了显出新意,说得过于绝对。而排除掉绝对的成分后,这些观点也就不显得是创新了。作者把三个数据分析人员一直秉持的原则,当做全新的东西讲了出来。时代在变化,我们或许应该经常重新审视这些原则,来确认自己的思想是不是僵化了、是不是过时了。我赞同作者重新审视这些看法,但是我觉得没必要讲得这么极端。
        二、细节论据上可以探讨的地方
        除了三个大原则不足以令人完全信服,在一些细节上,作者的引证也不是很严谨。
        如第51页,对于拼写检查的算法的优化。作者提到,通过输入大量的数据,4种常见语法检查算法的准确率提高了很多,以此说明大数据发挥了作用。这确实是个很有启发性的例子,可以去做更深入的分析和研究,但是.....仅仅4个例子,够得出很有力的结论吗?4个算法,作者没注意到这是一个非常小的样本吗?不能因为这是4个用了大数据的采样,就认为这是一个支持大数据的有力结论了吧。(顺便我很想问问他们:为什么不测试个几十上百的算法呢?是不是面对如此“大量”的计算,也只好折中选择了一个抽样的小样本呢?甚至连样本数量是否合格都顾不上了吗?)
        三、这本书有什么用处?
        对于这样的一本书,我不明白周涛教授在译序里为什么要建议大家(以后)每个版本都应该买一本。为什么要买?难道作者理清自己脑子的过程很值得我们关注吗?
        译序里说:“作者渴求立言立说的野心”,但是我恐怕作者是达不到这个目标的。关于作者的简介为:“《大数据时代》是国外大数据系统研究的先河之作,本书作者维克托·迈尔·舍恩伯格被誉为‘大数据商业应用第一人’,....早在2010年就在《经济学人》上发布了长达14页对大数据应用的前瞻性研究。”
        总体感觉是作者有很多想法,见识过很多案例(这些案例都丰富地体现在书中了,也很有参考价值)。但并非是一个曾经和数据真正绞尽脑汁搏斗过的人(这是我瞎猜的,没有考证过他的经历。考据者请不要告诉他做过什么咨询案例,这离真正体会数据的折磨还很远。)。
        第183页说道:“...执行官们信任自己的直觉,所以由着它做决定。但是,随着管理决策越来越受预测性分析和大数据分析的影响和控制,依靠直觉做决定的情况将会被彻底改变。..."真的会么?如果你面对某一家企业做咨询,那可以这样讲。一种新技术的采用很有可能大幅提升企业的战斗力,并超越竞争对手。但是作者是期望对行业立言的人,面对整个社会我们这样讲就不严谨了。引用一个例子:中国棋院的一次训练会后,总教头马晓春对隔天要去各自的母队参加围甲的棋手们说:祝大家周末取胜。棋手们笑了:我们只有一半的人能赢啊。同样,如果大家都采用了大数据技术,那么也总有企业要在竞争中落于下风。而既然我们实际上无法真正分析“全量”数据,那CEO们还是会有很大的决策空间,哪怕很多决策实际上“不科学”。最起码,他们需要决定将有限的企业资源投入到对什么样的大数据进行分析,并如何应用分析出来的结果。嗯....我认为,这多少还是要依赖一些直觉的。
        那么大家是否应该看一下这本书呢?我的答案是应该看一看。既然大数据是当前的潮流、相关的研究/商务活动层出不穷,那么做IT工作、数据工作的人对于“最好的”专著无论如何都必须看一下。书中集中展示了很多案例,值得作为参考和启发思维。此外,为了作为谈资、为了在写大数据PPT时有所依据,大家也得看看这本书。根据场合不同,可以对里面的内容复制粘贴、理解重写。这些内容,我相信买一版也就够了。需要提醒PPT人员的是,演示前请想清楚如何回答可能被提及的质疑。如果你对这本书的观点都深信不疑,那么你将会遇到很多的质疑。
        对于下载网络版本担心没有图的朋友,请不用担心丢失信息:除掉湛庐特别制作的一张本书思维导图的彩页。这本书没有图。是的,一张都没有。大数据,大概太大了,大到作者无法用任何图来阐明了。

        来自网友@xzongyuan 的评论:
        看完了引言,为了让大家有个大众化的认识,而不是空谈很有启发,提前写下评论,免得后面忘记了。
        1.我觉得,大数据处理,其实就是相关性分析。其实相关性分析在统计学中是非常基础的,为什么大数据时代来了会使他显得如此重要呢?那是因为,以前只有政府和教会可以掌握这么多数据,现在是很多企业都掌握了这么多数据,而且未来,发达国家可能会公开这些数据,这样所有人都相当于拥有了过去君王的信息。书中举了很多例子,就想告诉你,你所接触到的数据每年翻3倍,未来你可以掌握的数据量多到你不敢相信。而统计学最重要的是数据,在未来,因为你如此容易获得数据,所以,你可以做非常多的预测。
        2.大数据最大的作用是寻找相关性,当两样事情明显相关,我们就几乎可以“预测”未来。这是大数据时代最诱人的地方。
        3.从上可见,书本不是告诉你在大数据时代你可以做些什么,而是告诉你它有这么多潜力。那些有能力的人,看了本书,可能会有改变世界的能力。因为大数据时代,重要的还是对“数据的处理能力”。那些未来的盖茨,可能会发明很多神准的预测工具,帮助你预测股市,预测你的婚姻未来,预测你什么时候会得到癌症。但是,这可能和大多数人无关,你们只需等待他的到来就行。我认为只有少数有前瞻思维,又有能力的人,才会感受到这个还未来到的时代的魅力。
        4.希望看完本书会有思想上的冲击,但就目前而言,我认为,相关性分析是经济学里面用的非常普遍,甚至是泛滥的技术,所有希望被著名期刊收录的文章都必须做实证分析,而相关性分析是出现最多的。这也导致学界大讨论,说经济学已死。因为大家看重的是数据,看重的是相关性,而不是事物背后的规律本质。当然,事物总会发展过头,然后自动纠正。只是大数据时代刚来,确实需要更多地鼓吹一下。过去,在学术界意外,我们确实没有收集大量数据的能力,导致经济学中的分析方法用不上,但未来,数据泛滥了,对数据的处理技术就可以向生活延伸了。
        5.应该说,大数据时代吸引之处就是巨大的数据量,唾手可得的数据,必将出现大量预测工具(商机,生活方便),因此必将出现认识世界的新维度。毕竟,现在我们是通过现象认识本质,在未来,我们还可以通过大量数据认识本质。

来源:http://www.itongji.cn/article/0Z335252014.html
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 支持支持 反对反对
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


免责声明|关于我们|小黑屋|联系我们|赞助我们|统计211 ( 闽ICP备09019626号  

GMT+8, 2025-4-4 21:55 , Processed in 0.080860 second(s), 21 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表