第一篇:从美国总统大选看大数据时代的数据新闻报道
从美国总统大选看大数据时代的数据新
闻报道
数据新闻是在大数据时代兴起的一种跨学科、跨领域的新闻生产方式,它需要新的思维方式与多种能力的支撑。本文结合XX年美国总统大选报道,着重分析了英美各大主流媒体开展数据新闻报道的流程与特点。还探讨了社会化媒体对于数据新闻的推动作用,以及数据新闻的兴起与发展给新闻业者所带来的挑战。
在当前技术高速发展的信息化时代,信息(数据)规模的爆炸性增长是显着特征之一。从近年发展情况看,“大数据”主要被人们用来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。“大数据”具有规模大、价值高、交叉复用、全息可见等特征。当前对于“大数据”的关注与运用主要集中在IT业、市场营销、公共健康等领域,但事实上大数据的影响也波及到传媒业,数据新闻(Data Journalism)就是在大数据时代兴起的一种新的新闻生产方式。
数据新闻的报道流程
有关数据新闻的报道流程,不同的媒体与从业者进行了不同的概括、归纳。XX年8月,着名记者、数据驱动型新闻(data—driven journalism)项目负责人米尔科·洛伦兹提出了进行此类新闻报道的四个步骤,即挖掘数据——过滤数据——数据可视化——新闻报道制作完成。与此类似的是《卫报》的数据新闻编辑、数据博客Datablog负责人西蒙·罗格斯在《数据新闻分解步骤:在你见到的数据背后我们都做了什么》一文中的介绍。但他所展现的是一个多线程、全方位的报道流程:一方面处理数据,另一方面不断检验、质询数据的信度与价值,最后通过多种手段与渠道发布完成的报道。而伯明翰城市大学教授保罗·布拉德肖在《数据新闻的倒金字塔结构》中提出了如图所示的“双金字塔模型”(见图一),更全面地揭示了整个报道过程中,数据在质量以及传播上的变化。布拉德肖以倒金字塔来表示数据处理的过程,包括数据汇编、数据整理、了解数据和数据整合等四个部分。数据处理的最终目的是为了完成数据的可视化并实现有效传播。而数据新闻的传播则以“正金字塔结构”进行,包括了可视化、叙事化、社会化、人性化、个人订制化和使用等六个步骤。
事实上,不管是上述哪一种归纳,获取数据、处理数据、呈现数据都是数据新闻报道中不可或缺的三个阶段。本文结合英美主流媒体“XX年美国总统大选”的数据新闻报道来对这三个阶段进行解读。
1.多渠道获取海量数据。
数据新闻通常有两种方式:先有问题,然后根据问题寻找相关数据;或是从海量数据中发现、提出问题。无论采用哪种方式,海量数据都是数据新闻报道的基础。从业界实践来看,它主要包括从政府、企业、机构等公开的数据库中获取的二手数据和由媒体自行调查或抓取的一手数据。前者成本低廉且可靠程度高,是目前最主要的数据来源。以《卫报》“XX年美国总统大选专辑”数据新闻报道为例,在整个专辑的55篇报道中,不仅有与总统选举直接相关的选票数据、各州宣布选举结果的时间、竞选资金募集情况等内容,还涵盖了各种经济数据(如财政预算、债务、美国在对外战争中的花费)、美国人口基本统计特征数据以及各种社会数据等诸多相关背景资料。除了从政府公开的数据库中获得的二手数据之外,《卫报》还积极利用官方网站进行用户调查以获得一手数据。比如针对刚刚出炉的大选结果向全球用户征询意见,其后根据收到的用户态度反馈数据,专门制作了《奥巴马再次当选美国总统:全球民众的态度》动态数据地图。
2.全面谨慎地处理数据。
获取海量数据仅仅意味着数据新闻的开端。和其他信源一样,记者不应盲从,而需要对数据保留怀疑的态度。XX年度普利策调查性报道奖得主佩奇·约翰强调:所有的数据必须有来源,并经过交叉验证。面对海量数据,记者首先应评价数据的质量与意义,需要认真考察诸如:数据来源是否可靠,时效性如何,出于何种目的、采用什么方法收集而来,包含了怎样的主题,应选择哪些数据等一系列问题。其次,对数据进行处理,包括去除不必要的、干扰性的数据,清理其中的各种误差,并将来源纷杂、格式各异的数据转换为统一格式。最终确定需要计算和呈现的数据。值得注意的是,在报道中并非使用的数据越多,故事就能讲得越好,有时候凭借一个简单的数据就能完成一篇好新闻。在完成对数据的运算后,还需要检验其结果的合理性,如果有异于常理的话则需要重新运算。
3.多元创新地呈现数据。
能够对数据进行更准确的分析、更深层的解读和更明晰的呈现是数据新闻的独特优势。数据新闻通常运用可视化技术,以信息图表的形式发布。与文字报道相比,信息图表能够化繁为简,并兼具形象化与趣味性,尤其适用于表达数据与地理、时间信息。它可以提示新闻要点、解析事件进程、揭示各类关系、展现分布状态等等。信息图表更符合视觉传播时代用户的习惯与偏好。从目前发展趋势看,除了一般的静态信息图表之外,交互式信息图表(Interactive Infographic)和动态信息图表(Motion Graphic)在数据新闻中的应用也日渐增多。如《华尔街日报》制作的《XX年美国总统大选投票结果》报道就是在美国地图上以红蓝两色分别代表了民主党与共和党,其力量对比一目了然。而且当用户将鼠标移到某一州所在的位置时,地图上就会立刻出现该州的投票数据,非常直观清晰。和静态图表相比,交互式图表能够通过一个简洁界面向用户传递大量信息。这种呈现形式更具个_生化和参与性,可以由用户自行点选所关心的内容进行了解,而不只是简单地推送信息。除了在信息图表中运用文字、图形、图表、动画之外,有的媒体还创新性地引入了视频,从而有效拓宽了数据新闻的呈现形式。如美国国家公共广播网(NPR)对全美各州的总统大选资金使用情况进行了梳理、统计,将这些带有地理位置信息的数据加以整合,并以视频的形式进行了直观生动的展示。
数据新闻的推手与挑战
社会化媒体的兴盛给新闻生产与消费模式带来了巨大冲击。在社会化媒体与专业媒体融合的大趋势下,借助互联网,数据新闻搭上了社会化的快车。社会化媒体对数据新闻的助力主要表现在两个方面:首先,社会化媒体是数据的重要来源之一。社会化媒体可谓是数据的“富矿”,记者可以从其上抓取数据,也可以通过它展开调查获取一手数据。其次,专业媒体完成的报道可以经由社会化媒体分享、传播并进一步扩大其影响。《卫报》“XX美国总统大选专辑”中有多篇报道就是通过抓取、分析Twitter上的信息制作而成。如《奥巴马在推特上赢得了大选》就是通过分析在Twitter上抓取的关键词:奥巴马、罗姆尼、瑞恩、拜登等,来预测大选的结果。在大选结果公布之后,《卫报》还运用大选当天Twitter用户主动发布的个人投票结果来统计用户对于奥巴马再次当选的态度,并根据所获取的一手数据进行了视频报道。该视频于大选结束的次日上传到Youtube,仅仅3天点击量就已经超过XX人次。同时,《卫报》也将社会化媒体视为传播其新闻报道的重要渠道之一,该专辑中的每一篇报道都设置有按钮,以方便用户在浏览时将其一键式分享到Facebook、Twitter、Google+和Linkedln开发的In share等多个平台。事实上,通过对于社交化的强调,可以让更多的用户参与到数据新闻的制作与传播中来,而个性化与社会化相结合的战略也正是此类新闻未来的发展方向。
数据新闻报道是一个综合、系统的过程,它需要新的思维方式与多种能力的支撑。其中,处理数据和设计、制作、发布信息图表的能力对于新闻业者的挑战尤为明显,而对于这些能力的培养也应该成为新闻教育未来的方向和重点之一。
第二篇:大数据时代
大数据时代
近年来,随着互联网、移动互联网、智能手机及传感器等的普及,信息流量有了爆发性的增长,两会以后,互联网里最热的词汇,就是李克强总理在政府工作在报告里面提到的“互联网+”,大数据将会更广泛的被运用到各个领域,越来越多的业内人士开始谈论“大数据”,如何利用大数据,成为政府和众多企业关心的热点?
互联网+《大数据》紧紧围绕这些问题展开,帮您如何利用大数据为企业从战略上面进行指导挖掘和预测,从战术上进行营销服务和安全措施,精彩我们共同期待。
第一篇大数据很热,大数据不神秘(趋势)有人说,如果你不知道大数据,你就OUT了 --大数据到底有多热 什么样的数据算是大数据 --大数据的特点和概念辨析 乱我心者,大数据之事多烦忧 --大数据并不象你想象的那样神秘 身边的大数据
--大数据就在你我身边
案例分析:淘宝是如何利用大数据淘宝的 小结:不管你愿不愿意,大数据已经在那里 电话:010---59002742 010--59004371 第二篇:认识大数据 1.什么是大数据 2.大数据应用的意义
3.大数据在企业经营中应用的意义 4.对大数据的认识误区 案例分析
第三篇:大数据时代变革 1:大数据时代的思维变革 2:大数据时代的商业变革 3:大数据时代的管理变革
第四篇:大数据在营销中的运用 大数据精准营销 1.什么是精确营销 2.精确营销的方法 实操教学+案例分析
第五篇:在技术中应用 数据挖掘
大数据的核心价值——挖掘 1.什么是数据挖掘? 2.数据挖掘的流程 3.数据挖掘解决的问题 结合现场实操教学+案例分析
第六篇:预测
大数据的核心价值——预测 1:如何预测? 案例分析
第七篇:大数据与云计算 1:什么是云计算
2:大数据与云计算的关系
第八篇:大数据的安全问题
大数据给信息安全带来新的挑战和机遇 大数据存储安全策略 大数据应用安全策略 大数据管理安全策略
第三篇:大数据时代
“大”数据时代 众所周知,数据本身就蕴藏着价值,但是将有用的数据与没有价值的数据进行区分看起来可能是一个棘手的问题。
显然,您所掌握的人员情况、工资表和客户记录对于企业的运转至关重要,但是其他数据也拥有转化为价值的力量。一段记录人们如何在您的商店浏览购物的视频、人们在购买您的服务前后的所作所为、如何通过社交网络联系您的客户、是什么吸引合作伙伴加盟、客户如何付款以及供应商喜欢的收款方式……所有这些场景都提供了很多指向,将它们抽丝剥茧,透过特殊的棱镜观察,将其与其他数据集对照,或者以与众不同的方式分析解剖,就能让您的行事方式发生天翻地覆的转变。
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
“大数据”这个术语最早期的引用可追溯到apache org的开源项目Nutch。当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。随着谷歌MapReduce和Google File System(GFS)的发布,大数据不再仅用来描述大量的数据,还涵盖了处理数据的速度。
早在1980年,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪 潮的华彩乐章”。不过,大约从2009年开始,“163大数据”才成为互联网信息技术行业的流行词汇。美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。此外,数据又并非单纯指人们在互联网上发布的信息,全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,也产生了海量的数据信息。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。
第四篇:大数据时代
《大数据时代》读书笔记
作者:迈尔舍恩伯格
出版发行:浙江人民出版社
版次:2013年1月第一版
读者:物流一班、时菲阳
一、作者观点
谷歌有一个名为“谷歌流感趋势”的工具,它通过跟踪搜索词相关数据来判断全美地区的流感情况。这就是一个典型的“大数据”的应用例子,舍恩伯格的这本《大数据时代》受到了广泛的赞誉,他本人也因此书被视为大数据领域中的领军人物。
作者提出了三点结论:第一,要尽可能分析事物相关的“全部”数据,而不是之前的随机抽样,即“样本=总体”。第二,要乐于接受数据的繁杂,而不应过分追求其精确性。第三,重视大数据呈现的“相关关系”,而不要执于探索事物间的因果关系。
二、摘抄:
在甲型H1N1流感爆发的几周前,互联网巨头谷歌公司的工程师们在《自然》杂志上发表了一篇引人注目的论文。它令公共卫生官员们和计算机科学家们感到震惊。文中解释了谷歌为什么能够预测冬季流感的传播:不仅是全美范围的传播,而且可以具体到特定的地区和州。谷歌通过观察人们在网上的搜索记录来完成这个预测,而这种方法以前一直是被忽略的。谷歌保存了多年来所有的搜索记录,而且每天都会收到来自全球超过30亿条的搜索指令,如此庞大的数据资源足以支撑和帮助它完成这项工作。
发现能够通过人们在网上检索的词条辨别出其是否感染了流感后,谷歌公司把五千万条美国人最频繁检索的词条和美国疾控中心在03年至08年间季节性流感传播时期的数据进行了比较。其他公司也曾试图确定这些相关的词条,但是他们缺乏像谷歌公司一样庞大的数据资源、处理能力和统计技术。
虽然谷歌公司的员工猜测,特定的检索词条是为了在网络上得到关于流感的信息,如“哪些是治疗咳嗽和发热的药物”,但是找出这些词条并不是重点,他们也不知道哪些词条更重要,更关键的是,他们建立的系统并不依赖于这样的语义理解。他们设立的这个系统唯一关注的就是特定检索词条的频繁使用与流感在时间和空间上的传播之间的联系。谷歌公司为了测试这些检索词条,总共处理了4.5亿个不同的数字模型。在将得出的预测与07年、08年美国疾控中心记录的实际流感病例进行对比后,谷歌公司发现,他们的软件发现了45条检索词条的组合,一旦将它们用于一个数学模型,他们的预测与官方数据的相关性高达97%。和疾控中心一样,他们也能判断出流感是从哪里传播出来的,而且他们的判断非常及时,不会像疾控中心一样要在流感爆发一两周之后才可以做到。
所以,09年甲型H1N1流感爆发的时候,与习惯性滞后的官方数据相比,谷歌成为了一个更有效、更及时的指示标。公共卫生机构的官员获得了非常有价值的数据信息。惊人的是,谷歌公司的方法甚
至不需要分发口腔试纸和联系医生——它是建立在大数据的基础之上的。这是当今社会所独有的一种新型能力:以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。基于这样的技术理念和数据储备,下一次流感来袭的时候,世界将会拥有一种更好的预测工具,以预防流感的传播。
三、感想:
看完本书有如下感想:
首先,作者站在理论的制高点上,条理清楚地阐述了大数据对人类的工作、生活、思维带来的革新,大数据时代的三种典型的商业模式,以及大数据时代对于个人隐私保护、公共安全提出的挑战。其次,文中的事例贴近现实生活,贴近时代,令读者既印象深刻,又感同身受。此外,作者没有使用大量的专业术语,没有假装一副专业的面孔。纵观全书,遣词造句,均通俗易懂。
其次,作者认为大数据时代具有三个显著特点。
一、人们研究与分析某个现象时,将使用全部数据而非抽样数据;
二、在大数据时代,不能一味地追求数据的精确性,而要适应数据的多样性、丰富性、甚至要接受错误的数据。
三、了解数据之间的相关性,胜于对因果关系的探索。“是什么”比“为什么”重要。
最后,作者指出,随着技术的发展,数据的存储与处理成本显著降低,人们现在有能力从支离破碎的、看似毫不相干的数据矿渣中抽炼出真知烁见。在大数据时代,三类公司将成为时代的宠儿。一是拥有大数据的公司与组织。如政府、银行、电信公司、全球性互联网公
司(阿里巴巴、淘宝网)。二是拥有数据分析与处理技术的专业公司,如亚马逊、谷歌。三是拥有创新思维的公司,他们可能既不掌握大数据,也没有专业技术,但却擅长使用大数据,从大数据中找到自己的理想天地。
第五篇:大数据时代读后感
《大数据时代》读后感
看完“《大数据时代》——生活、工作与思维的大变革”,颇为感慨,这世界变化真的快!农业化、工业化、信息化时代的相继经历,使得世界天翻地覆。
我们不再热衷于寻找因果关系,而应该寻找事物之间的相关关系。这个命题是我读这本书最大的感触。个人认为也是这本书最核心的思想。首先,书提出一个颠覆我以前认知的命题--“并非原子而是信息才是一切的本源”,将世界看做信息,看做可以理解的数据的海洋,为我们提供了一个从未有过的审视下的视角。它是一种可以渗透到所有生活领域的世界观。这个命题是在书的最后一部分中的某一段中描写的。我之所以把它放在最前面来讲,因为我觉得,这是谈数据化世界的前提,自然也是谈论大数据的前提。书的中间部分有一节讲到数据化和数字化的区别。经过我自己脑子的整理,把数据化世界这个命题列为大数据思维的第二步。写到这里,我不由得反省下,我是不是有领悟到书的精髓所在,就是第一句话。书中另一个吸引我的地方就是,有很多观点的论述,会从哲学的高度论述。虽然,自己肚子没多少墨水,但是读这些描述的时候,就会发现自己会更好的理解作者提出的命题。比如书中有一段文字
当我们说人类是通过因果关系了解世界时,我们指的是我们再理解和解释世界各种现象时使用的两种基本方法:一种是通过快速、虚幻的因果关系,还有一种就是通过缓慢、有条不紊的因果关系。大数据会改变这两种基本方法在我们认识世界时所扮演的角色。
在附上一些事例的时候,用作者提供的“本质”去看待时,很容易理解,确实是这么回事。好了,那么大数据到底改变了我们什么呢,作者给出3点,大数据的精髓在于我们分析信息时的三个转变,这些转变讲改变我们理解和组建社会的方法。
第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样(样本=总体)
第二个转变就是,研究数据如此之多,以至于我们不再热衷于追求精确度
第三个转变因前两个转变而促成,即我们不再热衷于寻找因果关系,而应该寻找事物之间的相关关系。大数据告诉我们“是什么”而不是“为什么”。在大数据时代,我们不必知道现象背后的原因,我们只要让数据自己发声。
正如大家所知道的那样,人类的大脑具备这样的功能,它会把新输入的刺激或信息与“过去的经验或积累的部分知识”相对照,然后进行调整并接受下来。如果眼前新的现实与大脑中储存的固有信息无法协调,便会在无意识中拒绝接受新的现实;或者通过自己一知半解的知识任意推测,使自己认识到的情况偏离实际。这是人的一种本能,目的在于使自己保持冷静。所以作者称之为revolution。
讲了这么多,那么大数据到底给我们带来什么。在这里,我只想谈我感触最深的,其他的有兴趣的可以自己去了解。当然,书中提了很多,最多的就是,XXX公司或者个人利用大数据创造了多大的财富了,抛开这些表面的不说,最让我动心亦或者是害怕的是---预测。
大数据的核心就是预测。它通常被视为人工智能的一部分,或者更确切地说,被视为一种机器学习。但是这种定义是有误导性的。大数据不是要教机器像人一样思考。相反,它是把数学算法运用到海量的数据上来预测事情发生的可能性。一封邮件被作为垃圾邮件过滤掉的可能性,输入的“teh”应该是“the”的可能性,从一个人乱穿马路时行进的轨迹和速度来看他能及时穿过马路的可能性,都是大数据可以预测的范围。当然,如果一个人能及时穿过马路,那么他乱穿马路时,车子就只需要稍稍减速就好。但是这些预测系统之所以能够成功,关键在于它们是建立在海量数据的基础之上的。此外,随着系统接收到的数据越来越多,通过记录找到的最好的预测与模式,可以对系统进行改进。
在不久的将来,世界许多现在单纯依靠人类判断力的领域都会被计算机系统所改变甚至取代。计算机系统可以发挥作用的领域远远不止驾驶和交友,还有更多更复杂的任务。别忘了,亚马逊可以帮我们推荐想要的书,谷歌可以为关联网站排序,facebook知道我们的喜好,而linkedin可以猜出我们认识谁。当然,同样的技术也可以运用到疾病诊断、推荐治疗措施,甚至是识别潜在犯罪分子上。
就像互联网通过给计算机添加通信功能而改变了世界,大数据也将改变我们生活中最重要的方面,因为它为我们的生活创造了前所未有的可量化的维度。大数据已经成为了新发明和新服务的源泉,而更多的改变正蓄势待发。
这是大数据带来最核心的东西,动心的理由无须赘述,计算机会告诉你什么时候买什么双色球可以中头奖,想想心里是不是有一点小激动咧。当然这只是我打的一个比较夸张的比喻。至于害怕呢,书中有段话我很喜欢
公平正义的基础是人只有做了某事才需要对它负责,毕竟,想做而未做不是犯罪,社会关系于个人责任的基本信条是,人为其选择的行为承担责任。如果大数据分析完全准确,那么我们的未来会被精准的预测,因此在未来,我们不仅会失去选择的权利,而且会按照预测去行动。如果精准的预测成为现实的话,我们也就失去了自由意志,失去了自由选择的权利。既然我们别无选择,那么我们也就不需要承担责任。这不是很讽刺吗。
扯到这里,顺便扯一下,书中另一段关于自由意志的描述
在哲学界,关于因果关系是否存在的争论已经持续了几个世纪。毕竟,如果凡事皆有因果的话,那么我们就没有决定任何事的自由了。如果说我们做的每一个决定或者每一个想法都是其他事情的结果。而这个结果又是由其他原因导致的。以此循环往复,那么就不存在人的自由意志这一说了。----所有的生命轨迹都只是受因果关系的控制了。因此,对于因果关系在世间所扮演的角色,哲学家们争论不休,有时他们认为,这是与自由意志相对立。
书中举了个例子,举了部电影《少数派报告》,当我看到这里的时候,“哎哟,我居然看过这部电影,想想心里还是有点小激动”,有兴趣的可以去看下,大概就是讲警察通过预测来提前抓捕犯人,不过不是通过大数据,是通过超人类的方式。当你什么举动都可以被预测,相当于你完全暴露在太阳光下,换成你,你害怕不。
最后,附上两段结语,一段是书中的一段话,另一段是我自己瞎编的大数据并不是一个充斥着算法和机器的冰冷世界,人类的作用依然无法被完全替代。大数据为我们提供的不是最终答案,只是参考答案,帮助是暂时的,而更好的方法和答案还在不久的未来。
大数据终将会影响到我们,也像其他技术一样会是一把双刃剑,用得好,动心,滥用,害怕。如同核技术一样,用的话,造福地球,滥用,给个金刚石地球你,照样爆。我相信,未来的大数据的发展会如作者所说的,是一场生活、工作与思维的革命。
无论如何,大家看到这四个是不是有种,不管我上面扯得有没有道理,通不通顺,下面的话,会很有道理的样子的错觉(抄袭于《栋笃笑》)OK,无论如何,日子还是得照过。施主,我看你骨骼惊奇,是个练武奇才,最后送上《九阳神功》心法,以后维护世界和平的重任就交给你了。
他强由他强,清风抚山冈。
他横由他横,明月照大江。
他自狠来他自恶,我自一口真气足。
无处不在的大数据:各种云计算,谷歌的神通,亚马逊的推送,天涯人肉,微博万能等等等等,我们掌握了新的工具,也获取了以前从未有过的各种信息。大数据拉近了我们与现实的距离,“地球村”变成了“地球屋”,仿佛所有人所有事物都触手可及,而这些牛逼哄哄的互联网巨头就在客厅展示着世界的每一寸光景。
然而,事实真的是这样吗?首先,从应用角度出发,低廉的运算能力和存储空间,让以前的样本分析显得非常简陋——一些从全体数据挖掘出来,忽略精确而从大量数据的简单算法得出来的结论颠覆了常识。但个人觉得,这只是统计学的终极目标——并没有非常大的跨越,可能终结了回归分析,有效性验证等手段,但依旧还是统计。而革命性在于关注相关关系而非因果关系。现场讨论从神学角度挑战了因果关系的不可能——或者说人类用简单思考的逻辑来定义因果,以及用之前小数据演绎出大概率事件来推导因果,都是不正确的。真正的因果关系应该属于上帝的范畴,人类如果真的完全掌握之后,会统治整个宇宙。但我觉得,无需从神学观点来讨论,而可以借鉴量子力学对经典力学的颠覆——在原子层面上,经典力学会失效——那么在大数据层面上,普通的抽样调查直观反映会失效。而且从量子力学角度是很难推导经典力学的公式,那么从现在的惯有思维,也难以推导出大数据的因果关系。同时现场有讨论,是否计算机可以精确地模拟每个原子,然后完整地展现微观到宏观的化学反应细节?我觉得首先是计算能力不足,其次即便设定原子的运动条件真的正确,计算结果未知但宏观结果我们却已经知道——牛顿的经典力学足以应付日常绝大部分情况了。好比切西瓜,究竟刀头的铁原子和西瓜的有机分子如何作用,真的重要吗?回归到商业领域,如果我们可以提高相关性的准确度,从而提高投入效率,那就已经足够了。本来一个产品受到一半客户喜欢,但如果通过大数据挖掘到更好的定位,有百分之八十的客户喜欢,那么价值已经非常可观了。
大数据帮助我们把未来的迷雾拨开了一点,但好比《沉重的肉身》当中讨论的,更多的选择权并不能带给人幸福——因为知道自己不能做不能得到的也更多了。解决工作模式,生存意义,幸福之道等问题,关键还是看自己如何看待和使用这些新式工具以及新结论。引用《神探伽利略》里面的台词:可被重复的,一定有道理存在。那么现在重复的越来越多,更需要保持探索和敬畏之心,人才不会迷路。