第一篇:大数据时代读书笔记
危机管理读书笔记
《大数据时代——生活、工作与思维的大变革》
专业:人力资源管理 学号:201111232038姓名:游杰日期:2014-6-
3大数据时代洪流中的我们
——《大数据时代——生活、工作与思维的大变革》读书笔记
《大数据时代——生活、工作与思维的大变革》是大数据系统研究的先河之作。作者之一的维克托•迈尔•舍恩伯格作为“大数据时代的预言家”,曾是哈佛大学肯尼迪学院信息监管科研负责人,为惠普,微软,IBM,Twitter,VISA, Facebook等服务。正是这本书为我们引入了“大数据”的概念:你的习惯动作,你的一次消费行为,你的一份就诊记录„„文字、方位、沟通等一切事物皆可量化为数据。正是我们,每一个处在信息时代的人,有意识或无意识的“自我暴露”,构建了无限膨胀的大数据时代。而我们一手创造的大数据,积聚成一股强大的信息风暴,正在变革我们的生活、工作和思维,开启一个重大的时代转型。
本书的结构可以按照大数据下的思维变革、商业变革、管理变革三个方面进行归纳。引用译者在序中的话来表达,即 “首先,作者抛出了大数据时代处理数据理念上的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果;接着,从万事万物数据化和数据交叉复用的巨大价值两个方面,讲述驱动大数据战车在材质和智力方面向前滚动的最根本动力;最后,作者冷静描绘了大数据帝国前夜的脆弱与不安,包括产业生态环境、数据安全隐私、信息公正公开等问题。”当然从另一个角度来看,这本书的结构框架也遵从了学术性书籍的普遍方式:从现象入手,继而通过对现象的解剖提出对这一现象的解释。然后在通过解释对未来进行预测,并对未来可能出现的问题提出自己看法与对策。
思维
变革
商业
变革
管理
变革
现象呈现 原因解释 未来预测正如译者序中所提到的,本书在观点、观念、例子三个部分都做得很好,且相互之间能够近乎完美的结合起来。“一是观点掷地有声,绝非主流媒体上若干讨论的简单汇总和平均。二是观念高屋建瓴,作者试图从很多实例和经验,包括历史事件中萃取出普适性的观念。三是例子丰富详实。三点近乎完美的结合起来。不仅对于技术从业者、金融等相关行业领域的人,政府和公众机构,而且对于生
活在整个信息社会下的大多数,甚至是全部的人都非常具有价值。”
第一部分中,作者详细说明了大数据时代的思维变革涵盖“不是随机样本,而是全体数据”、“不是精确性,而是混杂性”、“不是因果关系,而是相关关系”三部分内容,即大数据时代,数据在数量、性质和关系方面的变革。第一,“不是随机样本,而是全体数据”,当数据处理技术得到了较大的发展之后,数据分析就采取了全数据模式,样本=总体,比如淘宝进行用户行为分析时会就一个用户在淘宝里的所有行为进行技术分析,而谷歌对流感的预测则是对所有相关词汇搜索行为进行技术分析。第二,“不是精确性,而是混杂性”,数据量的显著增大必然会让我们付出一些代价——一些不准确的数据会混入数据库,结果也可能不准确。对“小数据”而言,最重要的要求就是减少错误;在大数据的采集里,在技术尚未达到完美无缺之前,混乱是无可避的。虽然我们得到的信息不再那么准确,但是收集到的数量庞大的信息让我们放弃严格精确的选择变的更为划算。比如,我们很多人上过豆瓣,豆瓣电影的评分还是相对比较客观的。但是,当影片刚上映时并不是那么客观,因为很多片方会雇佣的水军和五毛党,全部给五颗星,一下子拉高影片的总体评分,后期,随着观影样本人数越来越多,这部影片的评分才趋于理性。大数据时代,我们不要求所有数据的精确,而是容忍混杂,当混杂遇到足够多的量,也许就会得到因量汇聚而产生的精确。第三,“不是因果关系,而是相关关系”,大数据时代要求我们放弃对因果关系的渴求,而取而代之关注相关关系,也就是说知道是什么要比知道为什么来的更实在。作者列举了林登的亚马逊推荐系统的成功,沃尔玛啤酒和尿布,蛋挞和飓风天气的案例,UPS国家快递公司通过使用预测性分析检测其全美6万辆车队等都说明了大数据在商业经营中分析相关性,进行预测方面的强大优势。
第二部分,大数据时代的商业变革分为内容数据化、数据价值实现、数据公司类型三部分。文中用莫里利用人力分析多年保存的航海记录从而绘制导航图的例子告诉我们,远在信息数字化之前,对数据的运用就已经开始了,而日本先进工业技术研究所越水重臣教授通过安装压力传感器将人屁股特征数据化,进而形成对乘客身份的特征识别的技术也为汽车防盗系统提供了方案。这些例子都证明了大数据蕴藏着巨大的商业价值。随着信息技术的变革,我们继续不断将文字、方位、沟通甚至是世间万物都变成数据,然后通过数据的再利用、重组、扩展等实现价值,创造大数据公司。同时,根据所提供价值的数据本身、技能和思维三种不同来源,第一种是基于大量数据本身,却不一定有从数据中提取价值或者用数据催生创新思想的技能。第二种是基于技能,它们掌握了专业技能但并不一定拥有数据或者提出数据创性用途的才能。第三种是基于思维,通过想法获得价值,即将挖掘数据的新价值的创新思维作为脱颖而出的优势。而现在很多成功的互联网公司往往是基于这三种来源,如谷歌、亚马逊等则是包含三者,全面发展的大数据公司。
第三部分中,作者告诉我们大数据虽然有如此多优势,但是却存在很大的潜在危机与不良影响,同时也为我们如何减少风险提供了建议。大数据时代的管理变革则分为大数据的风险和自由度掌控。
大数据带来的风险主要包括个人生活的监视、隐私的泄露、预测惩罚以及数据独裁,对此,通过一定的管理变革。作者在保护个人隐私方面提出了几种想法。一种是使用数据时征询数据所有个人的知晓和授权。第二个技术途径就是匿名化。作者同时也指出了这两种方式的难度。一方面收集到的数据可能会被后续的多次利用。另一方面,匿名化会在数据收集越来越多和数据的相互结合关联使用时变得无效。除了技术层面的保护外,作者还指出不能尽信数据的分析结果,因为不能保证获取分析结果来源的数据准确性。
总的来看,整本书向我们解释了我们正处于大规模生产、分享和应用数据的时代,告诉我们如何科学的应用大数据,开启新的思维模式,新的生活方式与新的工作形态,以应对正在发生着的利益与风险。归纳起来的思想精华是:
(1)大数据开启了一次重大的时代转型
以样本=总体的更多数据分析,让我们更清楚地看到了以前无法揭示的细节信息;以微观的精确度沉迷向宏观的洞察力延伸,让我们更有大方向上的把握;以热衷于寻找因果关系向寻找事物之间的相关关系转变,让我们注意到以前从来没有意识到的联系的存在。
(2)大数据正逐渐成为巨大的经济资产
大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。当文字、方位、沟通,甚至世间万物都变成数据,可量化一切时,就能创造新型价值,渗透到并服务于所有生活领域的方方面面。
(3)大数据改变着我们理解世界的方式
通过去探求“是什么”而不是“为什么”,相关关系帮助我们以全新的视角更好地了解与审视这个世界。通过大数据的运用,效率极大性的增加,细节的捕捉面增大,可预测性也成为了未来的发展核心。
(4)大数据在挑战着我们的理解范围
大数据是用规模剧增来改变现状的,同时它加深了对我们隐私的威胁,甚至会把个人未来行为的预测与惩罚相联系,导致失去自由意志和自由选择权,让我们盲目信任数据的力量和潜能而忽略了它的局限性。因此,不让我们成为数据的奴隶,探讨如何让数据真正为我们所用,提供最好的参考答案,帮助人们做出最明智、最正确的选择,才是终极意义所在。
第二篇:《大数据时代》读书笔记
“凡是过去,皆为序曲”
《大数据时代》读书笔记
2014年2月20日sunjinshuang
各章节内容摘要与感想
第一部分 大数据时代的思维变革
1.不是随机样本,而是全体数据--更多
通过GOOGLE预测流感流行趋势和Farecast系统预测机票价格等例子说明了大数据时代分析数据立足于海量数据分析的重要性,而非传统的取样分析,并且阐述了在很多领域曾经不被重视的混杂数据在大数据时代而产生了新的商业价值的案例,只有从思想上改变了原始的数据分析方法,重视大数据思维方式,才能更好的发现生活中更具价值的信息和商机。
2.不是精确性,而是混杂性--更杂
在“小数据”时代,采样最基本、最重要的要求就是减少错误,保证质量,因为收集的信息量较少,所以要保证记录下来的信息要尽量精确。但在大数据时代,很多时候数据的量变会产生质变,如果依然沿用以前的分析方法,可能会和更多有价值的信息失之交臂,只有容忍不精确性,拥抱混杂性,以一种高屋建瓴的思维方式跳出传统思维模式,才有可能发现更多平凡数据中隐藏的“宝藏”。
3.不是因果关系,而是相关关系--更好
知道“是什么”就够了,没必要知道“为什么”。在大数据时代,我们不必知道现象背后的原因,而是要让数据自己“发声”。本节通过列举了亚马逊网站的书评团队输给图书推荐系统、蛋挞与飓风用品捆绑销售、客户购买行为与怀孕预测、纽约沙井盖与爆炸事故预测等众多经典案例来阐述在生活中很多时候我们并不需要寻找事物之间的因果关系,而只要知道了相关关系就足够给我们的生活和工作带来有价值的信息,人们必须转变在以往的日常生活中,习惯性地用因果关系来考虑事情的思维,才能在大数据
时代更好的认知自己和这个世界。
第二部分 大数据时代的商业变革
1.数据化:一切皆可“量化”
“数据”(data)一词在拉丁文里是“已知”的意思,也可以理解为“事实”。信息化的发展其实就是一场逐渐将世界转化为数据的革命,在将世间万物运转过程中所“散发”的特征量化为数据的过程中,其所具有的的商业价值也就如泉水般源源不断的涌现出来,文中莫里的航海导航图的研制和日本教授通过研究司机不同坐姿的臀部经压力传感器数据化后所孕育出的新型产业链,着实让人眼前一亮,大呼数据化研究的不可思议。如今的信息技术变革重点在“T”(技术)上,而不是在“I”(信息)上。现在,是时候把聚光灯打向“I”,开始关注信息本身了。
2.价值:“取之不尽,用之不竭”的数据创新
节选:
我们所处的时代之所以与众不同,是因为数据的收集不再存在固有的局限性。技术已经发展到一定程度,大量信息可以被廉价地捕捉和记录。数据经常会得到被动的收集,人们无需投入太多精力甚至不需要认识这些数据。而且,由于存储成本的大幅下降(在过去的50年中,数字储存成本大约每2年就削减一半,而存储密度则增加了5000万倍),保存数据比丢弃数据更加容易。这使得以较低成本获得更多数据的可能性比以往任何时候都大。
不同于物质性的东西,数据的价值不会随着它的使用而减少,而是可以不断地被处理。这就是经济学家所谓的“非竞争性“的好处:个人的使用不会妨碍其他人的使用,而且信息不会像其他物质产品一样随着使用而有所耗损。
数据就像一个神奇的钻石矿,当它的首要价值被发掘后仍能不断给予。它的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而绝大部分都隐藏在表面之下。
3.角色定位:数据、技术与思维的三足鼎立
从商业角度描绘了大数据价值链的三种角色定位:
• 基于数据本身的公司
• 基于技能的公司
• 基于思维的公司
并依此讲述了3种定位不同的公司的核心竞争力、未来发展前景和商业模式的转变所带来的新的挑战和商机。作者对未来公司体系结构和经营模式有了大胆的设想,认为大数据是决定未来企业的核心竞争力,对各个行业将会起到决定性的影响,谁首先掌握了大数据技术和思维,进行了深入的变革,谁就会最先受益并在此后的竞争过程中遥遥领先。文中的一个观点让人印象颇深:“行业专家和技术专家的光芒都会因为统计学家和数据分析家的出现而变暗,因为后者不受旧观念的影响,能够聆听数据发出的声音“。
第三部分 大数据时代的管理变革
1.风险:让数据主宰一切的隐忧
2.掌控:责任与自由并举的信息管理
最后一章主要是讲大数据时代的到来带来的个人隐私、公共安全、司法公正方面的风险问题,通过数据的公开和共享,个人信息将越来越容易被利用,个人隐私的保护将变得不堪一击。甚至通过大数据分析预测,将将要犯罪之人绳之以法所面临的道德风险问题,一一进行讨论分析。但就如核工业技术和生物工程学领域的发展一样,人类总是先创造出可能危害自身的工具,然后才着手建立保护自己、防范危险的安全机制,在这方面,大数据也和其他领域的新技术一样,机会的到来也伴随着风险。但作者也在书中讨论了应该如何建立一种安全的机制去管控不可预知的风险问题,甚至设想了一种新的职业--“大数据算法师”,对数据利用的风险进行评估和提供相关分析算法的解决方案这一职业进行了描绘。
虽然大数据技术和思想能帮助我们更好地进行已有的工作,但大数据也并非万能的,人类的创造力、直觉、天赋和灵感远非机器所能取代。大数据为我们提供的不是最终答案,只是参考答案。
第三篇:大数据时代读书笔记
大数据时代——读书笔记
一、引论
1.大数据时代的三个转变:
1.可以分析更多的数据,处理和某个现象相关的所有数据,而不是随机采样
2.不热衷于精确度
3.不热衷与寻找因果关系
2.习惯:用来决策的信息必须是少量而精确的。实际:数据量变大,数据处理速度变快,数据不在精确
3.危险:不是隐私的泄露而是未来行动的预判
二、大数据时代的思维变革
1.原因:没有意识到处理大规模数据的能力,假设信息匮乏,发展一些使用少量信息的技
术(随机采样)
1.1086年 末日审判书 英国对人的记载
2.约翰·格朗特:统计学,采样分析精确性随着采样随机性上升而大幅上升,与样本数
量关系不大
3.1890年,穿孔卡片制表机,人口普查
4.随机采样有固有的缺陷
1.采样过程中存在偏差
2.采样不适合考察子类别
3.只能得出实现设计好的问题的结果
4.忽视了细节考察
2.全数据模式:样本=总体
1.通过异常量判断信用卡诈骗
2.大数据分析:不用随机抽样,而是采用所有数据。不是绝对意义而是相对意义。
(Xroom信用卡诈骗,日本相扑比赛)
3.多样性的价值(社区外联系很多》社区内联系很多)
3.混杂性而非精确性
1.葡萄树温度测量:数据变多,虽然可能有错误数据,但总体而言会更加精确。
2.包容错误有更大好处
3.word语法检查:语料库》算法发展
4.google翻译:让计算机自己估算对应关系,寻找成千上万对译
结论:大数据的简单算法好过小数据的复杂算法
5.大数据让我们不执著于也无法执着于精确
6.MIT的通货紧缩软件:即时的大数据
7.标签:不精确
8.想要获得大规模数据的好处,混乱是一种标准途经
9.新的数据库:大部分数据是非结构化的,无法被利用
10.Hadoop:与mapreduce系统相对的开源式分布系统,输出结果不精确,但是非常快 结论:相比于依赖小数据和精确性的时代,大数据因为更强调数据的完整性和混杂性,帮助我们进一步接近事情的真相。“部分”和”确切“的吸引力是可以理解的。但是当我们的视野局限在我们可以分析和确定的数据上时,我们对世界的整体影响就会产生偏差和错误。不仅失去了尽力收集一切数据和活力,也失去了从不同角度观察时间的权利。
三、不是因果是相关
1.知道是什么就够了,不需要知道为什么。
1.亚马逊放弃书评组,使用大数据预测人们的未来购书需求
2.2.在小数据世界,相关关系有用,但是大数据背景,相关关系大放异彩。通过找关联
物,相关关系可以帮助我们捕捉现在和预测未来
1.A和B经常一起发生,那么A发生时可以预测B发生
2.例子:沃尔玛把飓风用具和蛋挞放在一起
3.过时的寻找关联物的方法
a)原因:数据少且收集花时间
b)在建立,应用假想和选择关联物时容易犯错误
c)结论:我们不需要人工选择关联物
3.大数据的相关分析法更准确,更快
1.例子:FICO我们知道你明天会做什么
2.伊百丽:根据个人信用卡交易记录预测个人收入,防止逃税
3.Aviva:根据生活方式数据预测疾病
4.美国零售商target:通过购买习惯预测是否怀孕
4.通过找出新种类数据的相互联系解决日常需要:找到关联物并监控,我们可以预知未来
1.例子:UPS与汽车修理预测
2.新生儿健康监测:肉眼看不到,但是计算机能看到
5.当收集分析和储存数据的成本较高时,应当适当丢弃一些数据
6.数据的非线性关系
1.幸福的非线性关系
7.快速思维模式使人们偏向于用因果关系看待周围的一切,因此经常对世界产生错误认识。这也使大脑为了避免辛苦思考而产生的捷径。大数据会经常被用来证明我们习惯的思维方式是错误的。
8.证明因果关系的实验开销大,难于操作;相关关系很有用,不仅是因为能为我们提供新的视角,而且提供的视角都很清晰。一旦我们考虑因果关系,这些视角会被蒙蔽。
9.大数据并非是理论消亡的时代。
四、一切皆可量化
1.莫里的信息交换计划:总结所有船只的航海日志已获得好的航线,为第一根大西洋电缆奠定基础
2.坐姿研究与汽车防盗系统
3.数据化
1.把现象转变成可指标分析的量化形式的过程
2.计量和记录促成了数据:
1.阿拉伯数字
2.计数板
3.复式记账法
3.数字化与数据化的区别
1.例子:google的数字图书馆:开始使用扫描-》数字化,进而光学识别-》数
据化。Google借此改进自己的翻译
2.文化组学:定量分析揭示人类行为
4.文字变成数据:人可以阅读,机器可以分析
5.方位变成数据:需要一套标准的标记系统和收集,记录数据的工具。
1. 始于古希腊
2.1884年,国际子午线会议
3.1978年,全球定位系统
4.英国汽车保险
5. UPS的最佳行车路线:减少左转
6.收集用户地理位置数据,以便进行忠诚度计划。或者可以预测交通情况
6.现实挖掘
1.处理大量手机数据,发现并预测人类的行为。
2.例子:预测流感隔离区域
3.例子:通过非洲预付费用户的位置信息和他们账户的资金,发现贫民窟是
经济繁荣的跳板
7.沟通变成数据
1.FaceBook:社交关系数据化
2.推特:情绪数据化。对冲基金正在分析微博的文本,以作为股市投资的信
号。新推特频率可以预测电影票房
3.例子:微博与疫苗:人们对于疫苗的态度与他们实际注射预防流感药物的可能性呈现正相关
8.万物数据化
1.触觉地板:适时开关灯,确定身份,某人摔倒之后是否站起来
2.人体传感器:监控健康状态
4.结论:世界的本质是信息和数据,大数据提供新视角。
五、大数据的潜在价值
1.例子:captcha(验证码,全自动区分人类和电脑的图灵测试)与数据再利用。作者使用了新的验证码recaptcha,人们从计算机光学字符识别程序无法识别的文本扫面项目中读入单词并输出,知道他们都输出正确后才确定(用来破译数字化文本中不清楚的单词)
2.大数据时代,所有的数据都是有价值的。现在,我们能够以较低成本获取并存储数据。数据的真实价值就像漂浮在海洋中的冰山,绝大部分隐藏在表面之下。
3. 不同于物质性的东西,数据的价值不会随它的使用而减少,而且可不断被处理。意味着数据的最终价值远远大于它的最初价值。在基本用途完成后,数据的价值仍然存在,数据的价值是其所有可能用途的总和。
4.例子:IBM与电力汽车动力系统的优化预测:大数据预测模型,甚至考虑天气预报
5.数据再利用:
1. 搜索关键词,搜索结果预测夏天流行色
2.google保存语音翻译记录,开发自己的语音识别技术
3.移动运营商长期使用大数据微调网络性能
4.有些公司可能会收集到大量的数据,但是他们并不急需使用,也不擅长使用数据,但是别的公司可以借此探寻数据的潜在价值
8.重组数据
1.例子:丹麦癌症协会与手机致癌调查:使用所有的手机用户信息和所有的中枢神经系统肿瘤信息。
随着大数据的出现,数据的总和比部分更有价值,当我们将多个数据集的总和重组在一起,重组总和本身的价值也比单个总和更大
9.可拓展数据
1.Google街景和GPS采集,不仅将其用于基本用途,而且进行了大量的二次利用。例如,对Google自动驾驶汽车的运作
10.数据的折旧值
1.随着时间的推移,大多数数据都会失去一部分基础用途,不应用此破坏新数据
2.挑战:如何得知某些数据不再有价值
3.并非所有数据都会贬值。例子:Google希望得到每年的同比数据
结论:组织机构应收集尽可能多的使用数据并保存尽可能长的时间。同时也应该与第三方分享数据
11.数据废气:用户在线交互的副产品,包括浏览哪些页面,停留多久,输入信息等
1.数据再利用的方式很隐蔽
2.例子:Google的拼写检查:搜集每天处理的查询中数据搜索框的错误拼写
3.例子:Google的过滤噪音技术:如果用户点击搜索结果靠后的链接,说明这个结果更加有相关性,Google会把这个页面的排名相应提升。
4.当用户指出了各种自动化程序的错误,实际上是训练了系统
5.例子:巴诺与数据快照,电子书阅读器捕捉人们阅读书籍的习惯
6.例子:Coursera通过捕捉学生犯的错误来提示未来犯错误者
结论:数据废气可以成为公司的巨大竞争优势,和对手的强大进入堡垒
12.开放数据
1.最大的数据收集者:政府,可以强迫人们提供信息,但是信息利用效率低下。最好允许私人运营部门和社会大众访问
2.例子:FlyOnTime网站,通过开放的数据分析航班延误可能性。
3.给数据估值:从数据持有人在价值提取上所采取的不同策略入手,将数据授权给第三方
三、角色定位:数据,技术与思维
1.例子:decide.com广泛收集数据,用来发现不正常,不合理的价格高峰。
2.思维转变的重要性
3.三种大数据公司
1.基于数据本身的公司:twitter
大数据最值钱的是他本身,所以应该优先考虑数据拥有者
例子:机票预订系统ITA不直接使用数据:担心暴露利润
例子:MasterCard通过大数据预测客户的消费习惯
2.基于技能的公司:咨询公司,技术供应商或者分析公司:Teradata
例子:埃森哲公司利用大数据检测汽车零件并节省费用
例子:微软分析公司利用大数据降低病人的再入院率
3.基于思维的公司:创新思维
例子:FlightCaster飞机晚点预测
例子:prismatic分析新闻并排序
4.大数据先驱者一般有跨学科的知识
5.例子:google和amazon三者兼备
6.全新的数据中间商:从各个地方搜集数据,提取有用的信息进行利用,并不威胁数据拥有者的利益
1.社会需要定向广告
例子:Inrix:分析各种汽车制造者的数据和用户的数据,提供卫星导航服务
汽车制造商们本身数据量不够,自身也没有技术利用大数据,也并不介意数据会被中间商利用。同时可以提供失业率等相关数据
例子:Quantcast:收集用户访问信息来测评用户年龄等,之后发定向广告
例子:HCCI收集医疗保单,分析美国医疗费用上涨是否合理
结论:
1.数据价值的转移:从技术到数据本身和大数据思维
2.传统商业模式颠覆:交易数据而不是交易技术
3.传统专家的光芒会被统计和数据学家取代,因为后者只关心数据
1.例子:谷歌翻译团队的工程师都不会说出翻译的语言
2.真正的专家不会消亡,但是主导地位会改变
3.专业技能只适用于小数据时代,因为那是需要依靠直觉和经验指导,但是
遭遇海量数据时,可以通过数据挖掘得到更多
4.数据和统计学知识将成为现代工厂的基础,人类的价值体现在交流上,以进行广泛而深刻的传播
1.例子:交互式游戏,会根据用户来改良,以数据为基础运作
2.例子:The-numbers.com通过大数据来预测电影票房
5.大数据决定企业核心竞争力
1.数据规模决定价值
2.例子:劳斯莱斯通过大数据监测引擎,预测可能出问题的引擎
3.例子:苹果进军手机
4.大数据为小公司带来了机遇:能享受非固有资产规模的好处,低成本传播
创新结果,只需要创新思维
5.大数据拥有者会想办法增加数据存储量
6.消费者成为数据拥有者并与中间商交易
7.大数据对中等规模的公司帮助不大:既没有灵活性也没有规模效应
6.大数据撼动国家竞争力:西方世界优势减少
四、大数据时代的管理
1.大数据会带来很多危险,因为其核心思想是用规模剧增来改变现状。
2.滥用大数据的力量会伤害人身安全
3.大数据的二次利用颠覆了隐私保护法:无法征得个人同意
4.如果所有人的信息在数据库里,有意识地避免就是此地无银三百两
5.匿名化:交叉检验会检验出来
6.大数据预测:罪责判定基于对个人未来行为的预测。大数据可能会否定人的自由意志
7.数据有其局限性,数据的质量可能会很差,有误导性。
8.卓越的才华并不依赖数据:Apple乔布斯的才能
五、掌握大数据
1.个人隐私保护:从个人许可到让数据使用者承担责任,因为将责任从民众转移到数据使用者很有意义因为数据使用者比其他人更明白他们想怎么样使用数据,也因为他们是最大利益获得者:监管机制可以决定不同种类的个人数据必须删除的时间
2.信息模糊处理
3.个人应该为他们的行动而非倾向负责
4.打破大数据的黑盒子:大数据算法师:评估数据源,分析数据工具,解读运算结果
1.外部算法师:审计大数据的准确程度和有效性
2.内部算法师:监督大数据的运转
5.反数据垄断
六、结语
没有什么是上天注定的,因为我们总能就手中的信息制定出相应的对策。大数据的预测结果也并非铁定而只是一种可能性,也就是说,只要我们愿意,结果可以改写,我们可以判定出迎接未来的最佳方式,也无需理解宇宙的奥秘或者神的存在,因为大数据帮我们做好了。更大的数据来源于人本身,大数据所不能预测的,正是人类的直觉,勇气,探索精神和独创性。使用大数据的时候,我们应该怀有谦卑之心,铭记人性之本
第四篇:大数据时代读书笔记
大数据时代读书笔记
1.三个观念转变
1.1.分析少量数据样本到分析相关全部数据
采样分析的精确性随随机性的增加而大幅提高,但与样本数量增加关系不大; 随机采样适合于宏观而不适用于微观,当针对子类别细分时则有很大缺陷; 为了扩大数据规模,我们可以适量接受错误的存在*不同的算法适用于不同的数据量(大数据基础上的简单算法比小数据基础上的复杂算法更有效)
分析因果关系到分析相关关系
第五篇:《大数据时代》读书笔记-20140203
大数据意味着什么——《大数据时代》读书笔记
自英国人维克托.迈克.舍恩伯格(Viktor Mayer Schonberger)2013年写了一本叫《大数据时代:生活、工作和思维的大变革》的互联网专著,“大数据”一夜之间成为全球互联网领域的核心关键词,无论国外的谷歌、亚马逊、facebook、twitter,还是国内的新浪、腾讯、淘宝、京东、当当、百度等互联网企业及传播学者、新媒体研究者、媒体人都将注意力转移到这一核心关键词上面,仿佛这年头如果你还对大数据浑然不知,走出去都不好意思跟传播学大家谈互联网,谈新媒体,谈如今如火如荼的电子商务。那么,到底什么是大数据?大数据有哪些特征?大数据对互联网、对普通网民意味着什么呢?
去新华书店搬回来这本大部头,一口气读完,维克托用生动的案例幽默的语言,针对上述问题娓娓道来。
提起“数据”,大家都知道是一种用0、1等计算机语言表示的信息,而所谓的“大数据”就是一种流量、存储量超级大(以TB计算)数据。谷歌地图街景(图片)是大数据,每一个微博用户在微博上产生的全部内容合起来作为一个整体是一种大数据,淘宝店主和每一位淘宝用户在淘宝这个平台上产生的所有信息作为一个整体是一种大数据,国内最大的搜索引擎百度里面所有的无数条的类目信息合起来也是一种大数据,这些都是互联网企业普遍存在的大数据,事实上,大数据在我们的日常生活中还有更为普遍的应用:超级市场里每一位会员刷卡购物(非会员购物买单时留下的购物清单也是大数据的一部分)时留下来的信息是大数据,百货大楼、大商场里面各个角落里安装的摄像头拍下每一位顾客进出商场及在商场中活动的画面是大数据,甚至汽车里面安装的电子狗、导航系统作业时也能带来大数据。细数身边常接触的这些大数据,仿佛还不得不信维克托这位号称“大数据商业应用第一人”大胆提出的“大数据”这个新概念的存在。大数据最大的特征就是数据量大、庞大、巨大。因为数据量大,所以才能商业特别是互联网企业带来不可估量的现时或潜在的价值,如果百度里面的数据量不够大,可供网民搜索的类目和条目不够多,那它毫无可能成为网民的“移动的百科全书”。如果超级市场里面顾客和会员没有留下大量的数据,那么超级市场根本无从精确判断下个月该进多少货,该进哪些货品。这,就是数据量够大带来的变革之一。其次,大数据还具有巨大的商业价值。1
除了刚才举到的两个案例,再譬如汽车里面安装的导航系统如果除了导航还增加实时测速、安全气囊爆破记录甚至刹车、加速、减速记录功能,那么它形成的大数据对保险公司定制车险套餐,汽车维修店开发新业务具有强大的参考借鉴价值。再譬如,每一位微博用户,哪怕你从不发微博(内容)只是围观,对于新浪微博也具有商业价值,因为新浪微博大数据的构成离不开每一位微博用户。当然,大数据的商业价值远非于此,下文还会讲到。大数据的第三个特征是具有相关性。因为数据与数据之间具有相关性,大数据才可供分析,分析的结果才能带来更多的价值。但是在本书中,维克托主张一种观点,就是无需在乎数据之间的因果关系,只要能看到数据之间的相关关系即可。譬如汽车安全气囊爆破的概率和车祸之间没有必然的因果关系,但是安全气囊爆破和保险公司为车主定制更为精准的保险套餐之间却有相关关系,用户只要关注后者即可,而不必纠结与因果关系。除此之外,大数据还具有非精确性、免费和可重复利用等特征。
第三个问题:大数据对普通人意味着什么,即大数据能给普通人的生活带来哪一些影响呢?当然,提到影响就必然要分正面的和负面的来谈。首先谈谈大数据的正面影响。用维克托在《大数据时代》中提到的两个印象深刻的经典案例来说明这个问题。第一个案例是,facebook前几年通过搜集上亿条有关流感的信息进行分析,从而预测美国各大城市何时会发生流感,以让大家为预防流感提前做好准备。这是大数据给普通人带来实实在在正面影响的典型,此外这一案例还反映了大数据一个强大的功能,那就是预测功能,而维克托的这本书本身就是面向未来的,书中所提到的案例极少是已经实现了的,维克托提出的“大数据”这个新概念给互联网的未来描绘了一幅看起来前途无限光明的蓝图,而他提到的利用大数据进行商业和管理的案例大多有待进一步开发和尝试。当然,facebook、twitter上的信息既然能够预测流感,那它肯定还能够预测像电影票房这样的普通数据。第二个案例是,乔布斯利用大数据治疗癌症的例子。大家都知道乔布斯是因为胰腺癌于2011年去世的,但可能大家并不清楚乔布斯事实上早在好多年前就知道自己患了癌症并让他的医生给他做23对基因碱基配对,根据配对结果再制定用药计划,而基因碱基配对可以得出无数种(N+N+N+...)数据,这就意味着乔布斯在去世之前其实已经尝试了N种治疗方案了,而还未等到他尝试所有因基因碱基配对制定的药物治疗疗程就去世了。这个案例说明,大数据原来还可以在医疗领域进行应用。除了上述两个案例,维克托给人们描绘的大数据的强大用途还体现在商业运营、企业管理等领域,想了解更多大数据的用途建议有兴趣者去阅读这本书。
前面谈到任何事物都具有两面性,大数据对人们的影响除了正面的积极影响,同时也存在隐患和负面影响。作为一本学术专著,维克托在这本书的最后也提到了大数据带来的最大隐
患就是侵犯隐私和保护隐私权的问题。谷歌地图街景功能的开发应用,将普通人的生活毫无保留地呈现在公众面前,尽管在被控诉之后谷歌已对高清街景的隐私部分打了马赛克,作了模糊处理,但依然无法减少大家对这它的抱怨和恐惧。
写至此,我不得不说,大数据确确实实正在改变着商业,管理甚至普通人的工作、生活和思维,我们特别是互联网企业也领略到了大数据带来的诸多便利和好处,与此同时,大数据也带来了侵犯隐私等问题,大数据是一种信息,或者说是一种媒介,它是好是坏完全取决了利用大数据的人,一方面可以大胆想象并开发大数据的潜在功能和价值,为人们带来好处,另一方面,我们也应防止大数据的滥用。