第一篇:大数据读书报告[最终版]
这本书里主要介绍的是大数据在现代商业运作上的应用,以及它对现代商业运作的影响。《 大数据时代》这本书的结构框架遵从了学术性书籍的普遍方式。也既,从现象入手,继而通过对现象的解剖提出对这一现象的解释。然后在通过解释在对未来进行预测,并对未来可能出现的问题提出自己看法与对策。
下面来重点介绍《大数据时代》这本书的主要内容。
《大数据时代》开篇就讲了google通过人们在搜索引擎上搜索关键字留下的数据提前成功的预测了2009年美国的h1n1的爆发地与传播方向以及可能的潜在患者的事情。google的预测比政府提前将近一个月,相比之下政府只能够在流感爆发一两个周之后才可以弄到相关的数据。同时google的预测与政府数据的相关性高达97%,这也就意味着google预测数据的置信区间为3%,这个数字远远小于传统统计学上的常规置信区间5%!而这个数字就是大数据时代预测结果的相对准确性与事件的可预测性的最好证明!通过这一事以及其他的案例,维克托提出了在大数据时代“样本=总体”的思想。我们都知道当样本无限趋近于总体的时候,通过计算得到的描述性数据将无限的趋近于事件本身的性质。而之前采取的“样本<总体”的做法很大程度上无法做到更进一步的描述事物,因为之前的时代数据的获取与存储处理本身有很大的难度只导致人们采取抽样的方式来测量事物。而互联网终端与计算机的出现使数据的获取、存储与处理难度大大降低,因而相对准确性更高的“样本=总体”的测算方式将成为大数据时代的主流,同时大数据时代本身也是建立在大批量数据的存储与处理的基础之上的。
接下来,维克多又通过了ibm追求高精确性的电脑翻译计划的失败与google只是将所有出现过的相应的文字语句扫描并储存在词库中,所以无论需要翻译什么,只要有联系google词库就会出现翻译,虽然有的时候的翻译很无厘头,但是大多数时候还是正确的,所以google的电脑翻译的计划的成功,表明大数据时代对准确性的追求并不是特别明显,但是相反大数据时代是建立在大数据的基础住上的,所以大数据时代追求的是全方位覆盖的数字测度而不管其准确性到底有多高,因为大量的数据会湮埋少数有问题的数据所带来的影响。同时大量的数据也会无限的逼近事物的原貌。
之后,维克托又预测了一个在大数据时代催生的重要职业——数据科学家,这是一群数学家、统计学与编程家的综合体,这一群人将能够从获取的数据中得到任何他们想要的结果。换言之,只要数据充足我们的一切外在的与内在的我们不想让他人知道的东西都见会在这一群家伙的面前展现得淋漓尽致。所以为了避免个人隐私在大数据时代被这一群人利用,维克托建议将这一群人分为两部分,一部分使用数据为商业部门服务,而另一群人则负责审查这一些人是否合法的获得与应用数据,是否侵犯了个人隐私。无论如何,大数据时代将会到来,不管我们接受还是不接受!而且这两年,大数据这个词突然变得很火,不仅出现在阿里巴巴、谷歌等互联网公司的战略规划中,同时在我国国务院和其他国家的政府报告中多次提及,无疑成为当今互联网世界中的新宠儿。我对大数据一直好奇已久,阅读了很多资料仍不得其解,直到读完《大数据时代》才有了粗略的认识。
我侧重于从第一部分中的这三个观点谈谈自己的看法,这三个观点可以说是哲学上说的世界观,这三个观点可以说是哲学上说的世界观,因为世界观决定方法论,所以这三个观点对传统看法的颠覆,就会导致各种变革的发生。首先是第一个,作者认为在抽样研究时期,由于研究条件的欠缺,只能以少量的数据获取最大的信息,而在大数据时代,我们可以获得海量的数据,抽样自然就失去它的意义了。放弃了随机分析法这种捷径,采用所有的数据。作者用大数据与乔布斯的癌症治疗例子说明了使用全部数据而非样本的意义,列举了日本“相扑”等来证明使用全体数据的重要性。这个观点足以这个观点足以引起统计学乃至社会文明的变革,因为统计抽样和几何学定理、万有引力一样被看做文明得以建立牢固的基石。我对这个观点还是比较认同的,如果真能收集到整体的数据而且分析数据的工具也足够先进,自然是全体数据研究得出的结果更令人信服。但是这个观点也过于绝对,就算是在大数据时代要想收集到全体数据还是不太可能实现的,因为收集全体数据要付出的代价有时会很大。比如说,你要检测食品中致癌物质是否超标,你不可能每一件食品你都检测一遍吧。
第二,要效率不要绝对的精确。作者说,执迷于精确性是信息缺乏时代和模拟时代的产物,只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱,剩下95%的非结构化数据都无法被利用。作者是基于数据不可能百分之百正确的考虑而做出这样的判断的,如果采用小数据一个数据的错误就会导致结果的误差很大,但是如果数据足够多、数据足够杂那得出的结果就越靠近正确答案。大数据时代要求我们重新审视精确性的优劣,甚至还说到大数据不仅让我们不再期待精确性,也让我们无法实现精确性。谷歌翻译的成功很好地证明了这一点,谷歌的翻译系统不像candide那样精确地翻译每一句话,它谷歌翻译之所以优于ibm的
candide系统并不是因为它拥有更好的算法机制,和微软的班科和布里尔一样,谷歌翻译增加了各种各样的数据,并且接受了有错误的数据。第三个观点,不是因果性,而是相关性,这是这本书中争议最大的一个观点,不仅是读者,就算是本书的译者也在序言中明确地说到他不认同“相关关系比因果关系更重要”的观点。作者觉得相关关系对于预测一些事情已经足够了,不用花大力气去研究他们的因果关系。作者用林登的亚马逊推荐系统的成功,证实了大数据在分析相关性方面的优势以及在销售中获得的成功。沃尔玛也是充分利用并挖掘各类数据信息的代表,从啤酒和尿布的案例,以及作者举的有 关蛋挞和飓风天气的案例,都说明了掌握了相关关系对于他们策略的帮助。一句话,知道是什么就够了,不用知道为什么。很明显作者所举的例子都是属于商业领域的,但是对于其他领域来说这个观点就值得商榷了。比如说,在科学研究领域,你需要知其然也需要知道其所以然,找到事件发生的原理。用文中的一个例子说明,乔布斯测出整个基因图谱来治疗癌症,但是你治疗癌症你必须知道癌症发病的原理,知道哪一段基因导致了这种疾病,不可能只是说收集各种数据,然后利用其相关性来判断哪里出现了问题
作者在书中把大数据说的很厉害,在最后一部分分析大数据带来无数好处的同时带来的不良影响以及如何面对这些影响。用麦克纳马拉的例子来说明对数据过度依赖所带来的后果。也用《少数派的报告》这部电影来说明如果痴迷于数据会导致我们将生活在一个没有独立选择和自由意志的社会,如果一切变为现实,我们将被禁锢在大数据的可能性之中。所以书中提出了几种解决方法,一种是使用数据时征询数据所有个人的知晓和授权。第二个技术途径就是匿名化。毫无疑问,大数据将会给社会管理带来巨大的变革。
大数据给人类社会的方方面面带来了巨大的变革,这是社会发展的潮流,不可逆转,我们只有顺应这种潮流,在思想上和技能上做好准备才能成为时代的弄潮儿。对于一家公司或一个国家,要从根本上改变思维和观念,尽早适应这种潮流。
最后,附上一段来自原著的结语:
大数据并不是一个充斥着算法和机器的冰冷世界,人类的作用依然无法被完全替代。大数据为我们提供的不是最终答案,只是参考答案,帮助是暂时的,而更好的方法和答案还在不久的未来。篇二:《大数据时代》读书报告
读书报告
——读《大数据时代》
坦白地说,这是我第一本看了睡不着的书,我还记得第一次阅读时的兴奋和激动,就像一场头脑风暴。书里的事例是那么的鲜活与生动,完全颠覆我的思维方式,打破了我大脑中解决问题原有的枷锁。这本书让我明白了太多~~~ 它让我明白生活必须要主动。有些人碰到了不公就自认倒霉,能干一点的可能还会去讨个说法,但并没有解决实际问题,这一次可能挽回了那么一点点的损失,但下次遇到了仍是如此,无限循环。当你绞尽脑汁为了节约成本而提前一个月去购买一张你自以为廉价的飞机票,回头却发现,比那些只提前一天购买的人所付的钱还要高出很多时,不知你会怎么想?是被动的接受还是想方法让现实变得更美好? 它让我更好地去理解现实生活的很多情况。现在才理解,为什么网络上有这么多验证码的存在,为什么社交网要用实名制注册,为什么有这么多的“我猜你喜欢”~~~ 虽然我很喜欢那些“黑匣子”,会让我感觉很神奇,但当我真正理解的他的原理时,其实更让我兴奋不已。原来谷歌翻译背后是这样操作的,原来那些每天时不时闯进我们眼球的广告并非偶然,原来预测流感不需要疾控中心而是网络词条,原来电影在开播前就已经知道了收视率和票房~~~ 当然以上这些相当抓人眼球,但这只是大数据的表面,其真正的价值远不仅如此。人类总是以为自己很强大,能控制一切,当然最好还能预测未来。其实大数据真的可以做到,虽然不可能很精确。在我看来这样更好,大致结果可以意料,这就够了,如果发现结果不尽如人意,我们可以提前控制。当然还会有我们意想不到的情况发生,这样会让未来更充满想象,更加充满期待。
它让我懂得不能墨守成规,也不能自以为是。大数据环境是那些微型企业发展的福地,它是行业竞争重新洗牌的动力源泉。在大数据面前,小公司不需要妄自菲薄,大的商业帝国也只有打气十二分的精神才可能让自己立于不败之地。
他让我知道没有做不得,只有想不到。现在的赚取资本的方式已经不再是单靠苦力就可以解决问题的时代了,看见朋友圈里的那些做代购的,都在自我催眠“不要看我们现在是微商~~~微商将来前途无量~~~·”我一直都抱着看看不说话的心态,难免也会哂笑,真的不知道他们和菜场卖菜的有什么本质区别~~~现在是一个依靠知识科技来富国强兵的时代了,真正的优势来源于你提前想到了别人还没去想的,提早完成了别人还没有筹备的计划。
他让我学会世界上没有光杆司令,我们必须学会合作。一个人的能力是有限的,一个人的时间也是有限的,同样公司,国家都是一样的。我们知道谷歌,亚马逊,facebook以及中国的阿里巴巴,百度,新浪这些企业都很强大,可是他们仍然在不断收购合并整合其他一些小的公司,为的是引用他们的科技技术来强大自己的事业版图。
它还教会我在机会面前必须要眼疾手快。在你还在犹豫不决或是自我陶醉的时候,你的对手已经用一个非常低廉的价格得到了他想要翻身的王牌,当你发现时,要么花大血本去换取一张相似的王牌,要与他赤身搏斗。大部分情况下那些聪明的人往往会选择前者,因为他们知道宁可为自己现在的失误埋单也不会让自己靠近万丈深渊。因为若丧失了主动权,那么很有可能导致的结果就是,那个原来看起来微不足道的“小木桩”却扳倒了你这体积庞大的“大象”。
说了这么多大数据给我的启示,其实就是想突出大数据背后的那种神奇的力量。在近代我们似乎与每一样新的科技都失之交臂,但是这一次我们似乎还有机会和时代同步伐,甚至如果我们足够重视,可能还会走在时代的前沿。虽然我们现在谁都没有把握中国到底会利用大数据到什么程度,但已经有好多像周涛一样的有志之士看好中国在利用大数据上的实力,并且付诸了他们的努力。他们一直都坚信以前的落后仅仅是时间上的后知后觉,他们在这一次想
要做到与世界同步,和欧美同步发行此书,在最早一刻就向大家推广大数据这一新名词,向大家灌输着大数据的思维。对此,我也很庆幸,在恰当的时间点与大数据的偶遇。
当然,世界上没有十全十美的东西,再好的发明总是有它的缺陷,大数据也不会例外。舍恩伯格这个对大数据最有权威发言权的人,既然有能力将大数据的好处讲得淋漓尽致,毫无疑问自然也是最清楚大数据危险的人。我很尊敬他的严谨和坦诚,他在细致入微地解释大数据革命性优势的同时,毫无修饰地点明了大数据的劣根性。他很准确地说明了如果我们滥用或误用数据,我们将会受到毁灭性的打击,后果将会如何不堪设想,并且这篇幅一点都不敷衍。作者非常专业,他并没有像某些专家一样,一味地鼓吹自己的“一家之言”。而是在我们头脑发热,一哄而上之前,就给我们非常而且深刻的警醒。这也正是大数据思维的其中之一:馈前控制。
读完这本书以后,我有的确一点蠢蠢欲动,因为它让我觉得大数据并没有像想象的那么遥不可及。书中说,会好好利用大数据的有三种人:第一种是拥有庞大数据库的政府或者商业机构,他们之前只是不知道那些尘封已久的数据还可以创造巨大的价值。第二种是利用技术手段,让数据发挥它独特功能,从而帮他们解决实际问题的数据分析学家,统计师,精算师和其他一些有关于处理数据的相关人员,他们非常了解数据的状态,结构和特征。的确这两类人实力雄厚,前者拥有数据本身,而后者拥有技术。但他们有着同样的短板,那就是他们没有更为创新,灵动的视野,他们很难或者说没有更多的时间去发现那些数据的真正力量。因为他们有太多的思维定式,但种种利用大数据的成功事例表明,每次数据创造的奇迹总在那么的偶然和不经意之间。而这正是我们第三种人的长处,我们没有思维定式,更有闲暇的时间来感受生活,激发灵感。篇三:《大数据》读书笔记 《大数据》读书笔记
版本介绍
书名:《大数据》 作者:涂子沛
出版社:广西师范大学出版社
副标题:正在到来的数据革命,以及它如何改变政府、商业与我们的生活(2.0升级版)出版年:2013-11 页数 :362 字数:242千字
开本:700mm*1000mm 1/16 定价:49.90元
isbn:9787549518371 作者介绍
学术界评价
大数据具有催生社会变革的能量。但释放这种能量。需要严谨的数据治理、富有洞见的数据分析,以及一个激发管理创新的环境。涂子沛的《大数据》这本书总结了美国的经验和实践,并为中国提出了一个路线图。我为他的成就感到骄傲。这本书完整地融合了技术、政治、商业三个角度,体现了我们学院师资教学的独特优势。我相信本书会在中国激发新的思想和讨论,帮助中国迎接大数据的挑战。---ramayya krishnan(卡内基梅隆大学海因兹学院及信息管理学院院长、终身教授)《大数据》是一本视角独特、取材新颖、别开生面的好书。它以数据位轴线,描绘了美国走过的开放创新历程。从该历程中我们看到,数据挖掘是一种知识生产过程,从中产生创新,产生管理,产生推动社会变革的理论与实践。更有意思的是,美国政治的发展,公民权利的实现,以及各种自由与福利的保障,都和对数据的创造性应用密切相关。这对已经步入信息时代的中国,尤其有借鉴意义。趋势所在,数据乃大。涂子沛先生的专业性分析和介绍,是一项创造性的工作。
---魏巍青(中山大学政治与公共事务管理学院教授)内容概要
本书通过讲述美国半个多世纪信息开放、技术创新的历史,以别开生面的经典案例——奥巴马建设“前所未有的开放政府”的雄心、公共财政透明的曲折、《数据质量法》背后的隐情、全民医改法案的波澜、统一身份证的百年纠结、街头警察的创新传奇、美国矿难的悲情历史、商务智能的前世今生、数据开放运动的全球兴起,以及云计算、facebook和推特等社交媒体、web3.0与下一代互联网的未来图景等等,细解了数据创新给公民、政府、社会带来的种种挑战和变革。“美国是全书主体,但又处处反观中国当下的现实。回望中国,胡适批评“差不多先生”,黄仁宇求索“数目字管理”,作者从太平洋对面看到中美两国的差距,深知中国缺少什么、需要什么,故将十多年观察、思索所得,淘洗成这一本书。”
分析评价
此书的一个重要特点就是全书以美国为例贯穿始终,讲述了美国如何利用数据改变自身,可是作为读者的我们又不得不面对中国的现实,所以对比是不用明说大家就会自行进行的。
数据改变世界,但是作者通过一个个例子有告诉我们,数据并不仅仅是数据,改变世界的也不是数字,而是数据组合背后的信息量。书中处处讲国家决策,可是个人阅读的时候需要将自身情况带入,但又要考虑时代,能不能理解为需要理解力呢?
师夷长技以制夷,美国虽然一定程度上是中国的对手,但是在大数据到来的时代我们必须“追随”它的脚步,学习大数据的进程,就好像一个工具的使用说明书,学会用它,你才有可能比别人用的更好。
对读者的启发
作者在概念化“大数据”,这样一个泛化的理论在普及时会给人以“不明觉厉”(不知道怎么回事但是感觉很厉害)的印象,有助于推广,也有助于畅销书的卖座。但是作为读者我认为必须要理解什么是真正的大数据。我理解的大数据,按照作者所言,它的终极应该是一种宏观规律。可以这么理解,宏观规律是一直客观存在的,这个规律只要遵循就能让事情按照最顺利的方式进行。但是人们并不知道这个规律,因为他体现在大量数据堆叠中的一个宏观现象,就好像一滴一滴的水在运动,而宏观规律则是海浪的运动方向。在古代近现代,人们缺乏大量数据的收集统计分析手段,但是在现代计算机等技术的发展下,数据尽量详细的收集和分析成为可能,这就让人们能够通过数据的分析接近宏观规律,就好像数学里通过几个点的坐标推理出函数关系一样。但是因为宏观规律是理想的,所以理论上只能无限接近而不能完全符合,但这依然足以让获取这些数据的人得到巨大的好处,按照规律办事永远会有最节省的花费和最好的效果。
大数据时代意味着足够多足够细致的数据收集和分析,掌握大局,所谓的“大局观”也
具象化为一种可以判断的规律。
那么大数据时代需要的有两个方面,一个是足够的技术支持,这个是基础条件;另一个则是对于数据的敏感程度,这关乎收集的质、量。
还有重要的一点就是大数据时代应该更加强调团队合作及人与人的交流,因为这已经不是个人能够完成的事项了,即使有计算机的帮助。
引文摘要
“我们信靠上帝。除了上帝,任何人都必须用数据来说话。”
这句话在美国流传极广
“我们信靠上帝”源于美国国歌,印在货币上不说,还是美国的国家箴言。作为一个宗教大国,美国有90%至92%的人都声称相信上帝。“除了上帝,任何人都必须用数据来说话”,这句话吧数据提到了和上帝相提并论的高度,这反映了美国人对于数据的无比推崇。---p062第三章:数据治国篇四:大数据时代读书笔记
大数据时代——读书笔记
一、引论 1.大数据时代的三个转变: 1.可以分析更多的数据,处理和某个现象相关的所有数据,而不是随机采样 2.不热衷于精确度
3.不热衷与寻找因果关系 2.习惯:用来决策的信息必须是少量而精确的。实际:数据量变大,数据处理速度变快,数据不在精确
3.危险:不是隐私的泄露而是未来行动的预判
二、大数据时代的思维变革 1.原因:没有意识到处理大规模数据的能力,假设信息匮乏,发展一些使用少量信息的技
术(随机采样)
1.1086年 末日审判书 英国对人的记载 2.约翰·格朗特:统计学,采样分析精确性随着采样随机性上升而大幅上升,与样本数
量关系不大
3.1890年,穿孔卡片制表机,人口普查 4.随机采样有固有的缺陷 1.采样过程中存在偏差 2.采样不适合考察子类别
3.只能得出实现设计好的问题的结果 4.忽视了细节考察
2.全数据模式:样本=总体 1.通过异常量判断信用卡诈骗 2.大数据分析:不用随机抽样,而是采用所有数据。不是绝对意义而是相对意义。
(xroom信用卡诈骗,日本相扑比赛)3.多样性的价值(社区外联系很多》社区内联系很多)3.混杂性而非精确性
1.葡萄树温度测量:数据变多,虽然可能有错误数据,但总体而言会更加精确。2.包容错误有更大好处
3.word语法检查:语料库》算法发展 4.google翻译:让计算机自己估算对应关系,寻找成千上万对译
结论:大数据的简单算法好过小数据的复杂算法 5.大数据让我们不执著于也无法执着于精确 6.mit的通货紧缩软件:即时的大数据 7.标签:不精确
8.想要获得大规模数据的好处,混乱是一种标准途经 9.新的数据库:大部分数据是非结构化的,无法被利用 10.hadoop:与mapreduce系统相对的开源式分布系统,输出结果不精确,但是非常快 结论:相比于依赖小数据和精确性的时代,大数据因为更强调数据的完整性和混杂性,帮助我们进一步接近事情的真相。“部分”和”确切“的吸引力是可以理解的。但是当我们的视野局限在我们可以分析和确定的数据上时,我们对世界的整体影响就会产生偏差和错误。不仅失去了尽力收集一切数据和活力,也失去了从不同角度观察时间的权利。
三、不是因果是相关 1.知道是什么就够了,不需要知道为什么。1.亚马逊放弃书评组,使用大数据预测人们的未来购书需求 2.2.在小数据世界,相关关系有用,但是大数据背景,相关关系大放异彩。通过找关联 物,相关关系可以帮助我们捕捉现在和预测未来 1.a和b经常一起发生,那么a发生时可以预测b发生 2.例子:沃尔玛把飓风用具和蛋挞放在一起 3.过时的寻找关联物的方法 a)原因:数据少且收集花时间 b)在建立,应用假想和选择关联物时容易犯错误 c)结论:我们不需要人工选择关联物 3.大数据的相关分析法更准确,更快 1.例子:fico我们知道你明天会做什么 2.伊百丽:根据个人信用卡交易记录预测个人收入,防止逃税 3.aviva:根据生活方式数据预测疾病 4.美国零售商target:通过购买习惯预测是否怀孕 4.通过找出新种类数据的相互联系解决日常需要:找到关联物并监控,我们可以预知未来
1.例子:ups与汽车修理预测 2.新生儿健康监测:肉眼看不到,但是计算机能看到 5.当收集分析和储存数据的成本较高时,应当适当丢弃一些数据 6.数据的非线性关系 1.幸福的非线性关系 7.快速思维模式使人们偏向于用因果关系看待周围的一切,因此经常对世界产生错误认识。这也使大脑为了避免辛苦思考而产生的捷径。大数据会经常被用来证明我们习惯的思维方式是错误的。8.证明因果关系的实验开销大,难于操作;相关关系很有用,不仅是因为能为我们提供新的视角,而且提供的视角都很清晰。一旦我们考虑因果关系,这些视角会被蒙蔽。9.大数据并非是理论消亡的时代。
四、一切皆可量化 1.莫里的信息交换计划:总结所有船只的航海日志已获得好的航线,为第一根大西洋电缆奠定基础
2.坐姿研究与汽车防盗系统 3.数据化
1.把现象转变成可指标分析的量化形式的过程 2.计量和记录促成了数据: 1.阿拉伯数字 2.计数板 3.复式记账法
3.数字化与数据化的区别
1.例子:google的数字图书馆:开始使用扫描-》数字化,进而光学识别-》数
据化。google借此改进自己的翻译 2.文化组学:定量分析揭示人类行为 4.文字变成数据:人可以阅读,机器可以分析 5.方位变成数据:需要一套标准的标记系统和收集,记录数据的工具。1. 始于古希腊 2.1884年,国际子午线会议 3.1978年,全球定位系统 4.英国汽车保险
5. ups的最佳行车路线:减少左转 6.收集用户地理位置数据,以便进行忠诚度计划。或者可以预测交通情况 6.现实挖掘
1.处理大量手机数据,发现并预测人类的行为。2.例子:预测流感隔离区域 3.例子:通过非洲预付费用户的位置信息和他们账户的资金,发现贫民窟是
经济繁荣的跳板 7.沟通变成数据
1.facebook:社交关系数据化
号。新推特频率可以预测电影票房
可能性呈现正相关 8.万物数据化
1.触觉地板:适时开关灯,确定身份,某人摔倒之后是否站起来 2.人体传感器:监控健康状态 4.结论:世界的本质是信息和数据,大数据提供新视角。
五、大数据的潜在价值 1.例子:captcha(验证码,全自动区分人类和电脑的图灵测试)与数据再利用。作者使用了新的验证码recaptcha,人们从计算机光学字符识别程序无法识别的文本扫面项目中读入单词并输出,知道他们都输出正确后才确定(用来破译数字化文本中不清楚的单词)2.大数据时代,所有的数据都是有价值的。现在,我们能够以较低成本获取并存储数据。数据的真实价值就像漂浮在海洋中的冰山,绝大部分隐藏在表面之下。3. 不同于物质性的东西,数据的价值不会随它的使用而减少,而且可不断被处理。意味着数据的最终价值远远大于它的最初价值。在基本用途完成后,数据的价值仍然存在,数据的价值是其所有可能用途的总和。4.例子:ibm与电力汽车动力系统的优化预测:大数据预测模型,甚至考虑天气预报 5.数据再利用:
1. 搜索关键词,搜索结果预测夏天流行色 2.google保存语音翻译记录,开发自己的语音识别技术 3.移动运营商长期使用大数据微调网络性能 4.有些公司可能会收集到大量的数据,但是他们并不急需使用,也不擅长使用数据,但是别的公司可以借此探寻数据的潜在价值 8.重组数据 1.例子:丹麦癌症协会与手机致癌调查:使用所有的手机用户信息和所有的中枢神经系统肿瘤信息。
随着大数据的出现,数据的总和比部分更有价值,当我们将多个数据集的总和重组在一起,重组总和本身的价值也比单个总和更大 9.可拓展数据 1.google街景和gps采集,不仅将其用于基本用途,而且进行了大量的二次利用。例如,对google自动驾驶汽车的运作 10.数据的折旧值
1.随着时间的推移,大多数数据都会失去一部分基础用途,不应用此破坏新数据 2.挑战:如何得知某些数据不再有价值 3.并非所有数据都会贬值。例子:google希望得到每年的同比数据
结论:组织机构应收集尽可能多的使用数据并保存尽可能长的时间。同时也应该与第三方分享数据
11.数据废气:用户在线交互的副产品,包括浏览哪些页面,停留多久,输入信息等 1.数据再利用的方式很隐蔽 2.例子:google的拼写检查:搜集每天处理的查询中数据搜索框的错误拼写 3.例子:google的过滤噪音技术:如果用户点击搜索结果靠后的链接,说明这个结果更加有相关性,google会把这个页面的排名相应提升。4.当用户指出了各种自动化程序的错误,实际上是训练了系统 5.例子:巴诺与数据快照,电子书阅读器捕捉人们阅读书籍的习惯 6.例子:coursera通过捕捉学生犯的错误来提示未来犯错误者
结论:数据废气可以成为公司的巨大竞争优势,和对手的强大进入堡垒 12.开放数据 1.最大的数据收集者:政府,可以强迫人们提供信息,但是信息利用效率低下。最好允许私人运营部门和社会大众访问
2.例子:flyontime网站,通过开放的数据分析航班延误可能性。3.给数据估值:从数据持有人在价值提取上所采取的不同策略入手,将数据授权给第三方
三、角色定位:数据,技术与思维 2.思维转变的重要性 3.三种大数据公司
1.基于数据本身的公司:twitter 大数据最值钱的是他本身,所以应该优先考虑数据拥有者
例子:机票预订系统ita不直接使用数据:担心暴露利润
例子:mastercard通过大数据预测客户的消费习惯 2.基于技能的公司:咨询公司,技术供应商或者分析公司:teradata 例子:埃森哲公司利用大数据检测汽车零件并节省费用
例子:微软分析公司利用大数据降低病人的再入院率 3.基于思维的公司:创新思维
例子:flightcaster飞机晚点预测
例子:prismatic分析新闻并排序 4.大数据先驱者一般有跨学科的知识 5.例子:google和amazon三者兼备 6.全新的数据中间商:从各个地方搜集数据,提取有用的信息进行利用,并不威胁数据拥有者的利益
1.社会需要定向广告
例子:inrix:分析各种汽车制造者的数据和用户的数据,提供卫星导航服务
汽车制造商们本身数据量不够,自身也没有技术利用大数据,也并不介意数据会被中间商利用。同时可以提供失业率等相关数据
例子:quantcast:收集用户访问信息来测评用户年龄等,之后发定向广告
例子:hcci收集医疗保单,分析美国医疗费用上涨是否合理
结论:
1.数据价值的转移:从技术到数据本身和大数据思维 2.传统商业模式颠覆:交易数据而不是交易技术 3.传统专家的光芒会被统计和数据学家取代,因为后者只关心数据 1.例子:谷歌翻译团队的工程师都不会说出翻译的语言 2.真正的专家不会消亡,但是主导地位会改变 3.专业技能只适用于小数据时代,因为那是需要依靠直觉和经验指导,但是
遭遇海量数据时,可以通过数据挖掘得到更多 4.数据和统计学知识将成为现代工厂的基础,人类的价值体现在交流上,以进行广泛而深刻的传播
1.例子:交互式游戏,会根据用户来改良,以数据为基础运作 5.大数据决定企业核心竞争力 1.数据规模决定价值
2.例子:劳斯莱斯通过大数据监测引擎,预测可能出问题的引擎 3.例子:苹果进军手机 4.大数据为小公司带来了机遇:能享受非固有资产规模的好处,低成本传播创新结果,只需要创新思维
5.大数据拥有者会想办法增加数据存储量 6.消费者成为数据拥有者并与中间商交易 7.大数据对中等规模的公司帮助不大:既没有灵活性也没有规模效应 6.大数据撼动国家竞争力:西方世界优势减少
四、大数据时代的管理
1.大数据会带来很多危险,因为其核心思想是用规模剧增来改变现状。2.滥用大数据的力量会伤害人身安全 3.大数据的二次利用颠覆了隐私保护法:无法征得个人同意 4.如果所有人的信息在数据库里,有意识地避免就是此地无银三百两 5.匿名化:交叉检验会检验出来 6.大数据预测:罪责判定基于对个人未来行为的预测。大数据可能会否定人的自由意志 7.数据有其局限性,数据的质量可能会很差,有误导性。8.卓越的才华并不依赖数据:apple乔布斯的才能
五、掌握大数据 1.个人隐私保护:从个人许可到让数据使用者承担责任,因为将责任从民众转移到数据使用者很有意义因为数据使用者比其他人更明白他们想怎么样使用数据,也因为他们是最大利益获得者:监管机制可以决定不同种类的个人数据必须删除的时间 2.信息模糊处理
3.个人应该为他们的行动而非倾向负责 4.打破大数据的黑盒子:大数据算法师:评估数据源,分析数据工具,解读运算结果 1.外部算法师:审计大数据的准确程度和有效性篇五:《大数据》读书心得 《大数据》读书心得
厦门双十中学思明分校代冰清
大数据时代已经悄然到来,如何应对大数据时代带来的挑战与机遇,是当下我们一线教师,尤其是年轻教师必须面对的一个严峻课题。大数据时代是我们的一个黄金时代,对我们的意义可以说就像是另一个“80年代”。
在前几年本世纪初的时候,世界都称本世纪为“信息世纪”。确实在计算机技术与互联网技术的飞速发展过后,我们面临了一个每天都可以“信息爆炸”的时代。打开电视,打开电脑,甚至是在街上打开手机、pda、平板电脑等等,你都可以接收到来自互联网从世界各地上传的各类信息:数据、视频、图片、音频??这样各类大量的数据累积之后达到了引起量变的临界值,数据本身有潜在的价值,但价值比较分散;数据高速产生,需高速处理。大数据意味着包括交易和交互数据集在内的所有数据集,其规模或复杂程度超出了常用技术按照合理的成本和时限捕捉、管理及处理这些数据集的能力。遂有了“大数据”技术的应运而生。
现在,当数据的积累量足够大的时候到来时,量变引起了质变。“大数据”通过对海量数据有针对性的分析,赋予了互联网“智商”,这使得互联网的作用,从简单的数据交流和信息传递,上升到基于海量数据的分析,一句话“他开始思考了”。简言之,大数据就是将碎片化的海量数据在一定的时间内完成筛选、分析,并整理成为有用的资讯,帮助用户完成决策。借助大数据企业的决策者可以迅速感知市场需求变化,从而促使他们作出对企业更有利的决策,使得这些企业拥有更强的创新力和竞争力。这是继云计算、物联网之后it产业又一次颠覆性的技术变革,对国家治理模式、对企业的决策、组织和业务流程、对个人生活方式都将产生巨大的影响。后工业社会时代,随着新兴技术的发展与互联网底层技术的革新,数据正在呈指数级增长,所有数据的产生形式,都是数字化。如何收集、管理和分析海量数据对于企业从事的一切商业活动都显得尤为重要。大数据时代是信息化社会发展必然趋势,我们只有紧紧跟随时代发展的潮流,在技术上、制度上、价值观念上做出迅速调整并牢牢跟进,才能在接下来新一轮的竞争中摆脱受制于人的弱势境地,才能把握发展的方向。数据描述形式,有别于以往对于数据信息的表达,大数据更多地倾向于表达网络用户信息、新闻信息、银行数据信息、社交媒体上的数据信息、购物网站上的用户数据信息、规模超过tb级的数据信息等。
了解了“大数据”的“大”之后我们也该了解它所具有的巨大价值。就目前来说“大数据”的来源主要还是互联网,来自互联网上的大多数不被重视信息都是具有巨大开发价值的,其具有巨“大”的商业价值,我们所缺少的只是一些数据分析等手段。例如:在如今,网购已经成为了一种风潮,网上也涌现了以淘宝、京东、亚马逊等一系列的购物网站。而在这些网站之中,顾客的浏览记录,购买记录等等都是一些巨大商业价值的信息。借鉴“塔吉特”的先例,我们可以利用“大数据”技术收集分析,就可预测需求、供给和顾客习惯等,做到精准采购、精准投放,达到利益放大的效果。
从全球范围来看,很多人都把2012年看做是大数据时代的元年。在这一年里,很多行业在大数据方面的管理、规划和应用已经觉醒。电商、金融、电信等行业数据有着长期的数据积累。事实上,很多互联网公司,例如亚马逊、google、腾讯,更愿意将自己定位为数据企业。因为信息时代,数据成为经营决策的强有力依据,给企业带来了发展和引领行业的机遇。银行也同样拥有丰富的数据矿藏,不仅存储处理了大量结构化的账务数据,而且随着银行渠道快速渗透到社交网络、移动端等媒介,海量的非结构化数据也在等待被收集和分析。未来的金融业将更多地受到科技创新力的驱动,也越来越倾向于零售营销:对于金融业来说,大数据意味着巨大的商机,可强化客户体验,提高客户忠诚度。大数据技术的发展带来企业经营决策模式的转变,驱动着行业变革,衍生出新的商机和发展契机。驾驭大数据的能力已被证实为领军企业的核心竞争力,这种能力能够帮助企业打破数据边界,绘制企业运营全景视图,做出最优的商业决策和发展战略。金融行业在大数据浪潮中,要以大数据平台建设为基础,夯实大数据的收集、存储、处理能力;重点推进大数据人才的梯队建设,打造专业、高效、灵活的大数据分析团队;不断提升企业智商,挖掘海量数据的商业价值,从而在数据新浪潮的变革中拔得头筹,赢得先机 在如此快速的到来的大数据革命时代,我们还有很多知识需要学习,许多思维需要转变,许多技术需要研究。职业规划中,也需充分考虑到大数据对于自身职业的未来发展所带来的机遇和挑战。当我们掌握大量数据,需要考虑有多少数字化的数据,又有哪些可以通过大数据的分析处理而带来有价值的用途?在大数据时代制胜的良药也许是创新的点子,也许可以利用外部的数据,通过多维化、多层面的分析给我们日后创业带来价值。借力,顺势,合作共赢。把自己的心门打开,像海绵般吸取积极、正能量的东西。
第二篇:大数据读书报告
大数据读书报告
网络13-1戴崇卓
大数据的概念
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。
大数据的5V特点(IBM提出)
Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)。
大数据的意义
现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。阿里巴巴创办人马云来台演讲中就提到,未来的时代将不是IT时代,而是DT的时代,DT就是Data Technology数据科技,显示大数据对于阿里巴巴集团来说举足轻重。
有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是赢得竞争的关键。
大数据的结构
大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它
保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本看起来很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。
其次,想要系统的认知大数据,必须要全面而细致的分解它,我着手从三个层面来展开:
第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。在这里从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。
第二层面是技术,技术是大数据价值体现的手段和前进的基石。在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。
第三层面是实践,实践是大数据的最终价值体现。在这里分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。
大数据的应用
洛杉矶警察局和加利福尼亚大学合作利用大数据预测犯罪的发生。Google流感趋势(Google Flu Trends)利用搜索关键词预测禽流感的散布。统计学家内特.西尔弗(Nate Silver)利用大数据预测2012美国选举结果。麻省理工学院利用手机定位数据和交通数据建立城市规划。
梅西百货的实时定价机制。根据需求和库存的情况,该公司基于SAS的系统对多达7300万种货品进行实时调价。医疗行业早就遇到了海量数据和非结构化数据的挑战,而近年来很多国家都在积极推进医疗信息化发展,这使得很多医疗机构有资金来做大数据分析。
大数据的趋势
趋势一:数据的资源化
何为资源化,是指大数据成为企业和社会关注的重要战略资源,并已成为大家争相抢夺的新焦点。因而,企业必须要提前制定大数据营销战略计划,抢占市场先机。
趋势二:与云计算的深度结合
大数据离不开云处理,云处理为大数据提供了弹性可拓展的基础设备,是产生大数据的平台之一。自2013年开始,大数据技术已开始和云计算技术紧密结合,预计未来两者关系将更为密切。除此之外,物联网、移动互联网等新兴计算形态,也将一齐助力大数据革命,让大数据营销发挥出更大的影响力。
趋势三:科学理论的突破
随着大数据的快速发展,就像计算机和互联网一样,大数据很有可能是新一轮的技术革命。随之兴起的数据挖掘、机器学习和人工智能等相关技术,可能会改变数据世界里的很多算法和基础理论,实现科学技术上的突破。
趋势四:数据科学和数据联盟的成立
未来,数据科学将成为一门专门的学科,被越来越多的人所认知。各大高校将设立专门的数据科学类专业,也会催生一批与之相关的新的就业岗位。与此同时,基于数据这个基础平台,也将建立起跨领域的数据共享平台,之后,数据共享将扩展到企业层面,并且成为未来产业的核心一环。
趋势五:数据泄露泛滥
未来几年数据泄露事件的增长率也许会达到100%,除非数据在其源头就能够得到安全保障。可以说,在未来,每个财富500强企业都会面临数据攻击,无论他们是否已经做好安全防范。而所有企业,无论规模大小,都需要重新审视今天的安全定义。在财富500强企业中,超过50%将会设置首席信息安全官这一职位。企业需要从新的角度来确保自身以及客户数据,所有数据在创建之初便需要获得安全保障,而并非在数据保存的最后一个环节,仅仅加强后者的安全措施已被证明于事无补。
趋势六:数据管理成为核心竞争力 数据管理成为核心竞争力,直接影响财务表现。当“数据资产是企业核心资产”的概念深入人心之后,企业对于数据管理便有了更清晰的界定,将数据管理作为企业核心竞争力,持续发展,战略性规划与运用数据资产,成为企业数据管理的核心。数据资产管理效率与主营业务收入增长率、销售收入增长率显著正相关;此外,对于具有互联网思维的企业而言,数据资产竞争力所占比重为36.8%,数据资产的管理效果将直接影响企业的财务表现。
趋势七:数据质量是BI(商业智能)成功的关键
采用自助式商业智能工具进行大数据处理的企业将会脱颖而出。其中要面临的一个挑战是,很多数据源会带来大量低质量数据。想要成功,企业需要理解原始数据与数据分析之间的差距,从而消除低质量数据并通过BI获得更佳决策。
趋势八:数据生态系统复合化程度加强
大数据的世界不只是一个单一的、巨大的计算机网络,而是一个由大量活动构件与多元参与者元素所构成的生态系统,终端设备提供商、基础设施提供商、网络服务提供商、网络接入服务提供商、数据服务使能者、数据服务提供商、触点服务、数据服务零售商等等一系列的参与者共同构建的生态系统。而今,这样一套数据生态系统的基本雏形已然形成,接下来的发展将趋向于系统内部角色的细分,也就是市场的细分;系统机制的调整,也就是商业模式的创新;系统结构的调整,也就是竞争环境的调整等等,从而使得数据生态系统复合化程度逐渐增强。
大数据的IT分析工具
大数据概念应用到IT操作工具产生的数据中,大数据可以使IT管理软件供应商解决大广泛的业务决策。IT系统、应用和技术基础设施每天每秒都在产生数据。大数据非结构化或者结构数据都代表了„所有用户的行为、服务级别、安全、风险、欺诈行为等更多操作‟的绝对记录。
大数据分析的产生旨在于IT管理,企业可以将实时数据流分析和历史相关数据相结合,然后大数据分析并发现它们所需的模型。反过来,帮助预测和预防未来运行中断和性能问题。进一步来讲,他们可以利用大数据了解使用模型以及地理趋势,进而加深大数据对重要用户的洞察力。他们也可以追踪和记录网络行为,大数据轻松地识别业务影响;随着对服务利用的深刻理解加快利润增长;同时跨多系统收集数据发展IT服务目录。
大数据分析的想法,尤其在IT操作方面,大数据对于我们发明并没有什么作用,但是我们一直在其中。Gartner已经关注这个话题很多年了,基本上他们已经强调,如果IT正在引进新鲜灵感,他们将会扔掉大数据老式方法开发一个新的IT操作分析。
第三篇:大数据时代读书报告
这本书里主要介绍的是大数据在现代商业运作上的应用,以及它对现代商业运作的影响。《 大数据时代》这本书的结构框架遵从了学术性书籍的普遍方式。也既,从现象入手,继而通过对现象的解剖提出对这一现象的解释。然后在通过解释在对未来进行预测,并对未来可能出现的问题提出自己看法与对策。
下面来重点介绍《大数据时代》这本书的主要内容。
《大数据时代》开篇就讲了google通过人们在搜索引擎上搜索关键字留下的数据提前成功的预测了2009年美国的h1n1的爆发地与传播方向以及可能的潜在患者的事情。google的预测比政府提前将近一个月,相比之下政府只能够在流感爆发一两个周之后才可以弄到相关的数据。同时google的预测与政府数据的相关性高达97%,这也就意味着google预测数据的置信区间为3%,这个数字远远小于传统统计学上的常规置信区间5%!而这个数字就是大数据时代预测结果的相对准确性与事件的可预测性的最好证明!通过这一事以及其他的案例,维克托提出了在大数据时代“样本=总体”的思想。我们都知道当样本无限趋近于总体的时候,通过计算得到的描述性数据将无限的趋近于事件本身的性质。而之前采取的“样本<总体”的做法很大程度上无法做到更进一步的描述事物,因为之前的时代数据的获取与存储处理本身有很大的难度只导致人们采取抽样的方式来测量事物。而互联网终端与计算机的出现使数据的获取、存储与处理难度大大降低,因而相对准确性更高的“样本=总体”的测算方式将成为大数据时代的主流,同时大数据时代本身也是建立在大批量数据的存储与处理的基础之上的。
接下来,维克多又通过了ibm追求高精确性的电脑翻译计划的失败与google只是将所有出现过的相应的文字语句扫描并储存在词库中,所以无论需要翻译什么,只要有联系google词库就会出现翻译,虽然有的时候的翻译很无厘头,但是大多数时候还是正确的,所以google的电脑翻译的计划的成功,表明大数据时代对准确性的追求并不是特别明显,但是相反大数据时代是建立在大数据的基础住上的,所以大数据时代追求的是全方位覆盖的数字测度而不管其准确性到底有多高,因为大量的数据会湮埋少数有问题的数据所带来的影响。同时大量的数据也会无限的逼近事物的原貌。
之后,维克托又预测了一个在大数据时代催生的重要职业——数据科学家,这是一群数学家、统计学与编程家的综合体,这一群人将能够从获取的数据中得到任何他们想要的结果。换言之,只要数据充足我们的一切外在的与内在的我们不想让他人知道的东西都见会在这一群家伙的面前展现得淋漓尽致。所以为了避免个人隐私在大数据时代被这一群人利用,维克托建议将这一群人分为两部分,一部分使用数据为商业部门服务,而另一群人则负责审查这一些人是否合法的获得与应用数据,是否侵犯了个人隐私。无论如何,大数据时代将会到来,不管我们接受还是不接受!而且这两年,大数据这个词突然变得很火,不仅出现在阿里巴巴、谷歌等互联网公司的战略规划中,同时在我国国务院和其他国家的政府报告中多次提及,无疑成为当今互联网世界中的新宠儿。我对大数据一直好奇已久,阅读了很多资料仍不得其解,直到读完《大数据时代》才有了粗略的认识。
我侧重于从第一部分中的这三个观点谈谈自己的看法,这三个观点可以说是哲学上说的世界观,这三个观点可以说是哲学上说的世界观,因为世界观决定方法论,所以这三个观点对传统看法的颠覆,就会导致各种变革的发生。首先是第一个,作者认为在抽样研究时期,由于研究条件的欠缺,只能以少量的数据获取最大的信息,而在大数据时代,我们可以获得海量的数据,抽样自然就失去它的意义了。放弃了随机分析法这种捷径,采用所有的数据。作者用大数据与乔布斯的癌症治疗例子说明了使用全部数据而非样本的意义,列举了日本“相扑”等来证明使用全体数据的重要性。这个观点足以这个观点足以引起统计学乃至社会文明的变革,因为统计抽样和几何学定理、万有引力一样被看做文明得以建立牢固的基石。我对这个观点还是比较认同的,如果真能收集到整体的数据而且分析数据的工具也足够先进,自然是全体数据研究得出的结果更令人信服。但是这个观点也过于绝对,就算是在大数据时代要想收集到全体数据还是不太可能实现的,因为收集全体数据要付出的代价有时会很大。比如说,你要检测食品中致癌物质是否超标,你不可能每一件食品你都检测一遍吧。
第二,要效率不要绝对的精确。作者说,执迷于精确性是信息缺乏时代和模拟时代的产物,只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱,剩下95%的非结构化数据都无法被利用。作者是基于数据不可能百分之百正确的考虑而做出这样的判断的,如果采用小数据一个数据的错误就会导致结果的误差很大,但是如果数据足够多、数据足够杂那得出的结果就越靠近正确答案。大数据时代要求我们重新审视精确性的优劣,甚至还说到大数据不仅让我们不再期待精确性,也让我们无法实现精确性。谷歌翻译的成功很好地证明了这一点,谷歌的翻译系统不像candide那样精确地翻译每一句话,它谷歌翻译之所以优于ibm的
candide系统并不是因为它拥有更好的算法机制,和微软的班科和布里尔一样,谷歌翻译增加了各种各样的数据,并且接受了有错误的数据。第三个观点,不是因果性,而是相关性,这是这本书中争议最大的一个观点,不仅是读者,就算是本书的译者也在序言中明确地说到他不认同“相关关系比因果关系更重要”的观点。作者觉得相关关系对于预测一些事情已经足够了,不用花大力气去研究他们的因果关系。作者用林登的亚马逊推荐系统的成功,证实了大数据在分析相关性方面的优势以及在销售中获得的成功。沃尔玛也是充分利用并挖掘各类数据信息的代表,从啤酒和尿布的案例,以及作者举的有 关蛋挞和飓风天气的案例,都说明了掌握了相关关系对于他们策略的帮助。一句话,知道是什么就够了,不用知道为什么。很明显作者所举的例子都是属于商业领域的,但是对于其他领域来说这个观点就值得商榷了。比如说,在科学研究领域,你需要知其然也需要知道其所以然,找到事件发生的原理。用文中的一个例子说明,乔布斯测出整个基因图谱来治疗癌症,但是你治疗癌症你必须知道癌症发病的原理,知道哪一段基因导致了这种疾病,不可能只是说收集各种数据,然后利用其相关性来判断哪里出现了问题
作者在书中把大数据说的很厉害,在最后一部分分析大数据带来无数好处的同时带来的不良影响以及如何面对这些影响。用麦克纳马拉的例子来说明对数据过度依赖所带来的后果。也用《少数派的报告》这部电影来说明如果痴迷于数据会导致我们将生活在一个没有独立选择和自由意志的社会,如果一切变为现实,我们将被禁锢在大数据的可能性之中。所以书中提出了几种解决方法,一种是使用数据时征询数据所有个人的知晓和授权。第二个技术途径就是匿名化。毫无疑问,大数据将会给社会管理带来巨大的变革。
大数据给人类社会的方方面面带来了巨大的变革,这是社会发展的潮流,不可逆转,我们只有顺应这种潮流,在思想上和技能上做好准备才能成为时代的弄潮儿。对于一家公司或一个国家,要从根本上改变思维和观念,尽早适应这种潮流。
最后,附上一段来自原著的结语:
大数据并不是一个充斥着算法和机器的冰冷世界,人类的作用依然无法被完全替代。大数据为我们提供的不是最终答案,只是参考答案,帮助是暂时的,而更好的方法和答案还在不久的未来。篇二:《大数据时代》读书报告
读书报告
——读《大数据时代》
坦白地说,这是我第一本看了睡不着的书,我还记得第一次阅读时的兴奋和激动,就像一场头脑风暴。书里的事例是那么的鲜活与生动,完全颠覆我的思维方式,打破了我大脑中解决问题原有的枷锁。这本书让我明白了太多~~~ 它让我明白生活必须要主动。有些人碰到了不公就自认倒霉,能干一点的可能还会去讨个说法,但并没有解决实际问题,这一次可能挽回了那么一点点的损失,但下次遇到了仍是如此,无限循环。当你绞尽脑汁为了节约成本而提前一个月去购买一张你自以为廉价的飞机票,回头却发现,比那些只提前一天购买的人所付的钱还要高出很多时,不知你会怎么想?是被动的接受还是想方法让现实变得更美好? 它让我更好地去理解现实生活的很多情况。现在才理解,为什么网络上有这么多验证码的存在,为什么社交网要用实名制注册,为什么有这么多的“我猜你喜欢”~~~ 虽然我很喜欢那些“黑匣子”,会让我感觉很神奇,但当我真正理解的他的原理时,其实更让我兴奋不已。原来谷歌翻译背后是这样操作的,原来那些每天时不时闯进我们眼球的广告并非偶然,原来预测流感不需要疾控中心而是网络词条,原来电影在开播前就已经知道了收视率和票房~~~ 当然以上这些相当抓人眼球,但这只是大数据的表面,其真正的价值远不仅如此。人类总是以为自己很强大,能控制一切,当然最好还能预测未来。其实大数据真的可以做到,虽然不可能很精确。在我看来这样更好,大致结果可以意料,这就够了,如果发现结果不尽如人意,我们可以提前控制。当然还会有我们意想不到的情况发生,这样会让未来更充满想象,更加充满期待。
它让我懂得不能墨守成规,也不能自以为是。大数据环境是那些微型企业发展的福地,它是行业竞争重新洗牌的动力源泉。在大数据面前,小公司不需要妄自菲薄,大的商业帝国也只有打气十二分的精神才可能让自己立于不败之地。
他让我知道没有做不得,只有想不到。现在的赚取资本的方式已经不再是单靠苦力就可以解决问题的时代了,看见朋友圈里的那些做代购的,都在自我催眠“不要看我们现在是微商~~~微商将来前途无量~~~·”我一直都抱着看看不说话的心态,难免也会哂笑,真的不知道他们和菜场卖菜的有什么本质区别~~~现在是一个依靠知识科技来富国强兵的时代了,真正的优势来源于你提前想到了别人还没去想的,提早完成了别人还没有筹备的计划。
他让我学会世界上没有光杆司令,我们必须学会合作。一个人的能力是有限的,一个人的时间也是有限的,同样公司,国家都是一样的。我们知道谷歌,亚马逊,facebook以及中国的阿里巴巴,百度,新浪这些企业都很强大,可是他们仍然在不断收购合并整合其他一些小的公司,为的是引用他们的科技技术来强大自己的事业版图。
它还教会我在机会面前必须要眼疾手快。在你还在犹豫不决或是自我陶醉的时候,你的对手已经用一个非常低廉的价格得到了他想要翻身的王牌,当你发现时,要么花大血本去换取一张相似的王牌,要与他赤身搏斗。大部分情况下那些聪明的人往往会选择前者,因为他们知道宁可为自己现在的失误埋单也不会让自己靠近万丈深渊。因为若丧失了主动权,那么很有可能导致的结果就是,那个原来看起来微不足道的“小木桩”却扳倒了你这体积庞大的“大象”。
说了这么多大数据给我的启示,其实就是想突出大数据背后的那种神奇的力量。在近代我们似乎与每一样新的科技都失之交臂,但是这一次我们似乎还有机会和时代同步伐,甚至如果我们足够重视,可能还会走在时代的前沿。虽然我们现在谁都没有把握中国到底会利用大数据到什么程度,但已经有好多像周涛一样的有志之士看好中国在利用大数据上的实力,并且付诸了他们的努力。他们一直都坚信以前的落后仅仅是时间上的后知后觉,他们在这一次想
要做到与世界同步,和欧美同步发行此书,在最早一刻就向大家推广大数据这一新名词,向大家灌输着大数据的思维。对此,我也很庆幸,在恰当的时间点与大数据的偶遇。
当然,世界上没有十全十美的东西,再好的发明总是有它的缺陷,大数据也不会例外。舍恩伯格这个对大数据最有权威发言权的人,既然有能力将大数据的好处讲得淋漓尽致,毫无疑问自然也是最清楚大数据危险的人。我很尊敬他的严谨和坦诚,他在细致入微地解释大数据革命性优势的同时,毫无修饰地点明了大数据的劣根性。他很准确地说明了如果我们滥用或误用数据,我们将会受到毁灭性的打击,后果将会如何不堪设想,并且这篇幅一点都不敷衍。作者非常专业,他并没有像某些专家一样,一味地鼓吹自己的“一家之言”。而是在我们头脑发热,一哄而上之前,就给我们非常而且深刻的警醒。这也正是大数据思维的其中之一:馈前控制。
读完这本书以后,我有的确一点蠢蠢欲动,因为它让我觉得大数据并没有像想象的那么遥不可及。书中说,会好好利用大数据的有三种人:第一种是拥有庞大数据库的政府或者商业机构,他们之前只是不知道那些尘封已久的数据还可以创造巨大的价值。第二种是利用技术手段,让数据发挥它独特功能,从而帮他们解决实际问题的数据分析学家,统计师,精算师和其他一些有关于处理数据的相关人员,他们非常了解数据的状态,结构和特征。的确这两类人实力雄厚,前者拥有数据本身,而后者拥有技术。但他们有着同样的短板,那就是他们没有更为创新,灵动的视野,他们很难或者说没有更多的时间去发现那些数据的真正力量。因为他们有太多的思维定式,但种种利用大数据的成功事例表明,每次数据创造的奇迹总在那么的偶然和不经意之间。而这正是我们第三种人的长处,我们没有思维定式,更有闲暇的时间来感受生活,激发灵感。篇三:大数据时代读书笔记
大数据时代——读书笔记
一、引论
1.大数据时代的三个转变: 1.可以分析更多的数据,处理和某个现象相关的所有数据,而不是随机采样 2.不热衷于精确度
3.不热衷与寻找因果关系 2.习惯:用来决策的信息必须是少量而精确的。实际:数据量变大,数据处理速度变快,数据不在精确
3.危险:不是隐私的泄露而是未来行动的预判
二、大数据时代的思维变革 1.原因:没有意识到处理大规模数据的能力,假设信息匮乏,发展一些使用少量信息的技
术(随机采样)
1.1086年 末日审判书 英国对人的记载 2.约翰·格朗特:统计学,采样分析精确性随着采样随机性上升而大幅上升,与样本数
量关系不大
3.1890年,穿孔卡片制表机,人口普查 4.随机采样有固有的缺陷 1.采样过程中存在偏差 2.采样不适合考察子类别
3.只能得出实现设计好的问题的结果 4.忽视了细节考察
2.全数据模式:样本=总体 1.通过异常量判断信用卡诈骗 2.大数据分析:不用随机抽样,而是采用所有数据。不是绝对意义而是相对意义。
(xroom信用卡诈骗,日本相扑比赛)3.多样性的价值(社区外联系很多》社区内联系很多)3.混杂性而非精确性 1.葡萄树温度测量:数据变多,虽然可能有错误数据,但总体而言会更加精确。2.包容错误有更大好处
3.word语法检查:语料库》算法发展 4.google翻译:让计算机自己估算对应关系,寻找成千上万对译
结论:大数据的简单算法好过小数据的复杂算法 5.大数据让我们不执著于也无法执着于精确 6.mit的通货紧缩软件:即时的大数据 7.标签:不精确
8.想要获得大规模数据的好处,混乱是一种标准途经 9.新的数据库:大部分数据是非结构化的,无法被利用 10.hadoop:与mapreduce系统相对的开源式分布系统,输出结果不精确,但是非常快 结论:相比于依赖小数据和精确性的时代,大数据因为更强调数据的完整性和混杂性,帮助我们进一步接近事情的真相。“部分”和”确切“的吸引力是可以理解的。但是当我们的视野局限在我们可以分析和确定的数据上时,我们对世界的整体影响就会产生偏差和错误。不仅失去了尽力收集一切数据和活力,也失去了从不同角度观察时间的权利。
三、不是因果是相关 1.知道是什么就够了,不需要知道为什么。1.亚马逊放弃书评组,使用大数据预测人们的未来购书需求 2.2.在小数据世界,相关关系有用,但是大数据背景,相关关系大放异彩。通过找关联 物,相关关系可以帮助我们捕捉现在和预测未来 1.a和b经常一起发生,那么a发生时可以预测b发生 2.例子:沃尔玛把飓风用具和蛋挞放在一起 3.过时的寻找关联物的方法 a)原因:数据少且收集花时间 b)在建立,应用假想和选择关联物时容易犯错误 c)结论:我们不需要人工选择关联物 3.大数据的相关分析法更准确,更快 1.例子:fico我们知道你明天会做什么 2.伊百丽:根据个人信用卡交易记录预测个人收入,防止逃税 3.aviva:根据生活方式数据预测疾病 4.美国零售商target:通过购买习惯预测是否怀孕 4.通过找出新种类数据的相互联系解决日常需要:找到关联物并监控,我们可以预知未来
1.例子:ups与汽车修理预测 2.新生儿健康监测:肉眼看不到,但是计算机能看到 5.当收集分析和储存数据的成本较高时,应当适当丢弃一些数据 6.数据的非线性关系 1.幸福的非线性关系 7.快速思维模式使人们偏向于用因果关系看待周围的一切,因此经常对世界产生错误认识。这也使大脑为了避免辛苦思考而产生的捷径。大数据会经常被用来证明我们习惯的思维方式是错误的。8.证明因果关系的实验开销大,难于操作;相关关系很有用,不仅是因为能为我们提供新的视角,而且提供的视角都很清晰。一旦我们考虑因果关系,这些视角会被蒙蔽。9.大数据并非是理论消亡的时代。
四、一切皆可量化 1.莫里的信息交换计划:总结所有船只的航海日志已获得好的航线,为第一根大西洋电缆奠定基础
2.坐姿研究与汽车防盗系统 3.数据化
1.把现象转变成可指标分析的量化形式的过程 2.计量和记录促成了数据: 1.阿拉伯数字 2.计数板 3.复式记账法
3.数字化与数据化的区别
1.例子:google的数字图书馆:开始使用扫描-》数字化,进而光学识别-》数
据化。google借此改进自己的翻译 2.文化组学:定量分析揭示人类行为 4.文字变成数据:人可以阅读,机器可以分析 5.方位变成数据:需要一套标准的标记系统和收集,记录数据的工具。1. 始于古希腊
2.1884年,国际子午线会议 3.1978年,全球定位系统 4.英国汽车保险
5. ups的最佳行车路线:减少左转 6.收集用户地理位置数据,以便进行忠诚度计划。或者可以预测交通情况 6.现实挖掘
1.处理大量手机数据,发现并预测人类的行为。2.例子:预测流感隔离区域 3.例子:通过非洲预付费用户的位置信息和他们账户的资金,发现贫民窟是
经济繁荣的跳板 7.沟通变成数据
1.facebook:社交关系数据化
号。新推特频率可以预测电影票房
可能性呈现正相关 8.万物数据化
1.触觉地板:适时开关灯,确定身份,某人摔倒之后是否站起来 2.人体传感器:监控健康状态 4.结论:世界的本质是信息和数据,大数据提供新视角。
五、大数据的潜在价值 1.例子:captcha(验证码,全自动区分人类和电脑的图灵测试)与数据再利用。作者使用了新的验证码recaptcha,人们从计算机光学字符识别程序无法识别的文本扫面项目中读入单词并输出,知道他们都输出正确后才确定(用来破译数字化文本中不清楚的单词)2.大数据时代,所有的数据都是有价值的。现在,我们能够以较低成本获取并存储数据。数据的真实价值就像漂浮在海洋中的冰山,绝大部分隐藏在表面之下。3. 不同于物质性的东西,数据的价值不会随它的使用而减少,而且可不断被处理。意味着数据的最终价值远远大于它的最初价值。在基本用途完成后,数据的价值仍然存在,数据的价值是其所有可能用途的总和。4.例子:ibm与电力汽车动力系统的优化预测:大数据预测模型,甚至考虑天气预报 5.数据再利用:
1. 搜索关键词,搜索结果预测夏天流行色 2.google保存语音翻译记录,开发自己的语音识别技术 3.移动运营商长期使用大数据微调网络性能 4.有些公司可能会收集到大量的数据,但是他们并不急需使用,也不擅长使用数据,但是别的公司可以借此探寻数据的潜在价值 8.重组数据 1.例子:丹麦癌症协会与手机致癌调查:使用所有的手机用户信息和所有的中枢神经系统肿瘤信息。
随着大数据的出现,数据的总和比部分更有价值,当我们将多个数据集的总和重组在一起,重组总和本身的价值也比单个总和更大 9.可拓展数据 1.google街景和gps采集,不仅将其用于基本用途,而且进行了大量的二次利用。例如,对google自动驾驶汽车的运作 10.数据的折旧值
1.随着时间的推移,大多数数据都会失去一部分基础用途,不应用此破坏新数据 2.挑战:如何得知某些数据不再有价值 3.并非所有数据都会贬值。例子:google希望得到每年的同比数据
结论:组织机构应收集尽可能多的使用数据并保存尽可能长的时间。同时也应该与第三方分享数据
11.数据废气:用户在线交互的副产品,包括浏览哪些页面,停留多久,输入信息等 1.数据再利用的方式很隐蔽 2.例子:google的拼写检查:搜集每天处理的查询中数据搜索框的错误拼写 3.例子:google的过滤噪音技术:如果用户点击搜索结果靠后的链接,说明这个结果更加有相关性,google会把这个页面的排名相应提升。4.当用户指出了各种自动化程序的错误,实际上是训练了系统 5.例子:巴诺与数据快照,电子书阅读器捕捉人们阅读书籍的习惯 6.例子:coursera通过捕捉学生犯的错误来提示未来犯错误者
结论:数据废气可以成为公司的巨大竞争优势,和对手的强大进入堡垒 12.开放数据 1.最大的数据收集者:政府,可以强迫人们提供信息,但是信息利用效率低下。最好允许私人运营部门和社会大众访问
2.例子:flyontime网站,通过开放的数据分析航班延误可能性。3.给数据估值:从数据持有人在价值提取上所采取的不同策略入手,将数据授权给第三方
三、角色定位:数据,技术与思维 2.思维转变的重要性 3.三种大数据公司
1.基于数据本身的公司:twitter 大数据最值钱的是他本身,所以应该优先考虑数据拥有者
例子:机票预订系统ita不直接使用数据:担心暴露利润
例子:mastercard通过大数据预测客户的消费习惯 2.基于技能的公司:咨询公司,技术供应商或者分析公司:teradata 例子:埃森哲公司利用大数据检测汽车零件并节省费用
例子:微软分析公司利用大数据降低病人的再入院率 3.基于思维的公司:创新思维
例子:flightcaster飞机晚点预测
例子:prismatic分析新闻并排序 4.大数据先驱者一般有跨学科的知识 5.例子:google和amazon三者兼备 6.全新的数据中间商:从各个地方搜集数据,提取有用的信息进行利用,并不威胁数据拥有者的利益
1.社会需要定向广告
例子:inrix:分析各种汽车制造者的数据和用户的数据,提供卫星导航服务
汽车制造商们本身数据量不够,自身也没有技术利用大数据,也并不介意数据会被中间商利用。同时可以提供失业率等相关数据
例子:quantcast:收集用户访问信息来测评用户年龄等,之后发定向广告
例子:hcci收集医疗保单,分析美国医疗费用上涨是否合理
结论:
1.数据价值的转移:从技术到数据本身和大数据思维 2.传统商业模式颠覆:交易数据而不是交易技术 3.传统专家的光芒会被统计和数据学家取代,因为后者只关心数据 1.例子:谷歌翻译团队的工程师都不会说出翻译的语言 2.真正的专家不会消亡,但是主导地位会改变 3.专业技能只适用于小数据时代,因为那是需要依靠直觉和经验指导,但是
遭遇海量数据时,可以通过数据挖掘得到更多 4.数据和统计学知识将成为现代工厂的基础,人类的价值体现在交流上,以进行广泛而深刻的传播
1.例子:交互式游戏,会根据用户来改良,以数据为基础运作 5.大数据决定企业核心竞争力 1.数据规模决定价值
2.例子:劳斯莱斯通过大数据监测引擎,预测可能出问题的引擎 3.例子:苹果进军手机 4.大数据为小公司带来了机遇:能享受非固有资产规模的好处,低成本传播创新结果,只需要创新思维
5.大数据拥有者会想办法增加数据存储量 6.消费者成为数据拥有者并与中间商交易 7.大数据对中等规模的公司帮助不大:既没有灵活性也没有规模效应 6.大数据撼动国家竞争力:西方世界优势减少
四、大数据时代的管理
1.大数据会带来很多危险,因为其核心思想是用规模剧增来改变现状。2.滥用大数据的力量会伤害人身安全 3.大数据的二次利用颠覆了隐私保护法:无法征得个人同意 4.如果所有人的信息在数据库里,有意识地避免就是此地无银三百两 5.匿名化:交叉检验会检验出来 6.大数据预测:罪责判定基于对个人未来行为的预测。大数据可能会否定人的自由意志 7.数据有其局限性,数据的质量可能会很差,有误导性。8.卓越的才华并不依赖数据:apple乔布斯的才能
五、掌握大数据 1.个人隐私保护:从个人许可到让数据使用者承担责任,因为将责任从民众转移到数据使用者很有意义因为数据使用者比其他人更明白他们想怎么样使用数据,也因为他们是最大利益获得者:监管机制可以决定不同种类的个人数据必须删除的时间 2.信息模糊处理
3.个人应该为他们的行动而非倾向负责 4.打破大数据的黑盒子:大数据算法师:评估数据源,分析数据工具,解读运算结果 1.外部算法师:审计大数据的准确程度和有效性篇四:读书笔记-《大数据时代》
读《大数据时代》 初次见到维克多·迈尔-舍恩伯格教授是在《对话》栏目中,当时谈及当今各种科技信息的变化,然后在主持人的各种提问下,我逐渐了解到“大数据”这个名词,他也是现在对于大数据最有发言权的预言家。一位睿智的人总是能够给人留下很深的印象。然后在中央财经频道的特别节目《指尖上的商机》系列节目中,也谈及到大数据对于当今时代的影响和蕴藏的巨大商机。
读一本好书就像与智者交谈。今天我翻读《大数据时代》,细细品读这位智者给我们的礼物。我们首先应该明白一个概念“大数据”,他不是单单的说数据很大,或者数据很多的意思,真正的意思是:不用随机分析法这样的捷径,而采用所有数据的方法。它告诉我们一种超越现在的对于数据的一种分析方法,这个方法建立在尽可能多的数据上。下面让我们合上此书,让他从我们的思想深处开始发声吧。
首先,大数据时代是建立的基础就是有一个很庞大的数据库,我们分析的对象不是抽取样本,而是用全部的数据作为样本,“样本=总体”。这样我们能够把要调查的对象精确到每一个个体,我们能够对每一个个体提供个性化分析和服务。我们会摆脱抽样样本的误差和失误,同样我们能够细化我们研究的对象和分析的数据。我们分析的适合一个大的整体,也适合每一个个体。这是大数据分析的基础。
第二,大数据是由很多不同的纷繁复杂的数据汇总在一起的,我们必须接受他们的复杂性和不精确性,我们的研究方向除了寻找因果关系之外,增加了一种相关关系的研究。我们通过数据之间的关系,分析得到我们想要得到的结论或者是模型。在这里我们应该重点看一下,相关关系是我们打开的另一扇窗,而不能关闭因果关系的现在开着的窗户。我们开始重视相关关系,但是不能放弃对于因果关系的研究。作者也在文中阐释我们的生活还是需要因果关系的,甚至我们需要大数据算法师,我们需要了解“黑匣子”中的神秘。这是大数据时代我们应该正确认识的。
第三,大数据的原始来源是用不同的方法收集,为了有尽可能多的数据,我们现在有了电脑,搜索引擎,智能手机,可穿戴设备,社交平台,还有无数的传感器等等,我们可以把文字,位置,动作,喜好等所有的世界进行量化,他都可以用数字表示,这就是我们所有的纷繁复杂的原始数据,他们是一座钻石矿,由于无数种的相关组合可以不断地挖掘出我们所需要的信息。这是我们不断利用大数据的基础。我们需要不断更新的数据。
第四,未来在过去的尘埃中。我们分析大数据最大的作用就是预测未来,知道下一步你会做什么,知道下一个最危险的事物或人。我们用什么方法预测未来。这是一个商业,政府,甚至世界的时代,我们分析的方法就是动用自己敏锐的思维发现相关性,然后动用我们的数据分析工具对其进行相关性分析,最后我们用统计学研究出一个模型。通过模型我们能够预测未来。大数据分析的关键就在于数据,思维和技术。现在我们有快速分析的工具,正在不断收集数据,那么最重要的就是人类的思维,一个能够分析相关性,能够创新使用数据的思维。在大数据时代我们需要把统计学,软件工程师和创新思维结合在一起的人才。
第五,我们能够知道每一个人的位置,喜好,关注什么,即将干什么等等,对于每个人来说都是一个很可怕的事情,如果我们赤裸裸的暴露在阳光之下,或者我们正在暴露中,我们的隐私应该受到保护,这也是大数据时代一个亟待解决的问题,尽管我们匿名分析信息,到最后我们还是能够精确到个人,我们需要有人负责,这是安全问题,自由和科技或商业的发展产生矛盾,我们应该何去何从?我们担忧的,相信会有人来解决。这涉及到我们每个人的利益。
来暴露我们需要的产品;我们用百度、google来暴露我们所关注的事情。我想有好多双眼睛正在盯着我们,只是我们还不知道。这是一件可怕的事情。
第四篇:读书报告——《大数据时代》观后感
读书报告——《大数据时代》观后感
大数据时代,一个被嚼烂的词汇,不知从何时起,兴起了数据科学的狂潮,本书核心论点,第一,要全体不要抽样,第二,要相关不要因果,第三,要效率不要精确。弊端:产业生态环境,数据安全隐私,信息公正公开。本书实例众多,理论残缺,可以说是举了一系列的例子要论证观点的,我们知道这种论证方式逻辑上存在谬误。故而,本书可以说是一本数据科学的正面的背景教学,供谈资。数据科学基础:云计算,人工智能和机器学习,大规模处理结构数据算法,日渐增长的计算速度和数据规模的指数增加。
从硅谷到北京,大数据话题正在被传播。随着智能手机以及“可佩带”计算设备的出现,我们的行为,位置甚至身体生理数据等每一点变化都成了可以被记录和分析的数据。以此为基础,反馈经济等新经济,新商业模式也正在开始形成。
大数据时代,我们可以有更全面的数据来研究,如楼上所说,甚至可以认为是样本=总体,那么,就不用再做一些统计上随机采样的工作了,基于大数据的研究可以关注到统计研究上难以关注到的一些小的、个别的情况,这些情况往往会呈现出更大的价值。
在数据量很小的时候,研究往往会对精确度做很严格的要求,而大数据时代会把这些条件放的更加宽松,不然大数据很难应用于研究,这种情况下,尽管数据的准确度降低了,但大量的数据会给我们带来额外的收益
基于前两个转变,我们不再寻找因果关系,而是去关注关联关系,即倾向关注“是什么”,而不是“为什么”(翻译此书的周涛不太认同这个观点,他认为是现在一些基于机器学习的算法得出的结果驱使我们去仅仅关注关联关系,因为我们现在很难把这些复杂算法转换成因果关系了)
现在谈论大数据的人真的很多,但是能全面的讲述大数据的人我个人的感觉是不多的。作者从非技术这个角度,从思维、价值、隐私、管理这些角度来细致的讲述大数据,这点我觉得是值得我们学习的,而且书中例子的结合,也很能看出作者的功力。
结合产品来谈数据的话,我个人觉得产品的设计是可以融入数据元素的,从数据废气到数据的可扩展性,到挖掘数据的价值完善自身的产品,这些都是可以思考的点。很自然的冒出来的一个想法,在我们的产品设计里面,可以突出用户留言之类的功能,通过这些功能的设计,收集对产品存在的问题、改进建议等等,或者说,这些功能以前也是有的,但是真正利用这些数据完善产品的思维却是丢失的。大数据的意义,也就是从这些已存在的数据中发觉价值,利用这些数据完善自身产品、业务是数据的基本功能,对数据的二次利用,也是我们可以考虑的。结合《大数据时代》这本书,我觉的书中提到的数据创新的思路是我们很值得学习的。
跟个人比较紧密相关的,我比较感兴趣大数据时代的角色定位,既有个人的定位、也有公司的定位,这个或许也是需要我再好好领悟的点吧。
至于《大数据时代》中提及的风险和掌控,这两张特别是掌控,我想是大多数谈论大数据人都很少去思考的,人人都想从大数据中分杯羹,但是大数据发展到一定阶段,这些问题都会是比较突出的问题。
大数据时代的知识能轻松获得,也并不意味着就能真正掌握知识。大数据时代的知识仅仅是一种资源,好比家中存放成百上千的书籍,如果不去研读,知识和人依然无关。不管处于怎样的一种时代,知识需要人们花苦功夫钻研,否则再多的知识也无意义。另外,现在不少人,凡是有不懂的问题,习惯性地上网搜索,不做任何甄别地将网上的知识和答案奉为宝典。长此以往,久而久之会使大脑变得懒惰,思维变得迟钝。大数据时代的知识,究竟是令人变得聪明还是愚笨?
《大数据时代》作者认为:“由大数据带来对人的重新认识,不是在阿波罗神庙,而是在小世界网络中,认识你自己。”我们从昨天的数据作用中认识自然、认识宇宙到今天通过大数据更多地认识网络和社会,我们的认识更加全面、更加深刻、也更加广泛。但是成就大数据的是无数努力造就小数据的人,他们探索大数据技术,认知大数据文化,并怀揣着对数据的敬畏和对规律的尊重。
我们本学期正在学习概率论与数理统计这门课,有人总是把大数据和统计学摆在两个对立面,认为有了大数据之后统计学就会逐渐消亡,而我并不这么认为。首先,数据量的增加,有助于减小数据的误差,如抽样误差等,能够极大地提高各类分析的精准度,这是大数据对于统计学的直接影响之一。
尽管当今的”大数据“潮流使得我们获得了海量的数据,但掌握这些海量的数据本身并无意义。真正的意义体现在对于含有信息的数据进行专业化的处理。要对大数据进行处理,即在样本几乎等于总体的情况下,以目前的分析方法以及分析设备成本较高,耗时较长。
相比之下,统计学的抽样方法似乎显得更加”经济实惠“。在实际的运用中,统计学能够以较低的成本,较少的数据,对数据进行精确度相对较高的的分析,这是大数据分析所无法替代的。
甚至有学者指出,很多情况下,只要有一定的数据,无关数据数量,分析结果不会有太大差别,因此大数据也就显得不重要了。不敢说这话完全正确,但很大程度上说明了统计学对于数据分析处理的意义。通过一定的数据即可满足人们对于数据处理的需要,统计学极大地提高了人们对于数据处理的效率。
大数据的来临会推动统计学的发展,衍生出更多的发展方向,但绝不会替代统计学,也不会减弱统计学的效果与意义。
第五篇:市场营销读书报告--《大数据时代》
市场营销读书报告--《大数据时代》
读书报告题目:大数据时代的生活、工作和思维变革 书名:大数据时代作者:[英]维克托·迈尔-舍恩伯格,肯尼思·库克耶 出版社:浙江人民出版社出版时间:2013年1月
内容梗概:
大数据又称巨量资料,指的是所涉及的资料规模巨大,无法通过目前主流软件工具处理。所以,需要在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。在本书中,作者通过许多浅显易懂的道理和例子,阐明了大数据时代对我们生活、工作和思想的变革。在第一部分中,作者主要讲的是大数据时代中思维的变革:抽样等于全体;效率大于绝对精确;相关关系分析通常情况下能够取代因果关系起作用。在第二部分中,作者主要讲的是大数据时代中商业的变革。作者认为我们应该重视数据化,把重心转移到信息本身上来,并且创造数据在重利用中的价值。在第三部分中,作者主要讲的是大数据时代中管理的变革。作者描绘了大数据的风险和如何面对这些不良影响。
读书心得:
我认为,作者对于第一部分的论述最为深刻。所以,我主要从第一部分来谈谈我的心得体会。第一部分中有三个观点:抽样等于全体;效率大于绝对精确;相关关系分析通常情况下能够取代因果关系起作用。这三个观点涉及的面很广,包括了统计学、逻辑学、哲学等等。
首先,作者认为大数据的关键就在于要利用所有的数据,而不再仅仅依靠一小部分数据进行分析总结。作者通过人口统计的例子阐明了随机采样是在不可收集和分析全部数据的情况下的选择,它本身存在许多固有的缺陷。所以,当今时代,我们需要全数据模式,即样本=总体,并且学会在大数据中进行分析总结。作者用大数据与乔布斯的癌症治疗例子很好地说明了使用全部数据而非样本的意义,只有这种获取所有数据而不仅是样本的方法才能科学地使用对他治疗有帮助的药,进而延长他的寿命。作者的观点不无道理。但是,我认为,在现如今社会里,使用大数据进行研究,无疑会增加成本,造成资源浪费。所以,这种分析方法应该被用于某些特定的领域,例如危险评估或者风险分析上。当然,随着科技的进步,我也相信,我们有一天会进入完全大数据时代。
第二,作者认为数据是需要混杂性的。随着数据使用的越来越多,其得出的结果并不一定能绝对精确。所以,采用小数据一个数据的错误就会导致结果的误差很大,但是如果数据足够多、数据足够杂,那得出的结果就越靠近正确答案。大数据的简单算法比小数据的复杂算法更加有效。谷歌翻译的成功很好地证明了这一点,谷歌的翻译系统不像Candide那样精确地翻译每一句话,它之所以优于IBM的Candide系统并不是因为它拥有更好的算法机制,而是谷歌翻译吸收了它能找到的全部翻译并且接受了错误的数据。在这样繁杂的数据下,就可以降低它出错的概率,吸引更多的用户使用它。
第三点是我印象最深的一点,作者认为相关关系比因果关系更重要。他认为,找到数据之间的相关性就能更好地预测未来。从亚马逊的案例中,我们可以看出,亚马逊的成功在于他抓住了每个客户自身不同的特点,从历史数据出发来为客户推荐书目,这比评论家点评更有效果。只有找到了数据之间的关联性,才能获得很高的成功率。另外,大数据也可以帮助企业分析现状,提前做出规划,降低风险。大数据的相关关系分析法就是知道是什么就够了,不用知道为什么。尽管这个观点存在很多争议,包括书中电子科技大学教授在推荐中就不认同这一观点。但是,我认为,这也是大数据的一大特点,它通过大量的数据分析,然后得到具有相关性的信息,经过加工总结,最后能够提前做出具有科学性的预测。这在商业领域甚至科学领域都有十分重要的意义。
大数据对我们生活和工作的影响是巨大的,这是社会发展的潮流,也是时代的变革。在这个大数据时代里,我们需要抓住机遇,迎接挑战,寻找隐藏在大数据中的商业前景。