第一篇:[转载]读书笔记《谁说菜鸟不会数据分析》
[转载]读书笔记《谁说菜鸟不会数据分析》
原文地址:读书笔记《谁说菜鸟不会数据分析》作者:不过如此
起因:对于数据分析,虽然一直在做,当然也想了很多思路,查了大量的数据,解决了一些问题。但效果却 仍是在一直下降,始终不能让人满意,总感觉分析得不是很专业,很系统。因此,想学习数据分析方面的理 论知识,了解一下更多的分析方法,借鉴与学习别人的分析思路,以用于当前的实际工作,改善项目运营的 效果!
购买:最近家里的事情都安排妥当,需要将重心回到工作中!在当当网和京东商城找书,看到《谁说菜鸟不 会数据分析》这些书,人气很高,难度不大,可以先作为入门学习的材料。
学习时间:2011年7月16日至2011年7月17日
阅读方式:只抓重点,快速阅读
读书摘要:
重点看了数据分析的概念,数据分析师的基本素质,数据分析的六个步骤,数据分析方法论与数据分析方法,以及看了下以前都很熟悉字段、记录、数据类型、数据表。对于EXCEL使用与操作,如函数、图表、快捷 键等,以及数据的展现(图表的使用)以及分析报告(PPT的制作)等内容,我早已具备了这方面的知识,且在实际工作中,都是以功能比EXCEL强大得多的数据库,通过编写大量的SQL脚本来处理数据,因此这里只 是浏览带过。总体来说,这是一本很基础,入门的数据分析读本。该书使用情景故事与对话,使得读起来更 通俗易懂,更容易让人理解,也便于记忆。
笔记:
1,何谓数据分析?
数据分析,是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总、理解并消化,以求最大化地开发数据的功能。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结 的过程。
2,数据分析师的基本素质
1)态度严谨负责:只有本着严谨负责的态度,才能保证数据的客观、准确。数据分析师可以说是企业 的医生,他们通对企业运营数据的分析,为企业寻找症结及问题。
2)好奇心强烈:积极主动地发现与挖掘隐藏在数据背后的真相。
3)逻辑思路清晰:通常数据分析面临的都是复杂的问题,会有无数影响与改变结果的因素。因此要求
数据分析保持清醒的头脑,清晰的思路,缜密的逻辑,将杂乱无章的数据,整理得清晰,有序,方能找到影 响与改变结果的真正原因。
4)擅长模仿:学习与借鉴他人优秀的分析思路和分析方法。
5)勇于创新:通过不断创新,提高自己的分析水平,以及解决问题的思路和能力。
3,数据分析六部曲
1)明确分析目的和内容:凡事都要先明确目的,数据分析当然也不例外,不可盲目。
2)数据收集:根据分析的目的和内容,收集相关的数据,为数据分析提供素材和依据。
3)数据处理:对收集来的数据进行加工整理,形成适合数据分析的样式。数据处理的目的是从大量的、杂乱无章的、难以理解的数据中抽取并推导出对解决问题有价值、有意义的数据。
4)数据分析: 通过统计分析或数据挖掘技术对处理过的数据进行分析和研究,从中发现数据的内部关
系和规律,为解决问题提供参考。
5)数据展现:通过表格和图形来展现数据,让他人更直观地理解数据,发现其中的规律。
6)报告撰写:对整个数据分析过程的一个总结。通过报告,把数据分析的起因、过程、结果以及建议 完整地呈现出来,以供决策者参考。
4,几个常用指标或术语
1)平均数
2)绝对数与相对数
3)百分比和百分点
4)频度和频率
5)比例和比率
6)倍数和番数
7)同比和环比
5,理解数据
1)字段与记录:字段是事物或现象的某种特征。记录是事物或现象的具体表现。
2)数据类型
3)数据表
6,“三心二意”处理数据
1)信心
2)细心
3)平常心
4)诚意
5)合老板意
7,PEST分析法
影响一切行业和企业的宏观力量。PEST:Political(政治)、Economic(经济)、Technological(技
术)、Social(社会)。
1)政治环境:包括一个国家的社会制度,执政党的性质,政府的方针、政策、法令等。关键指标有: 政治体制、经济体制、财政政策、税收政策、产业政策、投资政策、专利数量、国防开支水平等。
2)经济环境:分为宏观与微观两个方面。宏观经济环境是指一个国家的国民收入、国民生产总值及其 变化情况,以及通过这些指标反映的国民经济发展水平和发展速度。微观经济环境是指企业所在地区或所服 务地区消费者的收入水平、消费偏好等。关键指标有:GDP及增长率,进出口总量及增长率,利率,通货膨 胀率,消费价格指数,居民可支配收入,失业率等。
3)社会环境:指一个国家或地区的居民受教育程序和文化水平、宗教信仰、风俗习惯、审美观点和价 值观念等。关键指标有:人口规模、性别比例、年龄结构、出生率、死亡率、种族结构、生活方式、教育状 况、宗教信仰等。
4)技术环境:国家对科技开发的投资和支持重点,技术转移和商品化速度,专利及保护情况等。关键 指标有:新技术的发明与进展,折旧与报废速度,技术更新速度,技术传播速度,技术商品化速度,国家重 点扶持项目,国家投入的研发费用,专利个数,专利保护等。
8,5W2H分析法(方法论之一)
5W2H:Why(何因),What(何事),Who(何人),When(何时),Wherr(何地),How(如何做),How much(何价)。
9,逻辑树分析法(方法论之二)
逻辑树,又称问题树,分解树或演绎树。把一个已知的问题当成树干,然后考虑这个问题和哪些问题有 关,每个问题作为一个树枝,同样,每个树枝可以有若干小的树枝(每个大问题有若干小问题),以此类推,直到列出所有的问题。逻辑树的作用是帮助你理清自己的思路,避免进行重复和无关的思考。
10,4P营销理论(方法论之三)
4P:Product(产品)、Price(价格)、Place(渠道)、Promotion(促销)。
11,用户行为理念(方法论之四)
用户使用行为:是指用户为获取、使用物品或服务所采取的各种行为。用户对产品首先需要有一个认知、熟悉的过程,然后试用,再决定是否继续消费使用,最后成为忠诚用户。
12,对比分析法(分析方法之一)
对比分析法,是指将两个或两个以上的数据进行比较,分析它们的差异,从而揭示这些数据所代表的事 物发展变化情况和规律性。它的特点是:可以非常直观地看出事物某方面的变化和差距,并且可以准确、量 化地表示出这种变化和差距是多少。
1)实际完成与目标的对比。
2)两个不同时期的对比。
3)同级部门、单位、地区的对比。
4)行业内对比(竞争对手对比)
5)活动效果对比。
13,分组分析法(分析方法之二)
分组分析法,是根据数据分析对象的特征,按照一定的标志和区别,把数据分析对象划分为不同的部分 和类别来进行研究,以提示其内在的联系和规律性。
14,结构分析法(分析方法之三)
结构分析法,是指被分析研究总体内各部分与总体之间进行对比的分析方法,即总体内各部分占总体的 比例。
15,平均分析法(分析方法之四)
平均分析法,是指运用计算平均数的方法来反映总体在一定时间、地点条件下某一数量特征的一般水平。
16,交叉分析法(分析方法之五)
交叉分析法,通常用于分析两个变量(字段)之间的关系,即同时将两个有一定联系的变量及其值交叉
排列在一张表格内,使各个变量值成为不同变量的交叉结点,形成交叉表,从而分析交叉表中变量之间的关 系。
17,综合评价分析法(分析方法之六)
1)综合评价分析法的基本思想是将多个指标转化为一个能够反映综合情况的指标来进行分析评价,如 不同国家的经济实力,不同地区的社会发展水平,企业经济效益评价。
2)5个步骤:
a.确定综合评价指标体系,即包含哪些指标,是综合评价的基础和依据。
b.收集数据,并对不同计量单位的指标数据进行标准化处理。
c.确定指标体系中各指标的权重,以保证评价的科学性。
d.对经处理后的指标再进行汇总,计算出综合评价指数或综合评价分值。
e.根据评价指数或分值对参评单位进行排序,并由此得出结论。
18,杜邦分析法(分析方法之七)
杜邦分析法,是由美国杜邦公司创造并最先使用的一种综合分析方法。它是利用各主要财务指标间的内 在联系,对企业财务状况及经济效益进行综合分析评价的方法。
19,漏斗图分析法(分析方法之八)
漏斗图是一个适合业务流程比较规范、周期比较长、各流程环节涉及比较复杂、业务过程比较多的管理 分析工具。
总结:
花了两天时间,只是初略了解一分析方法论与分析方法。下周可以花一些时间,考虑是否对现有的工作有多少适用性。
第二篇:【EXCEL】数据分析那些事(菜鸟入门必看)
Q1:我现在的工作有一点数据分析的模块,自从上微薄后了解到还有专门从事数据分析工作,我现在想做这一行,但是经验、能力都还是菜鸟中的菜鸟,请问成为一名数据分析师还有需要哪些准备?
A:很简单,我们可以看一下国内知名互联网数据分析师的招聘要求,进行自我对照,即可知道需要做哪些准备。
数据分析师职位要求 :
1、计算机、统计学、数学等相关专业本科及以上学历;
2、具有深厚的统计学、数据挖掘知识,熟悉数据仓库和数据挖掘的相关技术,能够熟练地使用SQL;
3、三年以上具有海量数据挖掘、分析相关项目实施的工作经验,参与过较完整的数据采集、整理、分析和建模工作;
4、对商业和业务逻辑敏感,熟悉传统行业数据挖掘背景、了解市场特点及用户需求,有互联网相关行业背景,有网站用户行为研究和文本挖掘经验尤佳;
5、具备良好的逻辑分析能力、组织沟通能力和团队精神;
6、富有创新精神,充满激情,乐于接受挑战。
Q2:对数据分析有浓厚兴趣,希望从事数据分析、市场研究相关工作,但听说对学历要求较高,请问我是否要读研,读研的话应该读哪个方向?
A:读研要看自身情况,但可明确:专业不是问题,本科学历就够。关键是兴趣与能力,以及自身的努力,兴趣是学习成长最好的老师!
当然如果是在校生考上研究生的话那是最好,如果考不上可以先工作,等你工作有经验了,你就知道哪方面的知识是自己需要,要考哪方面的研究生,也就更有方向性。
Q3:那么如何培养对数据分析的兴趣呢?
A:建议如下:
1、先了解数据分析是神马?
2、了解数据分析有何用?可解决什么问题?
3、可以看看啤酒与尿布等成功数据分析案例;
4、关注数据分析牛人微博,听牛人谈数据分析(参考Q1的三个链接);
5、多思考,亲自动手分析实践,体验查找、解决问题的成就感;
6、用好搜索引擎等工具,有问题就搜索,你会有惊喜发现;
7、可以看看@李开复 老师写的《培养兴趣:开拓视野,立定志向》;
有网友说:让数据分析变的有趣的方法是,把自己想象成福尔摩斯,数据背后一定是真相!Q4:我有点迷茫,是练好技能再找工作,还是找一个数据分析助理之类的要求不是特别高的工作,在工作中提升?
A:建议在工作中进行学习实践,这才是最好的提升。看那么多书,没有实践都是虚的。Q5:我是做电商的,对于数据分析这块,您有什么好的软件工具类推荐吗?
A:做数据分析首先是熟悉业务及行业知识,其次是分析思路清晰,再次才是方法与工具,切勿为了方法而方法,为工具而工具!不论是EXCEL、SPSS还是SAS,只要能解决问题的工具就是好工具。
问题的高效解决开始于将待解决问题的结构化,然后进行系统的假设和验证。分析框架可以帮助我们:
1、以完整的逻辑形式结构化问题;
2、把问题分解成相关联的部分并显示它们之间的关系;
3、理顺思路、系统描述情形/业务;
4、然后洞察什么是造成我们正在解决的问题的原因。
Q6:请问现在国内做数据分析行业需要精通SPSS、SAS之类的统计软件吗?
A:不同公司不同职位要求都不一样,虽然大部分公司的招聘要求有提到要求会SPSS、SAS之类的统计软件,但是实际工作中还是以EXCEL居多,只有少数公司在工作中才常用到SPSS、SAS。
另外分享一网友@AC不米兰微博感想:
其实对绝大多数财务人员和管理人员而言,excel用到透视表已经可以解决95%的问题了吧,宏什么的属于炫技式用法。重要的是数据设置时的逻辑关系。还有一个重要的是分析结果的展示方法。
地址:
Q9:看完小黄书后要看哪本书?有何推荐没有?
A:如果看完小黄书后,能对数据分析有个清晰的认识,知道数据分析是做什么用的,并且书中每个方法都理解,都能用简单的语言描述出来,能活学活用,那就说明你真正掌握了。到时你自然而然的知道你需要再补充哪方面的知识。
如果是想往统计技术方面发展,可以看@文彤老师 这本SPSS统计分析基础教程(第二版)。Q10:我想知道想要从事数据分析这方面的工作,我现在应该找什么类型的公司和实习岗位来积累经验呢?
A:建议是互联网、移动互联网、游戏、通信类的企业,因为这些类型的公司是数据都较为庞大,并且也较为重视数据分析工作的公司。
不过先想清楚自己以后所要从事的行业,然后在有针对性的实习,这样可以累积行业经验,加深对行业及业务的理解,应为毕竟数据分析的前提是要熟悉行业及业务。如果你熟悉了业务,你看到的不在是简简单单的数据,而是看到数据后面所隐含的信息。
举个案例:某公司面试官发了这么一条微博:问他擅长什么,答数据分析,于是给他一堆数据,5分钟后问他,答约,可以分析出标准差,离散度……再追问,分析这些的意义是什么,答曰:可以知道样本数据的标准差,离散程度……
地址:http://weibo.com/1590680882/y4YGB8nIH
这就是技术与业务脱节,为了分析而分析,谨记!
Q11:如何写成一份好的数据分析报告?
A:一份好的数据分析报告,首先需要有一个好的分析框架,并且图文并茂,层次明晰,能够让阅读者一目了然。结构清晰、主次分明可以使阅读者正确理解报告内容;图文并茂,可以令数据更加生动活泼,提高视觉冲击力,有助于阅读者更形象、直观地看清楚问题和结论,从而产生思考。--小黄书《谁说菜鸟不会数据分析》
Q12:该如何学习数据分析呢?
A:数据分析三字经:
①学习:先了解,后深入;先记录,后记忆;先理论,后实践;先模仿,后创新; ②方法:先思路,后方法;先框架,后细化;先方法,后工具;先思考,后动手; ③分析:先业务,后数据;先假设,后验证;先总体,后局部;先总结,后建议;
Q13:我看到有人说数据分析可以分为数据分析师和数据挖掘师,是这样吗?数据分析做到深入的话必须要懂数据挖掘吗?数据挖掘要掌握一些算法吧,那不成了计算机专业的了吗?
A:首先要了解数据挖掘与数据分析之间的关系。
《谁说菜鸟不会数据分析》中有如下介绍:数据挖掘其实是一种高级的数据分析方法。数据挖掘就是从大量的数据中挖掘出有用的信息,它是根据用户的特定要求,从浩如烟海的数据中找出所需的信息,以满足用户的特定需求。数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。一般来说,数据挖掘主要侧重解决四类数据分析问题:分类、聚类、关联和预测,重点在寻找模式与规律。
数据分析与数据挖掘的本质都是一样的,都是从数据里面发现关于业务的知识。
另外从事数据挖掘工作需要各种专业的人才一起参与,如计算机、统计学、数学等,数据挖掘工作包括算法研究开发、ETL、业务建模、系统开发等等,所以要看你的工作偏向哪方面,如果是业务建模分析,那就要熟悉业务,并对各种常用算法原理、优缺点比较熟悉,至于具体如何实现,统统交给数据挖掘软件和计算机去处理吧!
Q14:数据分析师会遇到哪些困难呢?
A:可以参考下最伤数据分析师的几句话:
1、你这个数据不对吧;
2、数据换个口径重新跑一遍;
3、你们做的一大堆数据,有啥用呢?无法落地;
4、怎么数据还没跑出来;
5、报告一点逻辑都没有;
6、报告一点业务深度都没有;
7、报告看不懂;
8、报告看懂了但没用;
9、报告再改改;
10、全是基础数据堆彻,没有重点,没有分析和结论!
以上问题在工作中可能会遇到,要尽量避免及做好心理准备!一句话:数据分析师伤不起!
第三篇:谁说大象不能跳舞 读书笔记
谁说大象不能跳舞读书笔记
《谁说大象不能跳舞》是IBM公司前CEO郭士纳写的一本自传,记录了他在IBM公司长达9年的时间中的一些所见所闻,以及他在临危受命以后所采取的一系列行动。讲述了他作为一个临危受命的CEO是如何让一个濒临破产的巨型公司重新焕发青春,重塑企业竞争力的全过程。
整本书可以分为五个部分:掌舵领航、战略决策、IBM文化、教训篇、经验篇。作者郭士纳是IBM公司的前任董事长,CEO。加盟IBM之前,他曾是纳贝斯克公司的董事长兼CEO。他还曾在著名的麦肯锡管理咨询公司担任公司总监。
在他加盟IBM初,IBM是个拥有庞大资源的机构,在150多个国家都有分公司,然后它每月都在以亿美元计算亏损。而他离开时,IBM拥有同样的资源,同样的业务,然而却成为IT行业的领先者。
那么郭士纳靠什么带领IBM走出低谷?
面对市场地位急剧下挫、巨额亏损和士气低落的危局,作为一个完全的局外人,郭士纳并没有盲目行动,也没有轻言许诺,而是采取完全务实的策略。
他在首次公开亮相时提出了IBM要做的五件大事:
第一是尽快实现盈利,第二是赢得客户信任,第三是强化服务器业务;
第四是强化IBM作为整体服务提供者的独一无二的定位;
第五是提高回应客户的速度和效率。
这五件大事是他最初为IBM设计的基本战略的具体体现。这些基本战略是:保持公司的完整性、改变公司的经济模式、再造业务流程以及出售缺乏生产力的资产。这一战略贯穿于郭士纳在IBM重整过程的始终。
尽管郭士纳重整IBM的战略是清晰、直接和有效的,但在一个拥有20多万聪明绝顶的高级白领的企业中,对于一个没有IT背景的CEO来说要贯彻执行则是一件异常困难的事。因为要改变人们的观念和习惯本来就很难,如果这个习惯和观念背后又包含着利益,那么就更困难。要克服这些困难,关键在于战略执行,而执行的关键又在于领导,这是郭士纳重整IBM成功的关键。
一流的战略,需要卓越执行才能实现战略效果。提升战略实施效果,在精神方面,他通过IBM企业文化的演绎阐述,传达,植入,最终实现引导IBM忠诚员工向战略方向集中投入。在物质方面,他通过将资源重新配置,让IBM更多资源投入到战略实施中。他通过变卖对企业没有价值的资产获取足够资金,同时通过组织架构的调整,权力的回收,让更多人力资源投入。最终在3年内复苏。
这本书让我领悟到:现阶段,企业的经营,需要以客户需求作为导向,并且以此作为公司经营的唯一焦点。通过卓越的执行力实施,实现焦点目标,同时利用领导艺术(激情,品德,沟通)等让资源持续化投入。卓越执行力指将更多时间,采用更适合手段,投入到事情上。
第四篇:《大数据时代》读书笔记
“凡是过去,皆为序曲”
《大数据时代》读书笔记
2014年2月20日sunjinshuang
各章节内容摘要与感想
第一部分 大数据时代的思维变革
1.不是随机样本,而是全体数据--更多
通过GOOGLE预测流感流行趋势和Farecast系统预测机票价格等例子说明了大数据时代分析数据立足于海量数据分析的重要性,而非传统的取样分析,并且阐述了在很多领域曾经不被重视的混杂数据在大数据时代而产生了新的商业价值的案例,只有从思想上改变了原始的数据分析方法,重视大数据思维方式,才能更好的发现生活中更具价值的信息和商机。
2.不是精确性,而是混杂性--更杂
在“小数据”时代,采样最基本、最重要的要求就是减少错误,保证质量,因为收集的信息量较少,所以要保证记录下来的信息要尽量精确。但在大数据时代,很多时候数据的量变会产生质变,如果依然沿用以前的分析方法,可能会和更多有价值的信息失之交臂,只有容忍不精确性,拥抱混杂性,以一种高屋建瓴的思维方式跳出传统思维模式,才有可能发现更多平凡数据中隐藏的“宝藏”。
3.不是因果关系,而是相关关系--更好
知道“是什么”就够了,没必要知道“为什么”。在大数据时代,我们不必知道现象背后的原因,而是要让数据自己“发声”。本节通过列举了亚马逊网站的书评团队输给图书推荐系统、蛋挞与飓风用品捆绑销售、客户购买行为与怀孕预测、纽约沙井盖与爆炸事故预测等众多经典案例来阐述在生活中很多时候我们并不需要寻找事物之间的因果关系,而只要知道了相关关系就足够给我们的生活和工作带来有价值的信息,人们必须转变在以往的日常生活中,习惯性地用因果关系来考虑事情的思维,才能在大数据
时代更好的认知自己和这个世界。
第二部分 大数据时代的商业变革
1.数据化:一切皆可“量化”
“数据”(data)一词在拉丁文里是“已知”的意思,也可以理解为“事实”。信息化的发展其实就是一场逐渐将世界转化为数据的革命,在将世间万物运转过程中所“散发”的特征量化为数据的过程中,其所具有的的商业价值也就如泉水般源源不断的涌现出来,文中莫里的航海导航图的研制和日本教授通过研究司机不同坐姿的臀部经压力传感器数据化后所孕育出的新型产业链,着实让人眼前一亮,大呼数据化研究的不可思议。如今的信息技术变革重点在“T”(技术)上,而不是在“I”(信息)上。现在,是时候把聚光灯打向“I”,开始关注信息本身了。
2.价值:“取之不尽,用之不竭”的数据创新
节选:
我们所处的时代之所以与众不同,是因为数据的收集不再存在固有的局限性。技术已经发展到一定程度,大量信息可以被廉价地捕捉和记录。数据经常会得到被动的收集,人们无需投入太多精力甚至不需要认识这些数据。而且,由于存储成本的大幅下降(在过去的50年中,数字储存成本大约每2年就削减一半,而存储密度则增加了5000万倍),保存数据比丢弃数据更加容易。这使得以较低成本获得更多数据的可能性比以往任何时候都大。
不同于物质性的东西,数据的价值不会随着它的使用而减少,而是可以不断地被处理。这就是经济学家所谓的“非竞争性“的好处:个人的使用不会妨碍其他人的使用,而且信息不会像其他物质产品一样随着使用而有所耗损。
数据就像一个神奇的钻石矿,当它的首要价值被发掘后仍能不断给予。它的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而绝大部分都隐藏在表面之下。
3.角色定位:数据、技术与思维的三足鼎立
从商业角度描绘了大数据价值链的三种角色定位:
• 基于数据本身的公司
• 基于技能的公司
• 基于思维的公司
并依此讲述了3种定位不同的公司的核心竞争力、未来发展前景和商业模式的转变所带来的新的挑战和商机。作者对未来公司体系结构和经营模式有了大胆的设想,认为大数据是决定未来企业的核心竞争力,对各个行业将会起到决定性的影响,谁首先掌握了大数据技术和思维,进行了深入的变革,谁就会最先受益并在此后的竞争过程中遥遥领先。文中的一个观点让人印象颇深:“行业专家和技术专家的光芒都会因为统计学家和数据分析家的出现而变暗,因为后者不受旧观念的影响,能够聆听数据发出的声音“。
第三部分 大数据时代的管理变革
1.风险:让数据主宰一切的隐忧
2.掌控:责任与自由并举的信息管理
最后一章主要是讲大数据时代的到来带来的个人隐私、公共安全、司法公正方面的风险问题,通过数据的公开和共享,个人信息将越来越容易被利用,个人隐私的保护将变得不堪一击。甚至通过大数据分析预测,将将要犯罪之人绳之以法所面临的道德风险问题,一一进行讨论分析。但就如核工业技术和生物工程学领域的发展一样,人类总是先创造出可能危害自身的工具,然后才着手建立保护自己、防范危险的安全机制,在这方面,大数据也和其他领域的新技术一样,机会的到来也伴随着风险。但作者也在书中讨论了应该如何建立一种安全的机制去管控不可预知的风险问题,甚至设想了一种新的职业--“大数据算法师”,对数据利用的风险进行评估和提供相关分析算法的解决方案这一职业进行了描绘。
虽然大数据技术和思想能帮助我们更好地进行已有的工作,但大数据也并非万能的,人类的创造力、直觉、天赋和灵感远非机器所能取代。大数据为我们提供的不是最终答案,只是参考答案。
第五篇:大数据时代读书笔记
大数据时代——读书笔记
一、引论
1.大数据时代的三个转变:
1.可以分析更多的数据,处理和某个现象相关的所有数据,而不是随机采样
2.不热衷于精确度
3.不热衷与寻找因果关系
2.习惯:用来决策的信息必须是少量而精确的。实际:数据量变大,数据处理速度变快,数据不在精确
3.危险:不是隐私的泄露而是未来行动的预判
二、大数据时代的思维变革
1.原因:没有意识到处理大规模数据的能力,假设信息匮乏,发展一些使用少量信息的技
术(随机采样)
1.1086年 末日审判书 英国对人的记载
2.约翰·格朗特:统计学,采样分析精确性随着采样随机性上升而大幅上升,与样本数
量关系不大
3.1890年,穿孔卡片制表机,人口普查
4.随机采样有固有的缺陷
1.采样过程中存在偏差
2.采样不适合考察子类别
3.只能得出实现设计好的问题的结果
4.忽视了细节考察
2.全数据模式:样本=总体
1.通过异常量判断信用卡诈骗
2.大数据分析:不用随机抽样,而是采用所有数据。不是绝对意义而是相对意义。
(Xroom信用卡诈骗,日本相扑比赛)
3.多样性的价值(社区外联系很多》社区内联系很多)
3.混杂性而非精确性
1.葡萄树温度测量:数据变多,虽然可能有错误数据,但总体而言会更加精确。
2.包容错误有更大好处
3.word语法检查:语料库》算法发展
4.google翻译:让计算机自己估算对应关系,寻找成千上万对译
结论:大数据的简单算法好过小数据的复杂算法
5.大数据让我们不执著于也无法执着于精确
6.MIT的通货紧缩软件:即时的大数据
7.标签:不精确
8.想要获得大规模数据的好处,混乱是一种标准途经
9.新的数据库:大部分数据是非结构化的,无法被利用
10.Hadoop:与mapreduce系统相对的开源式分布系统,输出结果不精确,但是非常快 结论:相比于依赖小数据和精确性的时代,大数据因为更强调数据的完整性和混杂性,帮助我们进一步接近事情的真相。“部分”和”确切“的吸引力是可以理解的。但是当我们的视野局限在我们可以分析和确定的数据上时,我们对世界的整体影响就会产生偏差和错误。不仅失去了尽力收集一切数据和活力,也失去了从不同角度观察时间的权利。
三、不是因果是相关
1.知道是什么就够了,不需要知道为什么。
1.亚马逊放弃书评组,使用大数据预测人们的未来购书需求
2.2.在小数据世界,相关关系有用,但是大数据背景,相关关系大放异彩。通过找关联
物,相关关系可以帮助我们捕捉现在和预测未来
1.A和B经常一起发生,那么A发生时可以预测B发生
2.例子:沃尔玛把飓风用具和蛋挞放在一起
3.过时的寻找关联物的方法
a)原因:数据少且收集花时间
b)在建立,应用假想和选择关联物时容易犯错误
c)结论:我们不需要人工选择关联物
3.大数据的相关分析法更准确,更快
1.例子:FICO我们知道你明天会做什么
2.伊百丽:根据个人信用卡交易记录预测个人收入,防止逃税
3.Aviva:根据生活方式数据预测疾病
4.美国零售商target:通过购买习惯预测是否怀孕
4.通过找出新种类数据的相互联系解决日常需要:找到关联物并监控,我们可以预知未来
1.例子:UPS与汽车修理预测
2.新生儿健康监测:肉眼看不到,但是计算机能看到
5.当收集分析和储存数据的成本较高时,应当适当丢弃一些数据
6.数据的非线性关系
1.幸福的非线性关系
7.快速思维模式使人们偏向于用因果关系看待周围的一切,因此经常对世界产生错误认识。这也使大脑为了避免辛苦思考而产生的捷径。大数据会经常被用来证明我们习惯的思维方式是错误的。
8.证明因果关系的实验开销大,难于操作;相关关系很有用,不仅是因为能为我们提供新的视角,而且提供的视角都很清晰。一旦我们考虑因果关系,这些视角会被蒙蔽。
9.大数据并非是理论消亡的时代。
四、一切皆可量化
1.莫里的信息交换计划:总结所有船只的航海日志已获得好的航线,为第一根大西洋电缆奠定基础
2.坐姿研究与汽车防盗系统
3.数据化
1.把现象转变成可指标分析的量化形式的过程
2.计量和记录促成了数据:
1.阿拉伯数字
2.计数板
3.复式记账法
3.数字化与数据化的区别
1.例子:google的数字图书馆:开始使用扫描-》数字化,进而光学识别-》数
据化。Google借此改进自己的翻译
2.文化组学:定量分析揭示人类行为
4.文字变成数据:人可以阅读,机器可以分析
5.方位变成数据:需要一套标准的标记系统和收集,记录数据的工具。
1. 始于古希腊
2.1884年,国际子午线会议
3.1978年,全球定位系统
4.英国汽车保险
5. UPS的最佳行车路线:减少左转
6.收集用户地理位置数据,以便进行忠诚度计划。或者可以预测交通情况
6.现实挖掘
1.处理大量手机数据,发现并预测人类的行为。
2.例子:预测流感隔离区域
3.例子:通过非洲预付费用户的位置信息和他们账户的资金,发现贫民窟是
经济繁荣的跳板
7.沟通变成数据
1.FaceBook:社交关系数据化
2.推特:情绪数据化。对冲基金正在分析微博的文本,以作为股市投资的信
号。新推特频率可以预测电影票房
3.例子:微博与疫苗:人们对于疫苗的态度与他们实际注射预防流感药物的可能性呈现正相关
8.万物数据化
1.触觉地板:适时开关灯,确定身份,某人摔倒之后是否站起来
2.人体传感器:监控健康状态
4.结论:世界的本质是信息和数据,大数据提供新视角。
五、大数据的潜在价值
1.例子:captcha(验证码,全自动区分人类和电脑的图灵测试)与数据再利用。作者使用了新的验证码recaptcha,人们从计算机光学字符识别程序无法识别的文本扫面项目中读入单词并输出,知道他们都输出正确后才确定(用来破译数字化文本中不清楚的单词)
2.大数据时代,所有的数据都是有价值的。现在,我们能够以较低成本获取并存储数据。数据的真实价值就像漂浮在海洋中的冰山,绝大部分隐藏在表面之下。
3. 不同于物质性的东西,数据的价值不会随它的使用而减少,而且可不断被处理。意味着数据的最终价值远远大于它的最初价值。在基本用途完成后,数据的价值仍然存在,数据的价值是其所有可能用途的总和。
4.例子:IBM与电力汽车动力系统的优化预测:大数据预测模型,甚至考虑天气预报
5.数据再利用:
1. 搜索关键词,搜索结果预测夏天流行色
2.google保存语音翻译记录,开发自己的语音识别技术
3.移动运营商长期使用大数据微调网络性能
4.有些公司可能会收集到大量的数据,但是他们并不急需使用,也不擅长使用数据,但是别的公司可以借此探寻数据的潜在价值
8.重组数据
1.例子:丹麦癌症协会与手机致癌调查:使用所有的手机用户信息和所有的中枢神经系统肿瘤信息。
随着大数据的出现,数据的总和比部分更有价值,当我们将多个数据集的总和重组在一起,重组总和本身的价值也比单个总和更大
9.可拓展数据
1.Google街景和GPS采集,不仅将其用于基本用途,而且进行了大量的二次利用。例如,对Google自动驾驶汽车的运作
10.数据的折旧值
1.随着时间的推移,大多数数据都会失去一部分基础用途,不应用此破坏新数据
2.挑战:如何得知某些数据不再有价值
3.并非所有数据都会贬值。例子:Google希望得到每年的同比数据
结论:组织机构应收集尽可能多的使用数据并保存尽可能长的时间。同时也应该与第三方分享数据
11.数据废气:用户在线交互的副产品,包括浏览哪些页面,停留多久,输入信息等
1.数据再利用的方式很隐蔽
2.例子:Google的拼写检查:搜集每天处理的查询中数据搜索框的错误拼写
3.例子:Google的过滤噪音技术:如果用户点击搜索结果靠后的链接,说明这个结果更加有相关性,Google会把这个页面的排名相应提升。
4.当用户指出了各种自动化程序的错误,实际上是训练了系统
5.例子:巴诺与数据快照,电子书阅读器捕捉人们阅读书籍的习惯
6.例子:Coursera通过捕捉学生犯的错误来提示未来犯错误者
结论:数据废气可以成为公司的巨大竞争优势,和对手的强大进入堡垒
12.开放数据
1.最大的数据收集者:政府,可以强迫人们提供信息,但是信息利用效率低下。最好允许私人运营部门和社会大众访问
2.例子:FlyOnTime网站,通过开放的数据分析航班延误可能性。
3.给数据估值:从数据持有人在价值提取上所采取的不同策略入手,将数据授权给第三方
三、角色定位:数据,技术与思维
1.例子:decide.com广泛收集数据,用来发现不正常,不合理的价格高峰。
2.思维转变的重要性
3.三种大数据公司
1.基于数据本身的公司:twitter
大数据最值钱的是他本身,所以应该优先考虑数据拥有者
例子:机票预订系统ITA不直接使用数据:担心暴露利润
例子:MasterCard通过大数据预测客户的消费习惯
2.基于技能的公司:咨询公司,技术供应商或者分析公司:Teradata
例子:埃森哲公司利用大数据检测汽车零件并节省费用
例子:微软分析公司利用大数据降低病人的再入院率
3.基于思维的公司:创新思维
例子:FlightCaster飞机晚点预测
例子:prismatic分析新闻并排序
4.大数据先驱者一般有跨学科的知识
5.例子:google和amazon三者兼备
6.全新的数据中间商:从各个地方搜集数据,提取有用的信息进行利用,并不威胁数据拥有者的利益
1.社会需要定向广告
例子:Inrix:分析各种汽车制造者的数据和用户的数据,提供卫星导航服务
汽车制造商们本身数据量不够,自身也没有技术利用大数据,也并不介意数据会被中间商利用。同时可以提供失业率等相关数据
例子:Quantcast:收集用户访问信息来测评用户年龄等,之后发定向广告
例子:HCCI收集医疗保单,分析美国医疗费用上涨是否合理
结论:
1.数据价值的转移:从技术到数据本身和大数据思维
2.传统商业模式颠覆:交易数据而不是交易技术
3.传统专家的光芒会被统计和数据学家取代,因为后者只关心数据
1.例子:谷歌翻译团队的工程师都不会说出翻译的语言
2.真正的专家不会消亡,但是主导地位会改变
3.专业技能只适用于小数据时代,因为那是需要依靠直觉和经验指导,但是
遭遇海量数据时,可以通过数据挖掘得到更多
4.数据和统计学知识将成为现代工厂的基础,人类的价值体现在交流上,以进行广泛而深刻的传播
1.例子:交互式游戏,会根据用户来改良,以数据为基础运作
2.例子:The-numbers.com通过大数据来预测电影票房
5.大数据决定企业核心竞争力
1.数据规模决定价值
2.例子:劳斯莱斯通过大数据监测引擎,预测可能出问题的引擎
3.例子:苹果进军手机
4.大数据为小公司带来了机遇:能享受非固有资产规模的好处,低成本传播
创新结果,只需要创新思维
5.大数据拥有者会想办法增加数据存储量
6.消费者成为数据拥有者并与中间商交易
7.大数据对中等规模的公司帮助不大:既没有灵活性也没有规模效应
6.大数据撼动国家竞争力:西方世界优势减少
四、大数据时代的管理
1.大数据会带来很多危险,因为其核心思想是用规模剧增来改变现状。
2.滥用大数据的力量会伤害人身安全
3.大数据的二次利用颠覆了隐私保护法:无法征得个人同意
4.如果所有人的信息在数据库里,有意识地避免就是此地无银三百两
5.匿名化:交叉检验会检验出来
6.大数据预测:罪责判定基于对个人未来行为的预测。大数据可能会否定人的自由意志
7.数据有其局限性,数据的质量可能会很差,有误导性。
8.卓越的才华并不依赖数据:Apple乔布斯的才能
五、掌握大数据
1.个人隐私保护:从个人许可到让数据使用者承担责任,因为将责任从民众转移到数据使用者很有意义因为数据使用者比其他人更明白他们想怎么样使用数据,也因为他们是最大利益获得者:监管机制可以决定不同种类的个人数据必须删除的时间
2.信息模糊处理
3.个人应该为他们的行动而非倾向负责
4.打破大数据的黑盒子:大数据算法师:评估数据源,分析数据工具,解读运算结果
1.外部算法师:审计大数据的准确程度和有效性
2.内部算法师:监督大数据的运转
5.反数据垄断
六、结语
没有什么是上天注定的,因为我们总能就手中的信息制定出相应的对策。大数据的预测结果也并非铁定而只是一种可能性,也就是说,只要我们愿意,结果可以改写,我们可以判定出迎接未来的最佳方式,也无需理解宇宙的奥秘或者神的存在,因为大数据帮我们做好了。更大的数据来源于人本身,大数据所不能预测的,正是人类的直觉,勇气,探索精神和独创性。使用大数据的时候,我们应该怀有谦卑之心,铭记人性之本