第一篇:数据挖掘中易犯的十大错误
0.缺乏数据(Lack Data)
1.太关注训练(Focus on Training)
2.只依赖一项技术(Rely on One Technique)
3.提错了问题(Ask the Wrong Question)
4.只靠数据来说话(Listen(only)to the Data)
5.使用了未来的信息(Accept Leaks from the Future)
6.抛弃了不该忽略的案例(Discount Pesky Cases)
7.轻信预测(Extrapolate)
8.试图回答所有问题(Answer Every Inquiry)
9.随便地进行抽样(Sample Casually)
10.太相信最佳模型(Believe the Best Model)
咦,11项错误了喔!呵呵!详情如下:
0.缺乏数据(Lack Data)
对于分类问题或预估问题来说,常常缺乏准确标注的案例。
例如:
-欺诈侦测(Fraud Detection):在上百万的交易中,可能只有屈指可数的欺诈交易,还有很多的欺诈交易没有被正确标注出来,这就需要在建模前花费大量人力来修正。
-信用评分(Credit Scoring):需要对潜在的高风险客户进行长期跟踪(比如两年),从而积累足够的评分样本。
1.太关注训练(Focus on Training)
IDMer:就象体育训练中越来越注重实战训练,因为单纯的封闭式训练常常会训练时状态神勇,比赛时一塌糊涂。
实际上,只有样本外数据上的模型评分结果才真正有用!(否则的话,直接用参照表好了!)
例如:
-癌症检测(Cancer detection):MD Anderson的医生和研究人员(1993)使用神经网络来进行癌症检测,惊奇地发现,训练时间越长(从几天延长至数周),对训练集的性能改善非常轻微,但在测试集上的性能却明显下降。
-机器学习或计算机科学研究者常常试图让模型在已知数据上表现最优,这样做的结果通常会导致过度拟合(overfit)。
解决方法:
解决这个问题的典型方法是重抽样(Re-Sampling)。重抽样技术包括:bootstrap、cross-validation、jackknife、leave-one-out...等等。
2.只依赖一项技术(Rely on One Technique)
IDMer:这个错误和第10种错误有相通之处,请同时参照其解决方法。没有对比也就没有所谓的好坏,辩证法的思想在此体现无遗。
“当小孩子手拿一把锤子时,整个世界看起来就是一枚钉子。”要想让工作尽善尽美,就需要一套完整的工具箱。
不要简单地信赖你用单个方法分析的结果,至少要和传统方法(比如线性回归或线性判别分析)做个比较。
研究结果:按照《神经网络》期刊的统计,在过去3年来,只有1/6的文章中做到了上述两点。也就是说,在独立于训练样本之外的测试集上进行了开集测试,并与其它广泛采用的方法进行了对比。
解决方法:
使用一系列好的工具和方法。(每种工具或方法可能最多带来5%~10%的改进)。
3.提错了问题(Ask the Wrong Question)
IDMer:一般在分类算法中都会给出分类精度作为衡量模型好坏的标准,但在实际项目中我们却几乎不看这个指标。为什么?因为那不是我们关注的目标。a)项目的目标:一定要锁定正确的目标
例如:
欺诈侦测(关注的是正例!)(Shannon实验室在国际长途电话上的分析):不要试图在一般的通话中把欺诈和非欺诈行为分类出来,重点应放在如何描述正常通话的特征,然后据此发现异常通话行为。
b)模型的目标:让计算机去做你希望它做的事
大多数研究人员会沉迷于模型的收敛性来尽量降低误差,这样让他们可以获得数学上的美感。但更应该让计算机做的事情应该是如何改善业务,而不是仅仅侧重模型计算上的精度。
4.只靠数据来说话(Listen(only)to the Data)
IDMer:“让数据说话”没有错,关键是还要记得另一句话:兼听则明,偏听则暗!如果数据+工具就可以解决问题的话,还要人做什么呢?
4a.投机取巧的数据:数据本身只能帮助分析人员找到什么是显著的结果,但它并不能告诉你结果是对还是错。
4b.经过设计的实验:某些实验设计中掺杂了人为的成分,这样的实验结果也常常不可信。
5.使用了未来的信息(Accept Leaks from the Future)
IDMer:看似不可能,却是实际中很容易犯的错误,特别是你面对成千上万个变量的时候。认真、仔细、有条理是数据挖掘人员的基本要求。
预报(Forecast)示例:预报芝加哥银行在某天的利率,使用神经网络建模,模型的准确率达到95%。但在模型中却使用了该天的利率作为输入变量。金融业中的预报示例:使用3日的移动平均来预报,但却把移动平均的中点设在今天。
解决方法:
要仔细查看那些让结果表现得异常好的变量,这些变量有可能是不应该使用,或者不应该直接使用的。
给数据加上时间戳,避免被误用。
6.抛弃了不该忽略的案例(Discount Pesky Cases)
IDMer:到底是“宁为鸡头,不为凤尾”,还是“大隐隐于市,小隐隐于野”?不同的人生态度可以有同样精彩的人生,不同的数据也可能蕴含同样重要的价值。异常值可能会导致错误的结果(比如价格中的小数点标错了),但也可能是问题的答案(比如臭氧洞)。所以需要仔细检查这些异常。
研究中最让激动的话语不是“啊哈!”,而是“这就有点奇怪了„„”
数据中的不一致性有可能会是解决问题的线索,深挖下去也许可以解决一个大的业务问题。
例如:
在直邮营销中,在对家庭地址的合并和清洗过程中发现的数据不一致,反而可能是新的营销机会。
解决方法:
可视化可以帮助你分析大量的假设是否成立。
7.轻信预测(Extrapolate)
IDMer:依然是辩证法中的观点,事物都是不断发展变化的。
人们常常在经验不多的时候轻易得出一些结论。
即便发现了一些反例,人们也不太愿意放弃原先的想法。
维度咒语:在低维度上的直觉,放在高维度空间中,常常是毫无意义的。解决方法:
进化论。没有正确的结论,只有越来越准确的结论。
8.试图回答所有问题(Answer Every Inquiry)
IDMer:有点像我爬山时鼓励自己的一句话“我不知道什么时候能登上山峰,但我知道爬一步就离终点近一步。”
“不知道”是一种有意义的模型结果。
模型也许无法100%准确回答问题,但至少可以帮我们估计出现某种结果的可能性。
9.随便地进行抽样(Sample Casually)
9a 降低抽样水平。例如,MD直邮公司进行响应预测分析,但发现数据集中的不响应客户占比太高(总共一百万直邮客户,其中超过99%的人未对营销做出响应)。于是建模人员做了如下抽样:把所有响应者放入样本集,然后在所有不响应者中进行系统抽样,即每隔10人抽一个放入样本集,直到样本集达到10万人。但模型居然得出如下规则:凡是居住在Ketchikan、Wrangell和Ward Cove Alaska的人都会响应营销。这显然是有问题的结论。(问题就出在这种抽样方法上,因为原始数据集已经按照邮政编码排序,上面这三个地区中不响应者未能被抽取到样本集中,故此得出了这种结论)。
解决方法:“喝前摇一摇!”先打乱原始数据集中的顺序,从而保证抽样的随机性。
9b 提高抽样水平。例如,在信用评分中,因为违约客户的占比一般都非常低,所以在建模时常常会人为调高违约客户的占比(比如把这些违约客户的权重提高5倍)。建模中发现,随着模型越来越复杂,判别违约客户的准确率也越来越高,但对正常客户的误判率也随之升高。(问题出在数据集的划分上。在把原始数据集划分为训练集和测试集时,原始数据集中违约客户的权重已经被提高过了)解决方法:先进行数据集划分,然后再提高训练集中违约客户的权重。
10.太相信最佳模型(Believe the Best Model)
IDMer:还是那句老话-“没有最好,只有更好!”
可解释性并不一定总是必要的。看起来并不完全正确或者可以解释的模型,有时也会有用。
“最佳”模型中使用的一些变量,会分散人们太多的注意力。(不可解释性有时也是一个优点)
一般来说,很多变量看起来彼此都很相似,而最佳模型的结构看上去也千差万别,无迹可循。但需注意的是,结构上相似并不意味着功能上也相似。
解决方法:把多个模型集装起来可能会带来更好更稳定的结果。
原文标题为“Top 10 Data Mining Mistakes”,作者是John F.Elder IV, Ph.D.编译:IDMer(数据挖掘者)
第二篇:数据分析过程中易犯的错误
数据分析过程中易犯的错误
家在数据分析过程中老是很容易犯一些错误:
1、没有明确分析数据的目的咱们要分析一个数据,首先要明确自己的目的,为什么要收集和分析这样一份数据,也是只有明确了目的之后,才能够把握好接下来应该收集哪些数据,应该怎么收集数据,应该分析哪些数据等。
2、没有合理安排时间
数据分析要合理安排时间,一般我们有几个步骤,收集数据>>整理数据>>分析数据>>美化表格,在做这些之前,我们要预估一下每一个步骤需要花多少时间,哪一步比较重要,需要花更多的时间等,这些都要在开始收集数据前就计划好,然后在操作的过程中在规定的时间里完成每一个步骤。
3、重收集轻分析
不少项目就犯了这样的一个错误,做任务的时间为3个月,却用了两个多月来收集数据,最后基本没有时间去分析,紧赶慢赶最后交上来一份没有怎么分析的数据。数据分析重点应该在于分析,应该以最快的速度收集完数据,才有更多的时间整理和分析,最后经过分析的数据才是最有价值的。
4、收集数据太多,导致无法整理及分析
在我们开始收集数据的时候,容易看到什么内容比较符合的就都收集下来,这样的情况是数据越来越多,表格里文档里的内容越来越多,到最后一看,自己都晕了!其实我们在收集数据的时候也要有一个标
准,什么样的数据是我们需要的,什么数据是不符合条件的,作一个初步的判断,这样就可以减少后面整理的更多工作量了。
5、不懂得分析哪些数据
收集了数据后却不知道要分析哪些项目,哪些数据点才能体现出分析的目的。其实这也是前面说的目的不明确造成的,不清楚为什么要收集这份数据,这份数据是用来做什么用的,那就不会有一个评判标准,就没有办法找到数据的要点。比如我们要分析岗位绩效排名后三位的作业岗位或作业人员,那就要知道什么样的岗位绩效是最好的,最好岗位绩效应该具备什么条件,把这些条件列出来,然后根据条件去收集数据,最后所有数据综合加权最差的三位就是最终分析结论。
6、表格不美观,结论不清晰
咱们做数据分析一般使用的是excel表格记录,一份美观清晰的表格不仅使我们可以清楚的看到这份数据的重点,方便查到所想要的数据,我们在收集数据的过程中,也可以提高我们收集和分析数据的效率。Excel还不熟练的朋友,建议找些教程,然后多练习,最后得到一份漂亮的数据,自己看着舒服,工作的延续性将得到提高。
7、不能坚持
数据收集和分析是一件非常闷的工作,不管是收集还是分析,海量的数据里,经常会让人摸不着头绪,数据越多,整理分析起来越麻烦,也越容易让人烦燥,坚持不了的就会半途而废。所以,做好以上6点,也就是明确目标、合理安排时间、把握重点、懂得取舍数据、制作精美表格,都可以让你更轻松的完成数据的收集和分析。
第三篇:01 中国父母易犯的十大错误
中国父母易犯的十大错误
1.让他人带孩子,不自己亲自照顾
很多中国父母以为孩子只要身边有人看著,没有生命危险就好。其实从出生开始,孩子就需要和别人交流。不会说话也可以交流。肌肤的接触,拥抱,关注的眼光,和他说话。孩子需要不断的交流,会变得比较聪明,对爱有安全感。我们很多家庭的孩子,是在没有关注的环境下长大。脑子会变得怪异呆滞。然后永远缺乏爱的安全感。终生追求那童年,婴儿时期失去却永远追不回的爱。
2.把孩子当炫耀比较的对象
中国人一方面爱面子,一方面想鼓励孩子上进。常常说,你看人家孩子多用功,成绩多好。人家又得了什么奖。这种比较最要不得。况且常常是当著很多人的面说。说难听点,孩子考试考不好只怪你基因太差。人受到基因影响太多了,包括智力,个性种种等等,并不是孩子不愿意做好。你每一次把孩子和别人比,只带给他多一份不满和痛苦。对于事情没有什么帮助。
这种比较和竞争的心里,也导致中国人团体比较无法和谐合作做事。喜欢互斗。对于能力强的人不是佩服,而是嫉妒,要拉他下来。学校的老师更是火上加油。整个家长和老师的教育观念需要加速修正。否则中国人的团队合作永远不如人。
3.不尊重孩子的隐私和权利
很多父母抱著传统的观念,把父母摆在权威的角色。认为子女是属于父母的。这种不把孩子当一个拥有完整权利个体的错误观念,导致个人和社会的很多不良的后果。父母进入子女房间应该先敲门。移动或用孩子的东西应该得到他的允许。任何牵涉到子女的决定应该先和子女商谈。不要随意翻看子女的日记或隐私。应该尊重孩子的所有权利,把他当一个成人一样尊重。这个尊重是从出生换尿片开始。换
尿片前,先和颜悦色告诉他要换尿片了,向他道歉,请他忍耐一下。这种尊重的精神是我们社会所缺乏的。导致社会缺乏服务和尊重的观念。不被尊重的人以后也不知道尊重别人。
4.把孩子塑造成自己想要的方向
很多父母把自己一生的遗憾寄托在孩子身上。一直逼孩子往自己以为是正确的路走。即使孩子并不适合,或者不喜欢。譬如学钢琴。譬如出国。在这种压力下,家庭变的不快乐。亲子的愉快时光成了斗争大会。牺牲了亲子的和谐关系,追求一些莫明其妙,也不见得正确的父母理想。当子女长大回想起童年,尽是不快乐的回忆。的确是些愚蠢父母的作为。
5.把学校成绩当成一切表现的指标
中国家长都认为越用功越好。很多父母愚蠢地以为学校的成绩代表一切。这个科举时代遗留的过时观念,仍旧深存人心。其实事实摆在面前,在学校的成绩并不代表一切。反而是全面的能力,活力,毅力,性格,才是影响他们一生的重要因素。
6.认为早起才好,睡觉就是懒惰
成长中孩子需要充分的睡眠。目前全国教育界正在集体剥夺孩子们的睡眠时间。很多孩子6点就起床。每天睡不足8小时。还在推广早起才健康的错误观念。睡不足会影响发育。脑力会减退。我们的孩子需要充分的睡眠。违法让孩子在周末学习或晚睡觉的教育人士应该用严厉的法律措施来禁止
7.认为孩子不该做家事,该把时间拿来学习
社会学家调查的结果,在家常做家事的孩子将来生活比较幸福。可能是因为处理事情的能力比较强。所以长大以后比较不容易有挫折。或者比较能面对挫折。中
国的父母为了让孩子学习,剥夺了一切孩子做家事的机会。剥夺了他学习工作,学习分担责任,学习面对问题的机会。教养出一个个只会解几题数学(又解不好)的傻孩子。中国父母应该让子女充分分担家事。学校应该全面减低作业份量。
8.缺乏幽默感和轻松的一面
或许因为各种压力,家庭的基本气氛就是逼孩子学习。什么是家庭生活?什么是亲子活动?完全不知道。父母因为生活压力,失去了幽默感,失去了轻松。一切都是逼,都是赶,都是高考。实在不知道人活著是为什么。亲子或夫妻在这种缺乏轻松和幽默感的气氛下,一个小挫折就会引爆冲突。
9.认为父母的爱是对子女不合理要求的借口
男女之间,爱并不是为一切所欲为的借口。或许因为电视剧演太多了。很多人以为爱就可以当一切的借口。很多父母常对子女说的一句话:我们这样做,也是因为爱你,为你好啊。想用这句话堵住子女的反驳。这简直荒谬。要求不合理就是不合理。别把爱扯进来当挡箭牌。父母的要求应该要合理。让孩子心服口服。
10.认为养孩子是艰苦的义务,不是享受
中国父母,经过传统的教育,习惯把养育儿女当成艰苦的义务。也因为这个苦,而常常暗示或明示子女要回报,孝顺。比较正确的态度是养孩子是一种上天赐予的享受。
第四篇:考试中十大不能犯的错误
考试中十大不能犯的错误
1、不读题
2、不检查
3、不注意调整时间
4、丢题落题
5、有空白(不
会做的不做)
6、阅读题、作文字数太少
7、作文写跑题
8、字迹潦草,卷面不整洁
9、缺乏自信,做题慌张
10、心浮气躁,稳定不住
各种考试题型的应对
一、基础题
1、字音、字形、字义、词句要求准确,别出现错字、错音、错词。
2、要充分利用起字典,一切需要字典的地方都要用;字典版本最好是最新版的《现代汉语词典》;常用的查字典的方法一定要熟练,如:音序查字法、部首查字法、数笔画法等。
二、口语交际
1、联系话题情境
2、内容具体,字数充足
3、注意符合人物的身份,注
意说话的语气
4、句子通顺连贯
5、以理服人或以情感人,视具体情况而定
三、阅读题
1、认真读短文
2、审清题目,按要求答题
3、充分利用短文中的有效信
息
4、尽量发挥,内容要具体,切不可草草了事
四、作文(弄懂作文要求,紧扣话题,切不可写跑题)
1、工整的字迹
2、充足的字数(400字以上)
3、新颖的题目
4、精彩的开头
5、深刻的结尾
6、通顺的语句
7、真挚的感情
8、正确的标点
9、合理的想象
10、适当地运用(平时积累的好词好句、写作手法、修辞方法、名人名言、经典语段等)
11、注意应用文的格式及内容(如:书信、演讲稿、建议书、调查报告、读后感等)
五、灵活性的题目(综合性题目)
沉着冷静,深入思考;联系自己在语文学习中的日积月累,把自己平时积累的能量在做题中全部释放出来;以不变应万变。
六、听力题
1、集中注意力听,走神是做本题最大的敌人。
2、静下心来听,不要着急,也不要紧张,听力题难度不会太大。
3、答题时除结合听力材料还要联系生活实际。
4、答题时思路清晰、语句通顺、内容充实,有一定的创造性。
考场上的要求1、2、3、4、5、保持镇定,随机应变。注意时间,保证检查(至少15---20分钟)。万分仔细,不放过1分。正常发挥,激发潜能,争取超常发挥。和上学期相比必须要有明显的进步,把自己的成绩发挥到极致,别留下
丝毫的遗憾。
第五篇:网络招聘广告中易犯的低级错误
网络招聘广告中易犯的低级错误
今天,要是哪个公司说从未使用过网络招聘,那真是一件很稀奇的事情。网络招聘以其快捷、便利、跨区域、成本低等优点迅速占领各单位的主流招聘渠道,已经成为公司网罗人才最重要的前沿阵地。
但是由于受单位HR水平高低和认识问题,同样的阵地、相同的付出得到的效果却大不相同。以前,我曾在拙文《网络招聘,你可以做的更好》一文谈过做好网络招聘的一些办法,本文试从网络广告方面再次论述网络招聘常见问题和解决办法。
一、单位名称随意更改
有些招聘单位感觉自己单位名称不够响亮,便随意更改单位名称。表现手法为:要么在单位名称前加上美国、欧洲、中国字样,彰显外资公司或“中字头”公司形象,要么在单位名称后边加上集团公司字样,突出自己公司是规模大、实力强的大集团。如果你公司法人名称的确有这些字样,那倒无可厚非。如果没有,那不是故意混混淆是非,欺骗求职者吗?当求职者发现真相时,除了感觉你公司爱慕虚荣、喜欢浮夸外,不会再留下其他更好的印象。因此,当我们在发布招聘广告时,还是以企业合法的名称来进行宣传,不要随意更改单位名称。
二、单位介绍夸大其词
就象个人求职做简历一样,在基于事实的基础上,把个人优势、闪光点突出出来可以增加个人竞争力,以获得面试和录用的机会。招聘单位为增加对求职者的吸引力,同样可以在招聘广告中把单位的行业地位、福利体系、办公环境、企业文化等恰如其分地展示出来。但是,万不可弄虚作假,把没有的说成有,把小的说成大的。这种事情往小了说是商业诚信问题,往大了说是招聘欺诈,为以后的劳动争议埋下风险地雷。
三、不留单位地址和网址
现如今,网络招聘在超大级城市象北京、上海、广州、深圳等非常普及。而对于这些城市的求职者来说,受交通工具、交通状况等因素影响,单位的位置远近对他们非常重要。谁也无法长期忍受一天3-4个小时都在上下班的路上奔波,那种辛苦和疲惫足以使人放弃原本不错的工作机会。可恰恰有那么一些招聘单位,招聘广告里就是不留单位的办公地址。这除了增加HR筛选无效简历的数量,通知面试时被候选人因地址远而拒绝外,还能给你带来什么好处呢?
众所周知,公司网站是对外宣传的重要窗口,它的浏览量越多越好。而对单位招聘来说,全过程都是在做营销,是单位对人才最好的展示和宣传机会。因此,如果招聘单位已经有对外公开的网站,HR不妨把地址留在招聘广告里,让求职者更多地了解地你单位的情况,这样做的好处是既宣传了公司,又免去了你日后很多的解释工作。
四、职位名称定位不清
不知道是为节省职位数,还是真的不清楚自己到底要招聘什么样的人,不少单位喜欢把多个职位名称放在一起招聘。比如人力资源总监(经理)、人力资源经理(主管、专员)、销售经理(主管)等等。如此招聘,除了让求职者感觉岗位职责、任职资格混乱以外,还会觉得连招聘单位自己都不知道应该招聘总监、经理还是主管,或者随便来个人都行。单位职位体系混乱无序,工作分工模糊不清也是一览无余。
因此,不管是出于节省发布职位数,还是其他原因,为了不给求职者留下不好的印象,千万不要把多个不同级别的职位放在一起招聘。
以上四种看似举手之劳就能解决的小问题,却经常出现在ZHAOPIN、51JOB等主流招聘网站中。无一例外,这些错误或给招聘单位带来负面影响,或给招聘工作带来诸多不便。中国人力资源管理水平参差不齐体现于所有人力资源实践活动中,正所谓有则改之,无则加勉,让我们都在不断提高中进步!