第一篇:数据挖掘心得体会
心得体会
这次数据挖掘实验结束了,期间我们小组明确分工并积极去完成,虽然有点辛苦,但我感觉充实而有收获感!
根据老师给的一些资料,我们决定采用SQL Server 2000中的Northwind数据库里的数据作为我们的实验数据。根据表Order Details中的数据,我们分别根据ProductID和OrderID字段,并结合我们规定的最小支持度阀值对数据进行筛选。依次筛选出1项频繁集、2项频繁集和3项频繁集,其中还会使用游标的方式来遍历2项集与3项集的候选集,分别选出2项频繁集和3项频繁集。
由于数据较多,因此过程比较复杂,要编写很多的查询语句,建立许多数据表,包括临时表。开始不知道则操作,但经过我们各自多次重复的建表与查询,逐渐的理解和有了自己的思路。尤其是在运用游标的方法进行遍历这块,因为我们比较陌生而不理解,操作时一时无法实现结果,但经过我们在网上查询了解相关知识,最终得以解决。
经过该次实验,使我对数据库的操作更加熟练,而且还使我对课本上的“挖掘频繁模式”这块知识有了很好的掌握,今后我会多做实验,使我在实际操作过程中学得更好!
第二篇:数据挖掘讲课心得体会
数据挖掘讲课心得体会
今年的数据仓库与数据挖掘课程,任课老师布置每人讲一章,并课中研讨的授课方式,我非常赞同这种自己备课,自己上去讲课并课中和同学研讨、最终老师点评的做法,因为他能让自己更好理解文章,同时又可以锻炼自己的表达能力。
我主讲《数据仓库与数据挖掘技术》中的第二章“知识发现过程与应用结构”,在整个备课和讲课当中,存在很多不足,备课时参考的书目太少,使得在讲课时关于概念和文章出现的例子不能进行相关扩展和补充,也不能用生活中通熟易懂的例子来阐述书本中的抽象概念;讲课时更多的按着PPT所写进行概略性的讲述,没有形成自己的逻辑思维体系,我也知道,讲课是门艺术,不是几次就能掌握的,要经过不断的实践积累经验,不断的研读相关书目,形成自己的“知识树”的基础上,才能对所讲的知识融会贯通。台湾有位教育家曾说:如果你要讲一门,至少要对该门课的五至六本经典教材研读几遍,形成相应的知识树之后才好授课,这是题外话。
关于数据挖掘每一章算法的授课,我认为在有限的时间里先把一个核心算法解释清楚,对其他算法可以简略带过(最后一次课XXX对PageRank的讲解就很到位),因为,后面算法一般是前面所讲算法的一种改进。算法讲解时,除了要对该算法的原理和概念讲述清楚之外,要对该算法的实例最好用板书的形式解释清楚,并演算每一步,而不是拘泥于PPT进行讲解。板书字体可大可小,速度可快可慢,可以写写停停,也可以一气呵成,可以边写边讲,也可以只写不讲。而PPT是则是死的东西,参考的内容也是书上的步骤,而不是授课人自己的理解,在讲解过程中,不利于学生的理解和认识。讲解的过程中,语速要适当放慢,语速太快是所有人刚开始讲课的通病,我也不例外,讲课讲得很快,自己的思维被打乱不说,主要下面的同学不能理解,毕竟讲课不是演讲。
对于上学期的一页纸开卷,我非常赞同这种考试方式,毕竟对于理工类课程,公式很长,又特别难记,我们在理解其思想的基础上,完全没必要再记很长的公式,在考试的过程中,可以相应的记录些公式带入考场。
以上是我个人在讲课和听课过程、及其考试过程中的一些总结和体会。
第三篇:数据挖掘与分析心得体会
正如柏拉图所说:需要是发明之母。随着信息时代的步伐不断迈进,大量数据日积月累。我们迫切需要一种工具来满足从数据中发现知识的需求!而数据挖掘便应运而生了。正如书中所说:数据挖掘已经并且将继续在我们从数据时代大步跨入信息时代的历程中做出贡献。
1、数据挖掘
数据挖掘应当更正确的命名为:“从数据中挖掘知识”,不过后者显得过长了些。而“挖掘”一词确是生动形象的!人们把数据挖掘视为“数据中的知识发现(KDD)”的同义词,而另一些人只是把数据挖掘视为知识发现过程的一个基本步骤!
由此而产生数据挖掘的定义:从大量数据中挖掘有趣模式和知识的过程!数据源包括数据库、数据仓库、Web、其他信息存储库或动态地流入系统的数据。作为知识发现过程,它通常包括数据清理、数据集成、数据变换、模式发现、模式评估和知识表示六个步骤。
数据挖掘处理数据之多,挖掘模式之有趣,使用技术之大量,应用范围之广泛都将会是前所未有的;而数据挖掘任务之重也一直并存。这些问题将继续激励数据挖掘的进一步研究与改进!
2、数据分析
数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用。是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
数据分析有极广泛的应用范围。典型的数据分析可能包含以下三个步:
1、探索性数据分析:当数据刚取得时,可能杂乱无章,看不出规律,通过作图、造表、用各种形式的方程拟合,计算某些特征量等手段探索规律性的可能形式,即往什么方向和用何种方式去寻找和揭示隐含在数据中的规律性。
2、模型选定分析,在探索性分析的基础上提出一类或几类可能的模型,然后通过进一步的分析从中挑选一定的模型。
3、推断分析:通常使用数理统计方法对所定模型或估计的可靠程度和精确程度作出推断。
数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内在规律。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。数据分析是组织有目的地收集数据、分析数据,使之成为信息的过程。这一过程是质量管理体系的支持过程。在产品的整个寿命周期,包括从市场调研到售后服务和最终处置的各个过程都需要适当运用数据分析过程,以提升有效性。
由上可见,数据挖掘和数据分析虽然概念上层次清晰,作用上分工明确(数据分析主要以上数理统计为主,数据挖掘主要是挖掘算法为主)。但很明显的是,数据挖掘必须借助数据分析的有关方法来挖掘出有效的,对目标应用有意义的模式和知识。或者可以说:数据挖掘也可以是数据分析的一种!
在这样一个信息迅速膨胀的时代,数据挖掘和分析都与大量数据打交道。两者都离不开一种80年代后期兴起的一种高级数据分析技术:数据仓库和联机分析处理。
3、数据仓库
数据仓库是一个从多个数据源收集的信息存储库,存放在一致的的模式下,并且通常驻留在单个站点上。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造。为便于决策,数据仓库中的数据围绕主题组织。数据存储从历史的角度提供信息,并且通常是汇总的。数据仓库提供一些数据分析能力,称作联机分析处理(OLAP)。
数据仓库有以下四种关键特征:
面向主题的:数据仓库围绕一些重要主题,如顾客、供应商、产品、和销售组织。数据仓库关注决策者的数据建模与分析,而不是单位的日常操作和事务处理。因此,数据仓库通常排除对于决策无用的数据,提供特定主题的简明视图。
集成的:通常,构造数据仓库是将多个异构数据源,使用数据清理和数据集成技术,确保命名约定,编码结构,属性度量等的一致性。
时变的:数据存储从历史的角度提供信息。数据仓库中的关键结构都隐式或显式地包含时间元素。
非易失的:数据仓库总是物理地分离存放数据,这些数据源于操作环境下的应用数据。由于这种分离,数据仓库不需要事务处理、恢复和并发控制机制。通常,它只需要两种数据访问操作:数据的初始化装入和数据访问。
4、分类及算法
分类是一种重要的数据分析形式,它提取刻画重要数据类的模型。分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等,如一个汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中,从而大大增加了商业机会。
分类算法主要有决策树归纳、贝叶斯分类、使用IF-THEN规则分类、神经网络、支持向量机等。
5、聚类分析
聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。
常用的算法有:
划分方法:k-均值算法,k-中心点算法。
层次方法:层次聚类算法、平衡迭代归约和算法、Chameleon(变色龙)、基于密度的方法:DBSCAN算法,OPTICS算法,DENCLUE算法。基于网格的方法:STING(统计信息网格),CLIQUE
6、广泛应用
作为一个应用驱动的领域,数据挖掘融汇来自其他一些领域的技术。这些领域包括统计学、机器学习、数据库和数据仓库系统,以及信息检索。数据挖掘研究与开发的多学科特点大大促进了数据挖掘的成功和广泛应用。
数据挖掘已经有许多成功的应用,如商务智能,Web搜索,生物信息学,卫生保健信息学,金融,数字图书馆和数字政府等。
7、学习总结
数据挖掘技术已经形成很广泛的应用空间,而目前JDMP的版本也在完善当中,大多数数据挖掘开发工具涌现出来。各种相关的框架如Hadoop也如雨后春笋纷纷出现。这些现象的出现,正是因为数据挖掘的发展会有越来越广泛的天空。然而数据挖掘还是有很多需要面临并且急需解决的问题„„而我们也希望其越来越深刻的研究和改进。
对于数据挖掘的学习,还是要注重算法的研究和开发。目前我还很欠缺这一块知识。包括统计学、概率论,机器学习等。数据挖掘是个繁复的过程,需要我们长此以往的研究!
第四篇:数据挖掘试题
《数据挖掘》总复习题
1.数据挖掘系统可以根据什么标准进行分类?
答:根据挖掘的数据库类型分类、根据挖掘的知识类型分类、根据挖掘所用的技术分类、根据应用分类
2.知识发现过程包括哪些步骤?
答:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示3.什么是概念分层?
答:一个映射序列,将低层概念映射到更一般的较高层概念。4.多维数据模型上的 OLAP 操作包括哪些?
答:上卷、下钻、切片和切块、转轴 / 旋转、其他OLAP操作5.OLAP 服务器类型有哪几种?
答:关系 OLAP 服务器(ROLAP)、多维 OLAP 服务器(MOLAP)、混合 OLAP 服务器(HOLAP)、特殊的 SQL 服务器6.数据预处理技术包括哪些?
答:聚集、抽样、维规约、特征子集选择、特征创建、离散化和二元化、变量变换。7. 什么是数据清理?
答:填写缺失的值,平滑噪声数据,识别、删除离群点,解决不一致性 8. 什么是数据集成?
答:集成多个数据库、数据立方体或文件 9.什么是数据归约?
答:得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果 10.数据清理的内容包括哪些?
答:缺失值、噪声数据、数据平滑、聚类、回归11.将下列缩略语复原
OLAP——on-line analytical processing DM——data mining
KDD——knowledge discovery in databases OLTP——on-line transaction processingDBMS——database management system DWT——discrete wavelet transform
(DMQL)--Data Mining Query Language 12.什么是数据挖掘?
答:简单地说,数据挖掘是从大量数据中提取或挖掘知识。具体地说,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际 应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和 知识的过程。13.什么是关联规则? 答:(关联规则是形如X→Y的蕴涵式,其中且,X和Y分别称为关联规则的先导和后继。)假设I是项的集合。给定一个交易数据库,其中每个事务(Transaction)t是I的非空子集,即,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比,即概率;置信度(confidence)是包含X的事务中同时又包含Y的百分比,即条件概率。关联规则是有趣的,如果满足最小支持度阈值和最小置信度阈值。这些阈值是根据挖掘需要人为设定。
(关联规则反映一个事物与其它事物之间的相互依存性和关联性,如果两个事物或者多个事物之间存在一定的关联关系,那么其中一个事物就能够通过其他事物预测到。)15.什么是概念描述?什么是特征化?什么是属性相关分析?
答:概念描述:用汇总的、简洁的和精确的方式描述各个类和概念可能是有用的。特征化:是目标类数据的一般特性或特征的汇总。
属性相关分析:可能需要在分类和预测之前进行,它试图识别对于分类或预测过程无用的属性。这些属性应当排除。
16.什么是数据仓库?其主要特征是什么?
答:数据仓库是一个提供决策支持功能的数据库,它与组织机构的操作数据库分别维护。它允许将各种应用系统集成在一起,为统一的历史数据分析提供坚实的平台,对信息处理提供支持。
特征:面向主题、数据集成、随时间而变化、数据不易丢失(数据不易丢失是最明显特征)17.什么是数据集市?
答:数据集市包含企业范围数据的一个子集,对于特定的用户群是有用的。其范围限于选定的主题。
(是完整的数据仓库的一个逻辑子集,而数据仓库正是由所有的数据集市有机组合而成的)18.数据库中的知识发现过程由哪几个步骤组成?
答:数据清理、数据仓库、任务相关数据、数据挖掘、模式评估、知识表示 19.典型的数据挖掘系统有哪几个主要成分?
答:数据库、数据仓库、万维网或其他信息库;数据库或数据仓库服务器;知识库;数据挖掘引擎;模式评估模块;用户界面
20.从软件工程的观点来看,数据仓库的设计和构造包含哪些步骤?
答:规划、需求研究、问题分析、仓库设计、数据集成和测试、部署数据仓库。21.在数据挖掘系统中,为什么数据清理十分重要?
答: 脏数据的普遍存在,使得在大型数据库中维护数据的正确性和一致性成为一个极其困难的任务。
22.脏数据形成的原因有哪些?
答:滥用缩写词、数据输入错误、数据中的内嵌控制信息、不同的的惯用语、重复记录、丢失值、拼写变化、不同的计量单位、过时的编码23.数据清理时,对空缺值有哪些处理方法?
答:忽略元组、人工填写缺失值、使用一个全局变量填充缺失值、使用属性的平均值填充缺失值、使用与给定元组属同一类的所有样本的属性均值、使用最可能的值填充缺失值 24.什么是数据变换?包括哪些内容?
答:将数据转换或统一成适合于挖掘的形式。包括:光滑、聚集、数据泛化、规范化、属性构造 25. 数据归约的策略包括哪些?
答:数据立方体聚集、性子集选择、维度归约、数值归约、离散化和概念分层产生 26.提高数据挖掘算法效率有哪几种思路?
答:减少对数据的扫描次数;缩小产生的候选项集;改进对候选项集的支持度计算方法 27.假定属性income的最小值与最大值分别为12000和980到区间[0.0,1.0],根据 min-max 规范化,income的值73600将变为_3631/551_。
28.假定属性income的平均值和标准差分别为54000和16000,使用 Z-score 规范化,值73600被转换为_1.225_。
29.假定A的值由-986到917.A的最大绝对值为986,使用小数定标规范化,-986被规范化为_-0.986_
30.从结构角度来看,有哪三种数据仓库模型。答:企业仓库、数据集市、虚拟仓库
31.什么是聚类分析?它与分类有什么区别?
答:将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程 区别:分类有监督 聚类无监督 分类要靠学习聚类要靠启发式搜索 32.与数据挖掘类似的术语有哪些?
答:数据库中挖掘知识、知识提取、数据/模式分析、数据考古和数据捕捞。33.解释下列术语 34.翻译下列术语
Data Mining 数据挖掘Data warehousing 数据仓库Data Mart 数据集市
drill-down 下钻roll-up上卷OLAP 联机分析处理Data cube 数据立方体 Association rule 关联规则Data cleaning数据清理Data integration 数据集成 Data transformation数据变换Data reduction 数据归约
35.可以对按季度汇总的销售数据进行___B___,来观察按月汇总的数据。A 上卷 B 下钻 C 切片 D 切块
36.可以对按城市汇总的销售数据进行____A__,来观察按国家总的数据。A 上卷 B 下钻 C 切片 D 切块
37.通过不太详细的数据得到更详细的数据,称为____B____。A 上卷 B 下钻 C 细化 D 维规约
38.三层数据仓库结构中,从底层到尾层分别是_仓库数据服务器、OLAP服务器、前端客户层__。
42.常用的四种兴趣度的客观度量。
答:简单性 确定性 实用性 新颖性43.四种常用的概念分层类型。
答:模式分层、集合分组分层、操作导出的分层、基于规则的分层45.如何理解现实世界的数据是“肮脏的”?答:不完整的、含噪声的、不一致的、重复的 46.多维数据仓库有哪几种概念模型?
答:星形模式、雪花形模式或事实星座形模式。
48.在多路数组聚集算法中,如何尽量少地占用内存?
答:将最小的平面放在内存中,将最大的平面每次只是提取并计算一块。49.给出方体的维数,会计算各D方体有多少,总的方体个数有多少?2^n50.什么是离群点?离群点都需要删除吗?为什么?
答:离群点:一些与数据的一般行为或模型不一致的孤立数据。不需要。通常离群点被作为“噪音”或异常被丢弃,但在欺诈检测中却可以通过对罕见事件进行离群点分析而得到结论。
【51.所有模式都是有趣的吗?
答:一个模式是有趣的,如果(1)它易于被人理解 ;(2)在某种程度上,对于新的或测试数据是有效的;(3)具有潜在效用;(4)新颖的;(5)符合用户确信的某种假设。】
第五篇:2年数据挖掘服务工作心得体会
因为男友最近闹着想转行,想从大数据平台交付转到数据挖掘岗位(我自己是在同一家公司的数据挖掘偏业务咨询方面工作),于是想借此机会思考下自己这两年的工作体会,也希望通过这篇文,让他对数据挖掘要做的事情有所了解。。
1.数据挖掘为什么这么火?(关键词:高薪、行业前景)
1.社会进步,竞争加剧,如何运用数据资产提高生产效率、优化管理流程和拓展营销市场是制胜的关键;决策支撑、营销建议
2.涉及多行业、多专业技能;对人才的要求很高,需要具备跨专业整合能力,不断学习、不断积累、不断进步。
3.2.缺少能对数据进行有效应用人才
对数据挖掘从业人员的要求?
1.懂业务
1.精通所在行业的行业状况,包括所在行业生态系统、所在企业经营状况包括企业产品优劣、市场营销策略、企业管理流程、与行业内其他企业的利益链、用户需求等;
2.良好的沟通表达能力:准确的接受讯息、清晰的传达信息,涉及到与客户、上级和同事之间的高效沟通;
3.优秀的文档编写能力:全面、高效、简洁的通过书面的方式将自己的思想表达出来。
2.懂管理
1.了解营销、管理学的基础知识,提供数据分析思路,为决策者或管理人员、一线营销人员提供贴近业务的建议;
2.当需要带领一个临时团队解决一个问题的时候,需要能够尽可能的安排好每个成员的工作、分解项目内容、掌握项目的进度;
3.懂分析
1.懂得基本的分析思想和方法,如对比分析、综合分析、相关分析等,利于从已有数据中得到需要的事实依据;
4.懂工具
1.精通数据处理,运用SQL或者其他语言; 2.精通一种数据分析工具,如excel(适合小数据集)、SPSS(较大数据集);
3.4.5.精通一种数据挖掘工具,如MODELER、R、PYTHON等; 精通一门语言:R、Python。
懂技术(涉及的技术非常多)
1.2.3.4.5.机器学习:掌握挖掘算法的基本原理和实现方式; 统计学:加深对挖掘算法的掌握和分析原理的掌握; 线性代数:加深对挖掘算法的掌握; 概率论:加深对挖掘算法的掌握; 信息论:加深对挖掘算法的掌握。
6.懂设计
1.2.3.数据可视化需要懂些美学设计; 汇报文档的编写需要设计。
产品原型设计需要懂得产品的设计流程和方式。
比咨询师更懂分析挖掘技术 比产品经理更懂分析挖掘技术
3.我们要怎么做达到这些要求?
1.多看
1.多看书
《麦肯锡原理》、《谁说菜鸟不会数据分析》、《机器学习实战》等
2.网上资料学习
1.2.微博大V学习微信公众号
3.多看前辈做事
1.2.3.前辈的文档 前辈的沟通风格 前辈的思路
2.多思 1.2.3.3.理解透彻定义 明白原理和流程 提出优化建议
多动手
1.2.动手写写报告
动手实践分析/挖掘流程
4.其他要说的话
个人内在修养很重要:无论在哪里工作,想要在岗位上不断提升自己的能力,针对性的看一些提升修养的书、培养一些提升内在的爱好有助于提升自己的个人魅力,与客户、领导或同事沟通更顺畅,绝对有利于自身职场发展。1.看书:思维训练、哲学素养、艺术相关的书籍; 2.爱好:音乐、绘画等。
个人外在形象很重要:相对与IT程序员,数据挖掘工程师往往需要去到现场与客户沟通或者说服领导投资、又或是说服顽固的开发测试优先开发,这些都需要注意个人形象、同事注意口头表达能力的培养。这不是虚的,因为我曾在一个挖掘项目中担任小leader的角色,从我的角度出发,我根本不愿意找一个不注重自身形象的人去与客户沟通。
备注:本人工作经验两年,在一家为国内运营商提供IT解决方案的公司工作,任职大数据部门的数据挖掘偏业务咨询岗位。
工作两年来,因为本身工作性质及公司刚成立数据挖掘团队的原因,公司给了我与很多客户有过接触、与很多项目上的同行有过接触,也与其他岗位的同事接触的机会,虽然技术上的提升有限,但是对我找到了自己未来的职业方向、有了要实现的目标。接下来一定会根据自己的理解,一步步的提升技术的能力,我想一定会比那些从一开始钻研技术的人少走很多的弯路,少做很多无用功。