第一篇:大数据试题
《大数据前沿技术应用与发展》在线测试题
1、下面哪一项不属于大数据关键技术()(单选题)A.云计算
B.分布式文件系统 C.数据众包 D.关系型数据库 回答正确
2、最早提出大数据时代概念的公司是()(单选题)A.微软公司 B.谷歌公司 C.脸谱公司 D.麦肯锡公司 回答正确
3、大数据所带来的思维变革不包括()(单选题)A.不是随机样本而是全体数据 B..不是精确性而是混杂性 C..不是因果关系而是相关关系 D..不是歧视而是平等 回答正确
4、大数据元年是指()(单选题)A.2010年 《大数据前沿技术应用与发展》在线测试题
B.2011年 C.2012年 D.2013年 回答正确
5、下面陈述不正确的是()(单选题)A.大数据将实现科学决策 B.大数据使政府决策更加精准化
C.大数据彻底将群体性事件化解在萌芽状态 D.大数据将实现预测式决策 回答正确
6、下面哪项关联不属于购物篮分析()(单选题)A.啤酒和尿布 B.湿巾和烧烤 C.咖啡和咖啡伴侣 D.飓风和蛋挞 回答正确
7、下面哪个理论描述了亚马逊的商业模式()(单选题)A.长尾理论 B.二八定律 C.六度空间理论 《大数据前沿技术应用与发展》在线测试题
D.冰山理论 回答正确
8、第一个将大数据上升为国家战略的国家是()(单选题)A.中国 B.美国 C.英国 D.法国 回答正确
9、下面哪一项不属于大数据系统的必备要素()(单选题)A.云平台 B.物联网 C.数据 D.数据库 回答正确
10、信息时代的三大定律不包括()(单选题)A.摩尔定律 B.吉尔德定律 C.达律多定律 D.麦特卡尔夫定律 回答正确 《大数据前沿技术应用与发展》在线测试题
11、下面关于数据开放的陈述哪些是正确的()(多选题)A.要提供应用程序开放接口 B.允许公众免费查询、下载 C.要提供全部的原始数据 D.允许公民要求数据开放数据 回答正确
12、单纯依据大数据预测做出决策需要遵循哪些原则()(多选题)A.公开原则 B.公正原则 C.可反驳原则
D.确保个人动因能防范数据独裁的危害 回答正确
13、大数据的产生要归功于人类哪些方面能力的提升()(多选题)A.生产数据的能力 B.保存数据的能力 C处理数据的能力 D.展示数据的能力 回答正确
14、大数据的特征包含()(多选题)A.规模性 《大数据前沿技术应用与发展》在线测试题
B.多样性 C.高速性 D.价值密度低 回答正确
15、大数据处理流程可以概括为以下哪几步()(多选题)A.数据分析与挖掘 B.数据采集 C.数据储存 D.结果展示 回答正确
16、与其他部门相比,政府部门在应用大数据时具有哪些优势()(多选题)A.创新能力更强 B.面临苦难最小 C.获得收益最多 D.价值潜力更大 回答正确
17、相比于政府1.0,政府2.0具有哪些特征()(多选题)A.侧重于“以政府为中心” B.侧重于“以公众为中心” C.政府扮演单一和主导性的角色 《大数据前沿技术应用与发展》在线测试题
D.吸纳多元主体的参与 回答正确
18、大数据带来的挑战有哪些()(多选题)A.会导致数据盲点 B.危及个人隐私 C.造成群体歧视 D.产生庞大能耗 回答正确
19、下面例子属于大数据技术公司的是()(多选题)A.商品比价系统Decide.com B.ZestFinance的信用风险评估 C.塔吉特怀孕预测指数
D.基于社会化的众包天气报告应用Weddar 回答正确
20、中国大数据产业特征包括()(多选题)A大数据整体解决方案成熟 B.区域产业集聚现雏形 C.大数据基础研究受到重视 D.互联网企业表现强势 回答正确 《大数据前沿技术应用与发展》在线测试题
21、大数据思维认为海量数据结合复杂算法在应用中更加有效。()(判断题)对 回答正确 错
22、因为对原始数据的分析是在大规模水平上进行的,因此,大数据对不同的社会群体不会厚此薄彼,避免了 对 回答正确 错
23、摩尔定律是由英特尔创始人之一戈登﹒摩尔提出来的。()(判断题)对 回答正确 错
24、“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化 对 回答正确 错
25、大数据本质上只是一场技术变革。()(判断题)对 回答正确 错
26、政府只是其所搜集的信息的托管人,私营部门和社会对数据的利用会比政府更具创新性。()(判断题)对 回答正确 错
27、在环境治理过程中,我们可以借助大数据的数据开放性,鼓励更多公众和更多社会力量参与环境保护。(对 错 《大数据前沿技术应用与发展》在线测试题
回答正确
28、关系型数据库仍然是大数据处理中的关键技术。()(判断题)对 回答正确 错
29、近年来出现的行为金融学认为社交网络媒体中隐藏的征兆可以用来预测股市变动的趋势。()(判断题)对 回答正确 错
30、谷歌大数据流感趋势已经可以替代当前政府在流感监测方面的工作。()(判断题)对 回答正确 错
第二篇:大数据试题
大数据试题及答案
一、判断题
1.集成创新是指基于新的科学发现原理基础之上的创新。
是否正确:
否
2.中国(郑州)跨境电子商务综合试验区的获批时间是2016年8月。()
是否正确 : 否
3.继续教育机构应当认真实施继续教育教学计划,聘请专职教学人员,向专业技术人员提供继续教育服务。()
是否正确 : 否
3.人力资源社会保障行政部门和有关行业主管部门直接举办继续教育活动的,可以根据客观条件,适当收取培训费用。()
是否正确
否
4.中原城市群总共有18个地级市();
是否正确:
否
5.2013年3月7日,“郑洛新国家自主创新示范区”获得批建。()
是否正确:
否
5、到2016年,河南经济发展人均水平已达到全国平均水平();
是否正确
是
5, 2017年,我省经济社会发展领域需要处理好“四个关系”,其中之一是要处理好扩需求与促转型的关系。()
是否正确
是
6.监督执纪四种形态”是中央纪委针对干部存在的问题,提出的监督执纪方式创新,即让咬耳朵、扯袖子,红红脸、出出汗成为常态,党纪轻处分和组织处理成为大多数,严重违纪涉嫌违法立案审查的成为少数,重处分、重大职务调整的成为极极少数。()
是否正确
否
.7.用人单位应当对专业技术人员参加继续教育的种类、内容、时间和考试考核结果等情况随机进行记录。()
是否正确
否
8.上海合作组织政府首脑(总理)理事会第十四次会议在我省成功举办,河南对外开放实现了历史性跨越。()
是否正确
是
9.机械制造是河南的一张王牌()
是否正确
否
10.2017年3月,第十二届中国(河南)投洽会将在郑州召开。()
是否正确
否
11.河南“十三五”金融业发展要“引金入豫”,着力打造“金融豫军”()。
是否正确
是
12.“功能性口岸”是指依托国家一类口岸,经国家相关部委批准设立,具有特殊商品进口或开办特殊业务功能的口岸,目前河南是全国功能性口岸数量最多、种类最全的内陆省份。()
是否正确
是
13.2016年,我省水环境质量总体达到国家要求,水资源管理三条红线目标全面完成。()
是否正确
是
14.2016年4月5日,“郑州航空港经济综合实验区”获得批建。()
是否正确
否
15.专业技术人员参加继续教育的时间,每年累计应不少于90学时,其中,公需科目一般不少于总学时的三分之二。()
是否正确
否
16.用人单位应当对专业技术人员参加继续教育的种类、内容、时间和考试考核结果等情况随机进行记录。()
是否正确
否
17.用人单位安排专业技术人员在工作时间之外参加继续教育活动的,应由用人单位承担所有相关费用,并落实相关待遇。()
是否正确
否
二单选题
1、目前河南经济总量在全国占第(5)位;
2、国家中长期科学和技术发展规划纲要》明确了未来中国科技发展的指导方针和总体目标,提出到(B)年要进入创新型国家行列。
A 2015年
B 2020年
C 2025年
D 2030年 3.新能源时代的核心资源是(C)?
A 风能
B 核能
C 数据
D 以上都是 4.1912年,(A)提出了著名的“创新理论”
A 熊彼特
B 李斯特
C 凯恩斯
D 弗里德曼
5.2016年河南地区生产总值突破4万亿元,稳居全国第(C)位。
A 一
B 三
C 五
D 七
5、目前河南经济总量在中西部居第(A)位;
A 1
B 2
C 3
D 4 6.下面不属于我省加快产业结构战略性调整的发力方向的是(D)。
A 河南制造向河南创造的转变
B 河南速度向河南质量的转变
C 河南产品向河南品牌的转
D 河南工业向河南产业的转变
7.“四区三带”区域生态网络是河南推进生态省建设,实施的山水林田湖生态保护与修复工程。下列不属于“四区”范围的是哪一项?(A)
A 嵩山生态区
B 伏牛山地生态区
C 太行山地生态区
D平原生态涵养区 8.(A)是我省发展的最大潜力
A 新型城镇化
B 新型工业化
C 制造业
D 互联网经济
9.2016年,我省围绕降低生产要素、制度交易等成本出台(B)条政策措施,帮助实体企业降低成本超过830亿元。
A 40
B 50
C 60
D 70 10.“三山一滩”地区是河南省脱贫攻坚的重点地区,据统计,河南70%的贫困人口都集中于此。下列不属于“三山一滩”地区的是哪一项?(B)
A 大别山
B 王屋山
C 太行山
D 黄河滩区 11.下面哪些关于密涅瓦大学的描述是错误的(C)
A.O20模式的新型大学
B 小众化
C 没有大学资质的在线教育平台,但学生毕业可获课程证书和学位证书
D 针对每位学生实行个性化课程规划
13.今后五年,河南发展的主要目标之一是要实现“三大提升”。下列不属于“三大提升”内容的是(D)。
A 人民群众获得感幸福感显著提升
B 治理体系和治理能力现代化水平显著提升
C 管党治党水平显著提升
D 经济发展水平显著提升 14.未来五年,河南将进一步增强根亲文化、古都文化、(D)、功夫文化等中原文化的影响力,努力将郑州、开封、洛阳、安阳、焦作等打造成为国际文化旅游名城,叫响“老家河南”品牌,推动中原文化走向世界。
A 慈善文化
B 象棋文化
C 诗歌文化
D 汉字文化 15.2016年,新编豫剧(D)荣获中国艺术节文华大奖。
A 《任长霞》
B 《李天成》
C 《史来贺》
D 4《焦裕禄》 16.2017年,我省要确保空气优良天数(B)天以上。
A 180
B 200
C 220
D 240 17.2017年,省政府将推动建设(A)个重大项目,力争全年完成投资1.8万亿元。
A 8000
B 7500
C 7000
D 6500 18.2017年,我省将大力支持省内高校争创国家“(A)”,继续推进优势特色学科建设。
A 双一流
B 985
C 211
D 双名牌
19.我省已吸引到美国的哪所大学与中科院大学来郑州合作办学(B)
A 哈弗大学
B 加州大学
C 宾夕法尼亚大学
D 耶鲁大学 20.(D)已被确定为我省的“大数据谷”
A 高新开发区
B 郑东新区
C 郑州大学
D 龙子湖高校园区
21.2017年,我省要确保(A)贫困人口实现稳定脱贫。
A 100万
B 90万
C 80万
D 70万 22.以下不是阐述教育工作者的职业道德规范的是(C)
A 教育工作者应热爱教育事业,忠诚于教育事业
B 爱护学生,诲人不倦
C 体罚学生
D 言传身教,为人师表 23.(C)是经济社会发展的主导力量
A 新型城镇化
B 新型农业化
C 新型工业化
D 制造业智能化 24.谢伏瞻书记在省十次党代会报告中说,未来五年,河南要实现决胜全面小康,让中原更加出彩的目标,必须打好“四张牌”。下面哪一项不属于这“四张牌”之列。(C)
A 产业结构优化升级
B 创新驱动发展
C 脱贫攻坚战
D 新型城镇化 25.(C)是经济社会发展的主导力量
A 新型城镇化
B 新型农业化 C 新型工业化
D 制造业智能化
三、多选题
三、多选题
1.2017年,我省经济社会发展主要预期目标之一是保持“三个同步”,其指的是(BCD)。
A.医疗卫生水平与基础教育水平同步提高
B。城乡居民收入与地区生产总值同步增长
C.生态环境质量与经济质量效益同步改善
D。社会事业进步与经济发展水平同步提高 2.推进河南发展的“三区”是指(ABD)
A 产业集聚区
B 中心商务区
C 郑东新区
D 特色商业区 3.以下属于河南旅游业的是(ABD)
A 云台山
B 少林寺
C 武当山
D 龙门石窟
4.2017年,我省将着力打好(ACD)发展转型“四大攻坚战”。
A 农村脱贫
B 结构调整
C 环境治理
D 国企改革
5.我国已经具备了建设创新型国家的条件和基础,表现在(ACD)。
A 综合国力
B 广阔市场
C 科技基础
D 文化氛围 6.国家创新体系建立在(CD)之上。
A 局部论
B 利益观
C 整体论
D 系统观
7.以下属于总书记要求河南要努力实现的“三个转变”的是:(BD)
A 河南产品向河南信用
B 河南制造向河南创造
C 河南产量向河南品牌
D 河南速度向河南质量 8.以下哪些属于经济发展新常态阶段下的消费特征:(AC)
A 多元化
B 单一化
C 高端化
D 统一化 9.未来五年,河南要打造的“三个高地”主要是指:(ABC)
A 奋力建设中西部地区科技创新高地
B 基本形成内陆开放高地
C 加快构筑全国重要的文化高地
D 重点打造全国重要的粮食生产高地 9, “四众双创”中的“四众”包括:(BD)
A 众筹、众挖
B 众筹众包
C 众挖众扶
D 众扶众创 10.以下属于河南品牌的是(ABCD)
A 三全
B 宇通
C 思念
D 双汇
11.2016年,我省把稳增长作为突出任务,抓住(ABC)等关键环节,促进经济运行稳中向好。
A扩需求
B稳工业
C防风险
D调结构
12.2016年,我省(CD)入选首批国家级专业化众创空间。
A 宇通重工
B 黄河旋风
C 中信重工
D 汉威电子
12.2016年,为深入实施创新驱动发展战略,我省创新人才发展体制,柔性引进“(ABCD)”人才,高层次人才加速集聚。
A 高
B 精
C 尖
D 缺
13.中原人文精神“五大工程”是我省推动文艺繁荣发展的总要求和总抓手,所谓中原人文精神“五大工程”,指的是(ABCDE)。
A 中原文艺精品创作工程
B 中原文艺精品普及工程
C 中原优秀传统文化传承工程
D 中原文艺名家推介工程
E 中原特色文化基地建设工程
14.国内经济“三期叠加”指的是(ABC)。
A增长速度换档期
B结构调整阵痛期
C前期刺激政策消化期
D后期调整维护期
15.兰考“六步工作法”是指由兰考县探索并在全省推广的整顿软弱涣散基层党组织的工作方法。下列属于兰考“六步工作法”内容的选项是(ABCDEF)。
A 选派整建队伍
B 吃透村(社区)实情
C 联合“会诊”定案
D 开展集中整顿
E 评估验收问责
F 建立持续机制 16.水资源管理“三条红线”指的是(ABC)。
A 水资源开发利用控制红线
B 用水效率控制红线
C 水功能区限制纳污红线
D 节水意识普及红线
17.以下哪些是托夫勒在《未来的冲击》中所预言的未来教育特征(ABCD)
A 小班化
B 多师同堂
C 在线和多媒体教育
D 致力于培养学生适应临时组织能力和通用技能
18.“三去一降一补”中的“三去”指的是(ABD)。
A 去产能
B 去库存
C 去计划
D 去杠杆
19.目前,中国(河南)自由贸易试验区已经规划了(ACD)三个片区。
A 郑州
B 新乡
C 开封
D 洛阳
20.未来五年,我省加快产业结构战略性调整的发力方向的是(ABC)。
A 河南制造向河南创造的转变
B 河南速度向河南质量的转变
C 河南产品向河南品牌的转变
D 河南工业向河南产业的转变 21.国家创新体系建立在(CD)之上。
A 局部论
B 利益观
C 整体论
D 系统观 22.河南省第十次党代会的议程主要有哪几项?(ABCD)
A 听取和审议中国共产党河南省第九届委员会报告
B 审议中国共产党河南省第九届纪律检查委员会工作报告
C 选举产生中国共产党河南省第十届委员会
D 选举产生中国共产党河南省第十届纪律检查委员会
23.我国已经具备了建设创新型国家的条件和基础,表现在(ACD)。
A 综合国力
B 广阔市场
C 科技基础
D 文化氛围
24.2016年,我省统筹推进了(BCD)改革,为推进供给侧结构性改革消除障碍。
A 结构性
B 体制性
C 制度性
D 政策性 25.我国有三大产业分别是:(ABC)
A 农业
B 工业
C 服务业
D 制造业
26.为重拳治理大气污染,我省提出了坚持(ABD)的基本方略。
A 依法治污
B 科学治污
C 社会治污
D 全民治污
27.“四区三带”区域生态网络是河南推进生态省建设,实施的山水林田湖生态保护与修复工程。下列属于“四区”范围的是(BCD)。
A 嵩山生态区
B 伏牛山地生态区
C 太行山地生态区
D平原生态涵养区 28.产业转型升级包括:(BCD)
A 新型农业化
B 农业现代化
C 网络经济发展
D 服务业现代化 29.以下属于我省省情的是(ACD)
A 人口多
B 贸易发达
C 发展不平衡
D 基础弱
第三篇:数据挖掘试题
《数据挖掘》总复习题
1.数据挖掘系统可以根据什么标准进行分类?
答:根据挖掘的数据库类型分类、根据挖掘的知识类型分类、根据挖掘所用的技术分类、根据应用分类
2.知识发现过程包括哪些步骤?
答:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示3.什么是概念分层?
答:一个映射序列,将低层概念映射到更一般的较高层概念。4.多维数据模型上的 OLAP 操作包括哪些?
答:上卷、下钻、切片和切块、转轴 / 旋转、其他OLAP操作5.OLAP 服务器类型有哪几种?
答:关系 OLAP 服务器(ROLAP)、多维 OLAP 服务器(MOLAP)、混合 OLAP 服务器(HOLAP)、特殊的 SQL 服务器6.数据预处理技术包括哪些?
答:聚集、抽样、维规约、特征子集选择、特征创建、离散化和二元化、变量变换。7. 什么是数据清理?
答:填写缺失的值,平滑噪声数据,识别、删除离群点,解决不一致性 8. 什么是数据集成?
答:集成多个数据库、数据立方体或文件 9.什么是数据归约?
答:得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果 10.数据清理的内容包括哪些?
答:缺失值、噪声数据、数据平滑、聚类、回归11.将下列缩略语复原
OLAP——on-line analytical processing DM——data mining
KDD——knowledge discovery in databases OLTP——on-line transaction processingDBMS——database management system DWT——discrete wavelet transform
(DMQL)--Data Mining Query Language 12.什么是数据挖掘?
答:简单地说,数据挖掘是从大量数据中提取或挖掘知识。具体地说,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际 应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和 知识的过程。13.什么是关联规则? 答:(关联规则是形如X→Y的蕴涵式,其中且,X和Y分别称为关联规则的先导和后继。)假设I是项的集合。给定一个交易数据库,其中每个事务(Transaction)t是I的非空子集,即,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比,即概率;置信度(confidence)是包含X的事务中同时又包含Y的百分比,即条件概率。关联规则是有趣的,如果满足最小支持度阈值和最小置信度阈值。这些阈值是根据挖掘需要人为设定。
(关联规则反映一个事物与其它事物之间的相互依存性和关联性,如果两个事物或者多个事物之间存在一定的关联关系,那么其中一个事物就能够通过其他事物预测到。)15.什么是概念描述?什么是特征化?什么是属性相关分析?
答:概念描述:用汇总的、简洁的和精确的方式描述各个类和概念可能是有用的。特征化:是目标类数据的一般特性或特征的汇总。
属性相关分析:可能需要在分类和预测之前进行,它试图识别对于分类或预测过程无用的属性。这些属性应当排除。
16.什么是数据仓库?其主要特征是什么?
答:数据仓库是一个提供决策支持功能的数据库,它与组织机构的操作数据库分别维护。它允许将各种应用系统集成在一起,为统一的历史数据分析提供坚实的平台,对信息处理提供支持。
特征:面向主题、数据集成、随时间而变化、数据不易丢失(数据不易丢失是最明显特征)17.什么是数据集市?
答:数据集市包含企业范围数据的一个子集,对于特定的用户群是有用的。其范围限于选定的主题。
(是完整的数据仓库的一个逻辑子集,而数据仓库正是由所有的数据集市有机组合而成的)18.数据库中的知识发现过程由哪几个步骤组成?
答:数据清理、数据仓库、任务相关数据、数据挖掘、模式评估、知识表示 19.典型的数据挖掘系统有哪几个主要成分?
答:数据库、数据仓库、万维网或其他信息库;数据库或数据仓库服务器;知识库;数据挖掘引擎;模式评估模块;用户界面
20.从软件工程的观点来看,数据仓库的设计和构造包含哪些步骤?
答:规划、需求研究、问题分析、仓库设计、数据集成和测试、部署数据仓库。21.在数据挖掘系统中,为什么数据清理十分重要?
答: 脏数据的普遍存在,使得在大型数据库中维护数据的正确性和一致性成为一个极其困难的任务。
22.脏数据形成的原因有哪些?
答:滥用缩写词、数据输入错误、数据中的内嵌控制信息、不同的的惯用语、重复记录、丢失值、拼写变化、不同的计量单位、过时的编码23.数据清理时,对空缺值有哪些处理方法?
答:忽略元组、人工填写缺失值、使用一个全局变量填充缺失值、使用属性的平均值填充缺失值、使用与给定元组属同一类的所有样本的属性均值、使用最可能的值填充缺失值 24.什么是数据变换?包括哪些内容?
答:将数据转换或统一成适合于挖掘的形式。包括:光滑、聚集、数据泛化、规范化、属性构造 25. 数据归约的策略包括哪些?
答:数据立方体聚集、性子集选择、维度归约、数值归约、离散化和概念分层产生 26.提高数据挖掘算法效率有哪几种思路?
答:减少对数据的扫描次数;缩小产生的候选项集;改进对候选项集的支持度计算方法 27.假定属性income的最小值与最大值分别为12000和980到区间[0.0,1.0],根据 min-max 规范化,income的值73600将变为_3631/551_。
28.假定属性income的平均值和标准差分别为54000和16000,使用 Z-score 规范化,值73600被转换为_1.225_。
29.假定A的值由-986到917.A的最大绝对值为986,使用小数定标规范化,-986被规范化为_-0.986_
30.从结构角度来看,有哪三种数据仓库模型。答:企业仓库、数据集市、虚拟仓库
31.什么是聚类分析?它与分类有什么区别?
答:将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程 区别:分类有监督 聚类无监督 分类要靠学习聚类要靠启发式搜索 32.与数据挖掘类似的术语有哪些?
答:数据库中挖掘知识、知识提取、数据/模式分析、数据考古和数据捕捞。33.解释下列术语 34.翻译下列术语
Data Mining 数据挖掘Data warehousing 数据仓库Data Mart 数据集市
drill-down 下钻roll-up上卷OLAP 联机分析处理Data cube 数据立方体 Association rule 关联规则Data cleaning数据清理Data integration 数据集成 Data transformation数据变换Data reduction 数据归约
35.可以对按季度汇总的销售数据进行___B___,来观察按月汇总的数据。A 上卷 B 下钻 C 切片 D 切块
36.可以对按城市汇总的销售数据进行____A__,来观察按国家总的数据。A 上卷 B 下钻 C 切片 D 切块
37.通过不太详细的数据得到更详细的数据,称为____B____。A 上卷 B 下钻 C 细化 D 维规约
38.三层数据仓库结构中,从底层到尾层分别是_仓库数据服务器、OLAP服务器、前端客户层__。
42.常用的四种兴趣度的客观度量。
答:简单性 确定性 实用性 新颖性43.四种常用的概念分层类型。
答:模式分层、集合分组分层、操作导出的分层、基于规则的分层45.如何理解现实世界的数据是“肮脏的”?答:不完整的、含噪声的、不一致的、重复的 46.多维数据仓库有哪几种概念模型?
答:星形模式、雪花形模式或事实星座形模式。
48.在多路数组聚集算法中,如何尽量少地占用内存?
答:将最小的平面放在内存中,将最大的平面每次只是提取并计算一块。49.给出方体的维数,会计算各D方体有多少,总的方体个数有多少?2^n50.什么是离群点?离群点都需要删除吗?为什么?
答:离群点:一些与数据的一般行为或模型不一致的孤立数据。不需要。通常离群点被作为“噪音”或异常被丢弃,但在欺诈检测中却可以通过对罕见事件进行离群点分析而得到结论。
【51.所有模式都是有趣的吗?
答:一个模式是有趣的,如果(1)它易于被人理解 ;(2)在某种程度上,对于新的或测试数据是有效的;(3)具有潜在效用;(4)新颖的;(5)符合用户确信的某种假设。】
第四篇:2017年大数据试题及答案
1.促进大数据发展部级联席会议在哪一年的4月13日召开了第一次会议?C(单选题1分)分:1分
得o A.2013年 o B.2014年 o C.2016年 o D.2015年
2.活字印刷术是由()发明的。(单选题1分)D
得分:1分
o A.商鞅 o B.鲁班 o C.蔡伦 o D.毕昇
3.阿兰·图灵在哪一年提出图灵测试的概念?C(单选题1分)
得分:1分
o A.1952年 o B.1954年 o C.1950年 o D.1955年
4.吴军博士认为未来二十年就是()为王的时代。C(单选题1分)
得分:1分
o A.文化 o B.工业 o C.数据 o D.农业
5.2009年,甲型H1N1流感在全球爆发,谷歌(5000万条历史记录,做了4.5亿个不同的数学模型)测算出的数据与官方最后的数据相关性非常接近,达到了()。(单选题1分)B1分
得分:o A.77% o B.97% o C.67% o D.87% 6.以下说法错误的是哪项?D(单选题1分)
得分:1分
o A.大数据是一种思维方式 o B.大数据不仅仅是讲数据的体量大 o C.大数据会带来机器智能
o D.大数据的英文名称是large data 7.2008年以后,第()信息传输技术:传输2亿路信号。(单选题1分)
得分:0分
o A.三代 o B.一代 o C.二代 o D.四代
8.2011年,()发布《大数据:创新、竞争和生产力的下一个新领域》报告,大数据开始备受关注。C(单选题1分)
得分:1分
o A.微软公司 o B.百度公司 o C.麦肯锡公司 o D.阿里巴巴公司
9.国务院办公厅是在哪一年印发的《关于促进和规范健康医疗大数据应用发展的指导意见》?D(单选题1分)
得分:1分
o A.2014年 o B.2015年 o C.2013年 o D.2016年
10.根据周琦老师所讲,以下哪项不属于数据挖掘的内容?C(单选题1分)
得分:1分
o A.建立道路拥堵概率与拥堵趋势变化模型 o B.多维分析统计用户出行规律 o C.高德地图导航有躲避拥堵功能 o D.补充与完善路网属性
11.“()阿里巴巴·贵州年货节”销售额突破8.5亿元,促进了贵州电子商务加快发展。D(单选题1分)得分:1分
o A.2013 o B.2014 o C.2015 o D.2016 12.梅特卡尔夫定律主要是描述信息网络,指出网络的价值在于网络的互联,联网的接点数与其价值呈现()的方式,联网越多,系统的价值越大。B(单选题1分)
得分:1分
o A.对数 o B.指数 o C.正比 o D.反比
13.在保护个人隐私方面,吴军博士并没有提到以下哪种方法?C(单选题1分)
得分:1分
o A.法律的方法 o B.技术的方法 o C.文化的方法 o D.双向监督的方法
14.根据周琦老师所讲,高德交通报告针对全国()个城市交通状态进行挖掘分析。(单选题1分)D得分:1分 o A.21 o B.30 o C.25 o D.38 15.世界上第一台电子计算机(ENIAC)是在哪一年宣告诞生的?A(单选题1分)
得分:1分
o A.1946年 o B.1947年 o C.1948年 o D.1949年
16.2012年全国各城市支付宝人均支出排名中,位居第一位的是()C(单选题1分)分
得分:1o A.嘉兴市 o B.杭州市 o C.嘉义市 o D.高雄市
17.国务院在哪一年印发了《促进大数据发展行动纲要》?A(单选题1分)
得分:1分
o A.2015年 o B.2014年 o C.2016年 o D.2013年
18.()年,部分计算机专家首次提出大数据概念。D(单选题1分)
得分:1分
o A.2010 o B.2011 o C.2005 o D.2008 19.根据周琦老师所讲,高德交通信息服务覆盖全国主干道路及其它()以上。D(单选题1分)得分:1分
o A.90% o B.70% o C.30% o D.50% 20.大数据元年是指()。C(单选题1分)
得分:1分
o A.2012年 o B.2011年 o C.2013年 o D.2010年
21.农业部发布的《关于推进农业农村大数据发展的实施意见》提出,到2020年底前,实现农业农村历史资料的数据化、()。ACD(多选题3分)
得分:3分 o A.数据采集的自动化 o B.数据分发的定期化 o C.数据使用的智能化 o D.数据共享的便捷化
22.从传播学角度解释,新兴的网络平台提供了非常大的开放空间,让人们更加有可能享有对信息的()等。ABCD(多选题3分)
得分:3分
o A.表达权 o B.参与权 o C.监督权 o D.知情权
23.运用大数据进行大治理要做到()。ABCD(多选题3分)
得分:3分
o A.用数据决策 o B.用数据管理 o C.用数据说话 o D.用数据创新
24.云计算使得使用信息的存储是一个()的方式,它会大大地节约网络的成本,使得网络将来越来越泛在、越来越普及,成本越来越低。BC(多选题3分)
得分:3分
o A.密集式 o B.分布式 o C.共享式 o D.密闭式
25.《中共中央关于全面深化改革若干重大问题的决定》提出,要推进国家()和()现代化。BD(多选题3分)
得分:3分
o A.治理文化 o B.治理能力 o C.治理制度 o D.治理体系
26.大数据系统体系建设规划包括以下哪些内容?ABCD(多选题3分)
得分:3分
o A.采数据 o B.搭平台 o C.编代码 o D.建模型
27.大数据的主要特征表现为()。ABCD(多选题3分)
得分:3分
o A.数据类型多 o B.处理速度快 o C.数据容量大 o D.商业价值高 28.国务院《关于印发促进大数据发展行动纲要的通知》指出:要建立()的新的管理机制。ABCD(多选题3分)
得分:3分
o A.用数据管理 o B.用数据创新 o C.用数据决策 o D.用数据说话
29.大数据时代的五个无处不在,具体指的是()、服务无处不在。ABCD(多选题3分)3分
得分:o A.大数据无处不在 o B.软件无处不在 o C.网络无处不在 o D.计算无处不在
30.大数据的核心是洞察,洞察有以下哪些特色?ABCD(多选题3分)
得分:3分
o A.洞察工作重点 o B.洞察调度奥妙 o C.洞察管理规律 o D.洞察未来趋势
31.建立大数据需要设计一个什么样的大型系统?ABCD(多选题3分)
得分:3分
o A.能够把应用放到合适的平台上 o B.能够开发出相应应用 o C.能够存储数据 o D.能够处理数据
32.大数据的来源包括()。ABCD(多选题3分)
得分:3分
o A.互联网数据 o B.实时数据 o C.探测数据 o D.传感器数据
33.贵州发展大数据带动的衍生业态包括()。ABCD(多选题3分)
得分:3分
o A.智慧教育 o B.创客小镇 o C.智慧旅游 o D.智慧健康
34.根据涂子沛先生所讲,以下说法正确的有哪些?ABCD(多选题3分)
得分:3分
o A.数据垃圾对商业公司是一个挑战 o B.个人要把数据当做自己的遗产 o C.中国社会迟早要面临数据遗产问题
o D.国家要制定合适的法律来规范数据遗产继承的问题 35.下列哪些国家已经将大数据上升为国家战略?ABCD(多选题3分)得分:3分
o A.日本 o B.英国 o C.美国 o D.法国
36.美国大的猎头公司储备人才考虑的因素包括()。ABCD(多选题3分)
得分:3分
o A.智商 o B.经历 o C.情商 o D.价值观
37.信息社会经历的发展阶段包括()。BCD(多选题3分)
得分:3分
o A.云计算时代 o B.大数据时代 o C.计算机时代 o D.互联网时代
38.根据周琦老师所讲,以下哪些属于数据挖掘的内容?ABC(多选题3分)
得分:3分
o A.补充与完善路网属性
o B.建立道路拥堵概率与拥堵趋势变化模型 o C.多维分析统计用户出行规律 o D.高德地图导航有躲避拥堵功能
39.全球信息化发展六大趋势包括()。ABCD(多选题3分)
得分:3分
o A.全球制造业互联网化进程加速 o B.全球信息化发展向智慧化阶段迈进 o C.信息技术对促进创新的作用日益凸显 o D.全球进入移动互联网全面爆发时期
40.发展现代农业,要发展高产、优质、高效、生态安全农业,可以利用信息技术进行精准控制,实现农业的()和规模化运行。ABCD(多选题3分)
得分:3分
o A.集约化经营 o B.自动化控制 o C.智能化管理 o D.标准化生产
41.“大数据”一词,最早出现于20世纪90年代,当时的数据仓库之父比尔·恩门经常提及Big Data。对(判断题1分)
得分:1分
得 42.传统的“统治”或“管理”观念认为,公共事务的管理权只属于政府对(判断题1分)分:1分
o 43.韩国政府利用位置信息和通话记录数据,规划出合理的公交线路,提升了政府科学决策和公共服务水平,提高了公众满意度。对(判断题1分)
得分:1分
44.根据周琦老师所讲,将大数据智能化融入高德地图,能够提供更精准的到达时间预测和实时躲避拥堵功能。对(判断题1分)
得分:1分
45.目前,全社会已经形成高度重视应用信息化的良好氛围。对(判断题1分)得分:1分
46.2015年,贵州全省大数据服务器规模为100余万台,规划建设服务器规模1000万台。错(判断题1分)得分:1分
o
47.宁家骏委员指出,我国发展医疗服务业,同时发展智慧养老。对(判断题1分)分
得分:1 48.依据黑龙江大农场的应用,精准农业技术能够将总成本降低15%-20%。对(判断题1分)分:1分
得 49.宁家骏委员指出,20世纪下半个世纪直至现在,是信息技术时代。对(判断题1分)1分
得分: 50.统筹城乡发展,就是要求公共财政向农村倾斜、公共服务向农村覆盖、公共设施向农村延伸。对(判断题1分)
得分:1分
51.我国农业信息化基础条件坚实,表现为“农业信息化发展已具备基础”、“技术条件日益成熟”。对(判断题1分)
得分:1分
52.宁家骏委员指出,大数据要与“互联网+”医疗健康紧密结合起来,国家明确支持“互联网+”医疗、“互联网+”健康。对(判断题1分)
得分:1分
53.“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。对(判断题1分)
得分:1分
54.政府2.0、政府3.0,与政府以后的治理改革和服务型政府建设的目标是完全不一致的。错(判断题1分)得分:1分
55.大数据能帮助教师改进教学。利用大数据方法,教师通过学生反馈回来的作业,就可以发现到底是哪些学生并没有真正听懂,进而有针对性地加以辅导。对(判断题1分)
得分:1分
得分: 56.治理理论认为,现代社会的发展必然要求公共服务多元化的供给。对(判断题1分)1分
57.总书记指出,网信事业代表着新的生产力、新的发展方向,应该也能够在践行新发展理念上先行一步。对(判断题1分)
得分:1分 58.1982以来,内存的价格下降了4.5万倍,硬盘的价格下降了360万倍。对(判断题1分)得分:1分
59.根据涂子沛先生所讲,因为数据的内涵发生了改变,计算的内涵也发生了改变。对(判断题1分)得分:1分
得分:1分 60.大数据的思维会把原来销售的概念变成服务的概念。对(判断题1分)
贵州省 2017 年公需科目大数据培训考试参考答案——100 分
1.以下选项中,不属于信息时代的定律的是()。(单选题 1 分)A.吉尔德定律 B.摩尔定律 C.麦特卡尔夫定律 得分:1 分
■D.达律多定律
2.根据周琦老师所讲,高德交通信息服务覆盖全国高速()以上。(单选题 1 分)分 A.60% 得分:1
<=“" p=”“ style=”margin: 0px;"> />■B.90% C.70% D.50% 3.根据周琦老师所讲,以下哪项不属于数据挖掘的内容?(单选题 1 分)A.补充与完善路网属性 B.多维分析统计用户出行规律 得分:1 分
■C.高德地图导航有躲避拥堵功能
D.建立道路拥堵概率与拥堵趋势变化模型 4.2012 年全国各城市支付宝人均支出排名中,位居第二位的是()(单选题 1 分)分 得分:1
■A.杭州市 B.嘉兴市 C.高雄市
D.嘉义市 5.第一个提出大数据概念的公司是()。(单选题 1 分)A.微软公司 B.谷歌公司 C.脸谱公司 得分:1 分
■D.麦肯锡公司
6.“()阿里巴巴·贵州年货节”销售额突破 8.5 亿元,促进了贵州电子商务加快发展。(单选 题 1 分)A.2015 得分:1 分
■B.2016 C.2013 D.2014 7.关于大数据在社会综合治理中的作用,以下理解不正确的是()。(单选题 1 分)1分 A.大数据的运用能够维护社会治安 B.大数据的运用能够加强交通管理 得分:
■C.大数据的运用能够杜绝抗生素的滥用
D.大数据的运用有利于走群众路线 8.根据周琦老师所讲,大数据加速道路网络快速更新,高德()完成全国 10 万公里 15 万处更 新。(单选题 1 分)A.2006 年 得分:1 分 ■B.2014 年
C.2008 年 D.2010 年 9.第一个提出大数据概念的公司是(单选题 1 分)A.谷歌公司 B.微软公司 C.脸谱公司 得分:1 分
■D.麦肯锡公司
10.以下选项中,不属于大数据对人才能力的要求是(单选题 1 分)A.业务能力 B.数学统计能力 C.IT 技术能力 得分:1 分
■D.逻辑思维能力
11.根据周琦老师所讲,高德交通报告针对全国()个城市交通状态进行挖掘分析。(单选题 1 分)A.30 B.21 C.25 得分:1 分
■D.38 12.以下选项中,不属于大数据对人才能力的要求是()。(单选题 1 分)A.业务能力 B.数学统计能力 得分:1 分
■C.逻辑思维能力
D.IT 技术能力 13.Web2.0 强调()。(单选题 1 分)A.机构 B.单位 得分:1 分
■C.个人
D.网站 14.根据周琦老师所讲,高德交通日均采集数十亿定位请求,系统处理月均()公里驾驶里程覆 盖。(单选题 1 分)得分:1 分
■A.100 亿
B.150 亿 C.50 亿 D.80 亿 15.大数据正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的()。(单选题 1 分)A.新一代技术平台 得分:1 分
■B.新一代信息技术和服务业态
C.新一代服务业态 D.新一代信息技术 16.医疗健康数据的基本情况不包括以下哪项?(单选题 1 分)A.诊疗数据 B.个人健康管理数据 得分:1 分
■C.公共安全数据
D.健康档案数据 17.“最为成功的商业运作模式是价格最低的资源将会被尽可能的消耗,以此来保存最昂贵的资 源”,这是下列哪个定律的内涵?(单选题 1 分)A.牛顿定律 B.麦特卡尔夫定律 C.摩尔定律 得分:1 分
■D.吉尔德定律
18.根据周琦老师所讲,高德交通信息服务覆盖全国主干道路及其它()以上。(单选题 1 分)得分:1 分 A.70% ■B.50% C.90% D.30% 19.大数据的本质是()。(单选题 1 分)A.挖掘 B.联系 C.搜集 得分:1 分
■D.洞察
20.由于有了现代信息技术的支撑,研制一个新型号的航天器,周期缩减到()以内。(单选题 1 分)得分:1 分
■A.18 个月 B.12 个月
C.24 个月 D.6 个月 21.大数据作为一种数据集合,它的含义包括()。(多选题 3 分)得分:3 分
■A.数据很大 B.很有价值
■C.构成复杂 ■D.变化很快
22.大数据处理流程可以概括为以下哪几步?(多选题 3 分)得分:3 分
■A.挖掘 ■B.采集 ■C.统计和分析 ■D.导入和预处理
23.宁家骏委员指出,()主导了 21 世纪。(多选题 3 分)得分:3 分
■A.云计算 B.移动支付
■C.大数据 ■D.物联网
24.大数据的主要特征表现为()。(多选题 3 分)得分:3 分
■A.数据容量大 ■B.商业价值高 ■C.处理速度快 ■D.数据类型多
25.大数据作为一种数据集合,当我们使用这个概念的时候,实际包含有哪几层含义?(多选题 3 分)得分:3 分
■A.数据很大 ■B.构成复杂 ■C.变化很快 ■D.蕴含大价值
26.贵州发展大数据的顶层设计是要逐步建成三个中心,即()。(多选题 3 分)分 A.大数据人才中心 得分:3
■B.大数据金融中心 ■C.大数据内容中心 ■D.大数据服务中心 27.云计算的特点包括以下哪些方面?(多选题 3 分)得分:3 分
■A.服务可计算 ■B.高性价比 ■C.服务可租用
D.低使用度 28.下列选项中,属于贵州发展大数据的先天优势的是()。(多选题 3 分)得分:3 分
■A.空气清新 ■B.远离地震带 ■C.气候凉爽 ■D.电力资源充沛 29.下列各项表述中正确的有哪些?(多选题 3 分)
得分:3 分
A.我国中央网络安全和信息化领导小组宣告成立是在 2013 年。
■B.中央网络安全和信息化领导小组组长是习近平。■C.我国中央网络安全和信息化领导小组宣告成立是在 2014 年。
D.中央网络安全和信息化领导小组组长是李克强。30.“十二五”以来我国信息化发展的亮点包括以下哪些方面?(多选题 3 分)得分:3 分
■A.信息产业的支撑性、保障性、带动性作用进一步增强 ■B.信息基础设施建设取得长足进步,为信息化全面深化发展提供了有力保障 ■C.电子商务异军突起,互联网经济发展速度超出预期 ■D.两化融合成为当前我国工业创新驱动、转型升级的时代特征
31.贵州发展大数据的“八个一”建议包括()。(多选题 3 分)得分:3 分
■A.制定一个工作计划、建立一个领导机构 ■B.培养一批干部、出台一批政策 ■C.引入一批人才、聚集一批创客 ■D.谋划一批产业、引进一批项目
32.云计算使得使用信息的存储是一个()的方式,它会大大地节约网络的成本,使得网络将来 越来越泛在、越来越普及,成本越来越低。(多选题 3 分)得分:3 分
■A.分布式 B.密闭式 C.密集式
■D.共享式
33.郭永田副主任指出,物联网在大田作物生产中的应用体现在以下哪些方面?(多选题 3 分)得分:3 分
■A.农作物病虫害监测 ■B.农业精准生产控制 ■C.农田环境监测 ■D.农作物长势苗情监测 34.医疗领域如何利用大数据?(多选题 3 分)得分:3 分
■A.临床决策支持 ■B.个性化医疗 ■C.社保资金安全 ■D.用户行为分析
35.2012 年“中央 1 号文件”提出,要全面推进农业农村信息化,着力提高()的信息服务水平。(多选题 3 分)得分:3 分
■A.农业生产经营 ■B.质量安全控制 C.文化交流
■D.市场流通
36.20 世纪中后期至今的媒介革命,以()的出现为标志。(多选题 3 分)得分:3 分
■A.互联网 B.自动化 ■C.计算机 ■D.数字化
37.大数据的应用能够实现一场新的革命,提高综合管理水平的原因是(多选题 3 分)3分
得分:
■A.从柜台式管理走向全天候管理 ■B.从粗放化管理走向精细化管理 ■C.从被动反应走向主动预见型管理 ■D.从单兵作战走向联合共享型管理
38.建立大数据需要设计一个什么样的大型系统?(多选题 3 分)得分:3 分
■A.能够把应用放到合适的平台上 ■B.能够开发出相应应用 ■C.能够处理数据 ■D.能够存储数据 39.大数据的应用能够实现一场新的革命,提高综合管理水平的原因是()。(多选题 3 分)得分:3 分
■A.从被动反应走向主动预见型管理 ■B.从粗放化管理走向精细化管理 ■C.从单兵作战走向联合共享型管理 ■D.从柜台式管理走向全天候管理
40.下列哪些国家已经将大数据上升为国家战略?(多选题 3 分)得分:3 分
■A.英国 ■B.日本 ■C.美国 ■D.法国
41.宁家骏委员指出,20 世纪下半个世纪直至现在,是信息技术时代。(判断题 1 分)1分
得分:
■正确
错误 42.2010 年“中央 1 号文件”指出:要推进农村信息化。(判断题 1 分)得分:1 分
■正确
错误 43.大数据仅仅是指数据的体量大。(判断题 1 分)正确 得分:1 分
■错误
44.2015 年,阿里平台完成农产品销售达到 6000 多亿元。(判断题 1 分)正确 得分:1 分
■错误
45.2012 年,我国农村居民家庭每百户拥有移动电话 197.8 部。(判断题 1 分)分 得分:1 ■正确
错误 46.当今世界四大趋势指的是经济全球化、全球城市化、全球信息化、信息智慧化。(判断题 1 分)得分:1 分
■正确
错误 47.根据涂子沛先生所讲,数据就是简单的数字。(判断题 1 分)得分:1 分
正确 ■错误
48.林雅华博士指出,网络时代的国家治理必须要借鉴互联网多元向度、扁平化、相互竞合的方 式进行。(判断题 1 分)得分:1 分
■正确
错误 49.2000 年,全国涉农网站超过 6000 家。(判断题 1 分)正确 得分:1 分
■错误
50.根据涂子沛先生所讲,现在非结构化数据已经占人类数据总量的 25%。(判断题 1 分)得分:1 分 正确
■错误
51.根据周琦老师所讲,进入了阿里巴巴集团之后,高德对大数据的处理和基础架构的能力得到 了提升。(判断题 1 分)得分:1 分
■正确
错误 52.依据黑龙江大农场的应用,精准农业技术能够将产量提高 5%-10%。(判断题 1 分)分:1 分 正确 得
■错误
53.总书记指出,网信事业代表着新的生产力、新的发展方向,应该也能够在践行新发展 理念上先行一步。(判断题 1 分)得分:1 分
■正确
错误 54.根据周琦老师所讲,高德交通报告针对全国 38 个城市交通状态进行挖掘分析。(判断题 1 分)得分:1 分
■正确
错误 55.宁家骏委员指出,我国民生领域信息化服务水平显著提升。(判断题 1 分)得分:1 分
■正确
错误 56.我们既要通过政府主导,又要发挥社会的力量,来共同推进医疗大数据的应用。(判断题 1 分)得分:1 分
■正确
错误 57.2016 年 9 月,国务院印发《促进大数据发展行动纲要》,10 月,十八届六中全会将大数 据上升为国家战略。(判断题 1 分)正确 得分:1 分
■错误
58.大数据的思维会把原来销售的概念变成服务的概念。(判断题 1 分)得分:1 分
■正确 错误
59.云计算就是软件在云端无所不在、无限强大的计算,也叫网络化计算或网格计算。(判断题 1 分)得分:1 分
■正确
错误 60.根据周琦老师所讲,高德地图使用大数据能进行小路的识别。(判断题 1 分)分 得分:1 ■正确 错误
第五篇:数据仓库与数据挖掘期末试题
广西财经学院2007——2008学年2005级《数据仓库与数据挖掘》卷
2、请列举您使用过的各种数据仓库工具软件(包括建模工具,ETL工具,前端展现工具,OLAP Server、数据库、数据挖掘工具)和熟悉程度。
ETL工具:Ascential DataStage,IBM warehouse MANAGER、Informatica公司的PowerCenter、Cognos 公司的DecisionStream
市场上的主流数据仓库存储层软件有:SQL SERVER、SYBASE、ORACLE、DB2、TERADATA 但是使用过的只有SQL SERVER和数据挖掘工具Analysis Services,而且不大熟悉。
3、请谈一下你对元数据管理在数据仓库中的运用的理解。
元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。具体来说,在数据仓库系统中,元数据机制主要支持以下五类系统管理功能:(1)描述哪些数据在数据仓库中;(2)定义要进入数据仓库中的数据和从数据仓库中产生的数据;(3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;(4)记录并检测系统数据一致性的要求和执行情况;(5)衡量数据质量。
4、数据挖掘对聚类的数据要求是什么?
(1)可伸缩性(2)处理不同类型属性的能力(3)发现任意形状的聚类(4)使输入参数的领域知识最小化(5)处理噪声数据的能力(6)对于输入顺序不敏感
(7)高维性(8)基于约束的聚类(9)可解释性和可利用性
5、简述Apriori算法的思想,谈谈该算法的应用领域并举例。
思想:其发现关联规则分两步,第一是通过迭代,检索出数据源中所有烦琐项集,即支持度不低于用户设定的阀值的项即集,第二是利用第一步中检索出的烦琐项集构造出满足用户最小信任度的规则,其中,第一步即挖掘出所有频繁项集是该算法的核心,也占整个算法工作量的大部分。
在商务、金融、保险等领域皆有应用。
在建筑陶瓷行业中的交叉销售应用,主要采用了Apriori 算法
三、翻译分析题(30分)
1、附件有一名为“Data Mining in Electronic Commerce”的电子文档,请同学们翻译其中的一段。每位同学翻译的段号以大家学号的最后两位为准,如10号同学只需翻译正文的第10段,以此类推。
分类则是一个标准的问题,在数据挖掘和在电子商贸的应用-原则下,适当的方法[随机森林,支持向量机(支持向量机),后勤拉索等]有赖于敏锐地在该网
站上,该类型的广告都是可以收集到的资料。在亚马逊商务网站中,该推荐系统已进入先前购买和书籍进行视察。
这是一个更丰富的信息来源,通过dictionary.com可以接入(他们只
知道这个词,有人期待在这次会议上,除非他们有库克-网页)。一些企业获得更多的信息,从数据仓库中,如作为choicepoint公司,这使得他们的专家来建立高度个性化的分类规则。
2、通过阅读该文挡,请同学们分析一下数据挖掘在电子商务领域的应用情况(请深入分析并给出实例,切忌泛泛而谈)。
随着网络技术和数据库技术的成熟,全球传统商务正经历一次重大变革,向电子商务全速挺进。这种商业电子化的趋势不仅为客户提供了便利的交易方式和广泛的选择,同时也为商家提供了更加深入地了解客户需求信息和购物行为特征的可能性。数据挖掘技术作为电子商务的重要应用技术之一,将为正确的商业决策提供强有力的支持和可靠的保证,是电子商务不可缺少的重要工具。
电子商务的发展促使公司内部收集了大量的数据,并且迫切需要将这些数据转换成有用的信息和知识,为公司创造更多潜在的利润,数据挖掘概念就是从这样的商业角度开发出来的。
由于数据挖掘能带来显著的效益,它在电子商务中(特别是业、零售业和电信业)应用也越来越广泛。
在金融领域,管理者可以通过对客户偿还能力以及信用的分析,进行分类,评出等级。从而可减少放贷的麻木性,提高资金的使用效率。同时还可发现在偿还中起决定作用的主导因素,从而制定相应的金融政策。更值得一提的是通过对数据的分析还可发现洗黑钱以及其它的犯罪活动。
在零售业,数据挖掘可有助于识别顾客购买行为,发现顾客购买模式和趋势,改进服务质量,取得更好的顾客保持力和满意程度,提高货品销量比率,设计更好的货品运输与分销策略,减少商业成本。
电信业已经迅速地从单纯的提供市话和长话服务演变为综合电信服务,如语音、传真、寻呼、移动电话、图像、电子邮件、机和WEB数据传输以及其它的数据通信服务。电信、计算机网络、因特网和各种其它方式的通信和计算的融合是的大势所趋。而且随着许多国家对电信业的开放和新型计算与通信技术的发展,电信市场正在迅速扩张并越发竞争激烈。因此,利用数据挖掘技术来帮助理解商业行为、确定电信模式、捕捉盗用行为、更好的利用资源和提高服务质量是非常有必要的。分析人员可以对呼叫源、呼叫目标、呼叫量和每天使用模式等信息进行分析,还可以通过挖掘进行盗用模式分析和异常模式识别,从而可尽早发现盗用,为公司减少损失。
四、编程题(20分)
请大家用所学过的java语言改写p192-p194的vb核心源程序