第一篇:数据分析与建模,实验报告,实验二,,数据分析工具初步使用
学生学号
实验课成绩
学 学 生 实 验 报 告 书
实验课程名称 数据分析与建模 开 开 课 学 院 管理学院 指导教师姓名 鄢 丹 学 学 生 姓 名
学生专业班级 信管 16 班
2018 —2019 学年
第1
学期实验报告填写说明
1. 综合性、设计性实验必须填写实验报告,验证、演示性实验可不写实验报告。
2. 实验报告书 必须按统一格式制作(实验中心网站有下载)。
3. 老师在指导学生实验时,必须按实验大纲的要求,逐项完成各项实验;实验报告书中的实验课程名称和实验项目 必须与实验指导书一致。
4. 每项实验依据其实验内容的多少,可安排在一个或多个时间段内完成,但每项实验只须填写一份实验报告。
5. 每份实验报告教师都应该有签名、评分表及实验报告成绩。
6. 教师应及时评阅学生的实验报告并给出各实验项目成绩,完整保存实验报告。在完成所有实验项目后,教师应按学生姓名将批改好的各实验项目实验报告装订成册,构成该实验课程总报告,按班级交到实验中心,每个班级实验报告袋中附带一份实验指导书及班级实验课程成绩表。
7. 实验报告封面信息需填写完整,并给出实验环节的成绩,实验环节成绩按其类型采取百分制或优、良、中、及格和不及格五级评定(与课程总成绩一致),并记入课程总成绩中。
实验课程名称:_ 数据分析与建模__
实验项目名称 实验二
数据分析工具的初步使用 实验 成绩
实 实 验 者
专业班级
组 组
别 无 无 同 同 组 者 无 无 实验日期 2018 年 年 10 月 月 10 日 一部分:实验预习报告(包括实验目的、意义,实验基本原理与方法,主要仪器设备及耗材,实验方案与技术路线等)
一、实验目的、意义 本实验旨在通过资料查阅和上机实验,熟悉和掌握数据分析工具 Mathematica。
二、实验 基本原理 与方法
数据分析工具 Mathematica 的使用方法,以及帮助指南文档等。
三、实验内容及要求 应用 Mathematica 完成下列题目的运算求解或绘图。
(1)分别计算 2+4,3 2-2 3,的值。
(2)对 的值,分别取有效数字位数 6 位,20 位,30 位。
(3)给变量 a 赋值为 2,并计算 a 2-6,3a+b 的值。
(4)定义函数 f(x)=xsinx+x 2 +2x,分别求 f(x)在 x=1,π/2 时的值,再求 f(x 2)。
(5)设函数,求 的值。
(6)作函数 f(x)=x 2 的图形。
(7)将 f(x)=x 2 与 g(x)=x-1 画在一个坐标系内。
(8)在同一坐标系中绘制
与 的图形。
(9)绘制函数 在区间[0,2π]上的图形。
(10)绘制由坐标(-1,2),(0,2.5),(1,3),(2,4),(3,4.5),(4,5.5)构成的散点图。
(11)绘制函数 sin(x+y)cos(x+y)的 3D 立体图。
(12)绘制函数 在-2≤x≤2,-2≤y≤2 上的图形。
(13)绘制函数 在-2≤x≤2,-2≤y≤2 上的图形,去掉坐标系,边框,网格线。
(14)绘制螺旋线
在 0≤t≤4π 上的图形。
(15)利用参数方程绘制 z=x 2 + y 2 在 0≤z≤8 上的图形。
四、实验方案或技术路线(只针对综合型和设计型实验)
按照实验任务要求,理论结合实际的实验方案,巩固课程内容,温故知新,查遗补漏,夯实理论基础,提升实验动手能力。
技术路线是,从整体规划,分步骤实施,实验全面总结。
第二部分:实验过程记录(可加页)(包括实验原始数据记录,实验现象记录,实验过程发现的问题等)
(1)分别计算 2+4,3 2-2 3,的值。
步骤:以 2+4 的计算过程为例。首先输入“In”后的式子,如“2+4”;然后同时按下键盘上的“shift”和“enter”键,就可得到“Out”后面的计算结果,如“2+4”的结果为“6”。其他式子也是按照此方法计算。其中,运算符“+”、“-”、“*”、“/”、“^”(乘方)均可以在键盘上找到,而根号的输入如下:
鼠标先在导航栏上找到【面板】并点击,再选择【特殊字符】,再选择【符号】,便可找到根号。当光标停留在该符号上时,会显示“sqrt”,即开根号的意思。根号的具体位置如下图所示:
按照上述方法得到的运行结果如下图所示:
(2)对 的值,分别取有效数字位数 6 位,20 位,30 位。
取有效数字需要用到近似运算符,语法如下:N[表达式,有效数字位数]。系统默认是至少16 位,但标准输出只显示前 6 位有效数字。
%表示上一次的输出结果;%% 表示上上一次的输出结果„„以此类推。
% a(a 为常数)表示第 a 次的输出结果。
结合本题来看, 具体分析如下:
N[%]表示输出上一次的输出结果,并取 6 位有效数字; N[%4, 20]表示输出第 4 次的输出结果 Out[4],并取 20 位有效数字 N[%4, 30]表示输出第 4 次的输出结果 Out[4],并取 30 位有效数字 运行结果如下图所示:
(3)给变量 a 赋值为 2,并计算 a 2-6,3a+b 的值。
变量的赋值、表示与运算:变量名必须以小写字母开头,不能含有空格或标点符号;变量赋值用“=”表示;变量一旦被赋值,会一直保留,直到它被清除或被重新赋值。可用命令“Clear [变量]”清除原来的赋值。
具体输入及运行结果如下:
(4)定义函数 f(x)=xsinx+x 2 +2x,分别求 f(x)在 x=1,π/2 时的值,再求 f(x 2)。
多元函数的自定义命令:自定义函数 [ 变量 1_, 变量 2_, „] := 表达式 求函数在某一点的值时,直接将自变量的值代入再输出即可。
注意:此处 Sin 函数的首字母 S 需要大写,否则软件不会将其视为正弦函数,而是视为一个变量。如果用 Pi 表示 π 时,首字母也需要大写,否则软件会将其视作一个变量名。
(5)设函数,求 的值。
定义分段函数,只需要分段定义自定义函数即可,并在后面添加范围限制,格式为:
/ ;范围限制(其中“逻辑与”用“&&”表示,“逻辑或”用“||”表示)
(6)作函数 f(x)=x 2 的图形。
一元函数作图的命令:Plot[函数, 作图范围, 可选项] 故本题为:
f[x_] := x^2 Plot[f[x], {x,-1, 1}]
(7)将 f(x)=x 2 与 g(x)=x-1 画在一个坐标系内。
当两图画在一个坐标系时,一元函数作图的命令为:
Plot[{函数 1, 函数 2, „}, 作图范围, 可选项] 故本题为:Plot[{x^2, x-1}, {x,-1, 1}]
(8)在同一坐标系中绘制
与 的图形。
参数方程作图的命令:ParametricPlot[参数方程, 参数范围, 可选项] 若以参数方程组取代参数方程 , 可在同一坐标系中绘制多个参数方程所确定的函数的图形。AspectRatio->Automatic 为可选项,表示按坐标系刻度的实际比例 1:1 作图,默认情况下是 0.618:1。
故本题为:ParametricPlot[{{Sin[t], Cos[t]}, {Sin[t], 2*Cos[t]}}, {t, 0, 2*Pi}]
(9)绘制函数 在区间[0,2π]上的图形。
极坐标式函数作图的命令:PolarPlot[极坐标函数, 变量范围, 可选项] 故本题为:PolarPlot[1−Cos[
第二篇:数据分析工具
数据分析工具
概述 数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用。是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据也称观测值,是实验、测量、观察、调查等的结果,常以数量的形式给出。
数据是事实,也称观测值,是实验、测量、观察、调查等的结果,常以数量的形式给出。数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内在规律。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。数据分析是组织有目的地收集数据、分析数据,使之成为信息的过程。这一过程是质量管理体系的支持过程。
分析工具 excel作为常用的分析工具,可以实现基本的分析工作,在商业智能领域Cognos、Microstrategy、Brio、BO和Oracle以及国内产品如北京永洪科技的Yonghong Z-Suite BI套件,奥威智动的Power BI也比较常用。
自商业智能这一领域被开拓以来,国内外BI工具层出不穷。IBM cognos、SAP BO、oracle BIEE、Microsoft BI、MicroStrategy、思迈特 BI、奥威智动 Power-BI等都是传统的BI软件,而Qliktech QlikView、tableau、永洪科技 Yonghong Z-Suite等是下一代BI的代表。
传统BI工具基于数据驱动,以瀑布开发模式建设BI系统。传统BI工具需要预先形成CUBE,交付时间在半年左右,如果需求发生变化,相关模块调整周期按月计算。通常传统BI工具模块较多,操作复杂,无法形成自服务BI。
新一代BI软件区别于传统BI软件,基于业务驱动,无需预生成Cube,交付周期按周、月计算,能够形成自服务BI系统。对于需求变化,交付周期按天、周计算,相关模块调整不大。Yonghong Z-Suite、tableau、QlikView等新一代BI工具带有数据集市,可以处理海量数据。以Yonghong Z-Suite为例,其主要有以下特点:
驱动模式:业务驱动。
开发模式:以敏捷开发模式建设BI系统。
交付周期:交付周期偏短,项目失败率低;乐意在客户现场做POC(Proof of Concept)。需求变化:可以应对变化,新需求交付周期很短;相关模块调整不大,交付周期在一两天之内。
成本:一站式平台提供数据集市和BI软件,无需购买MPP数据仓库,费用低。自服务BI:能够形成自服务BI。
分析:展现只是起点,分析功能强大。
海量数据:X86通用平台,以Scale-out扩展模式处理海量数据。基于CPU收费,具有较高性价。
数据集市:Yonghong Z-Data Mart专业数据集市处理大数据。
第三篇:网店的数据分析工具使用
实训八 网店的数据分析工具使用
姓名: 学号:
量子恒道功能详述并举例
量子恒道统计(淘宝官方出品)基础服务提供基于店铺的流量数据,包括流量分析、推广效果、客户分析等相关数据分析,同时还为卖家提供“过滤掌柜ID”等工具类产品-百宝箱。
一、流量分析
1、流量概况(包含 淘宝店铺数据 和 手机淘宝店铺数据 两部分)
2、实时客户访问
3、按小时流量分析
4、按天流量分析
5、宝贝被访排行
6、分类页被访排行
7、店内搜索关键词
二、推广效果
1、流量来源构成
2、淘宝搜索关键词
三、客户分析
1、访客地区分析
四、百宝箱
1、个性化统计图标
2、过滤掌柜ID
3、量子排行榜
五、量子积分礼盒
六、量子超市
流量分析
流量概况
流量分析中展现了店铺的一些基本流量数据,通过查看该页面,您能够大致了解店铺的流量状况。包括以下5个方面: a.流量概况:该页面展示店铺的流量概况,包括两部分数据:淘宝店铺数据和手机淘宝店铺数据。两部分数据相对独立地包括通过电脑访问店铺的浏览量和访客数和通过手机端访问店铺的浏览量和访客数。系统会每分钟对数据进行更新。您可以选择 “按天”和“按小时”这两种方式查看数据。同时,通过图表下方的时间轴可以调整查看的时间。拖动时间轴上选中区域可以查看不同时间段,拖动选中区域边界可以调整时间段的大小。b.最近七天被访问宝贝TOP10 c.最近7天访客来源TOP10 d.最近7天访客地区TOP10 e.店铺基本信息
手机淘宝店铺流量概况(按天查看)
手机淘宝店铺流量概况(按小时查看)
手机淘宝店铺流量概况(其他数据指标)
实时客户访问
显示店铺当前的被访问情况。系统每分钟更新客户的访问数据,包括访问时间、入店来源、被访页面、访客位置、是否回头客,让您时刻了解店内客户访问情况。
同时可以使用“顾客跟踪”功能,详细了解客户的访问轨迹、访客地区、进店时间、停留时间、入店来源,探索客户的关注范围和行为规律。
按小时流量分析
您可以查询店铺内某一天的流量情况,24小时分时段的数据报表。各时段用户浏览量和访客数一目了然,为您安排店内人手和宝贝上线时间提供参考:
“流量对比”功能,可以让您同时对比任意两天的浏览量和访客数信息:
按天流量分析
您可以自定义查看不同日期的统计数据,也可以快速查看当月、最近3个月、最近6个月和最近12个月的统计数据,帮助您最简单、直接的了解店铺一定时期内顾客的浏览量和访客数。当鼠标放置在图表区域以外时,还可以显示您选择时段内浏览量和访客数的最高值与最低值。
另外,“流量对比”功能,可以对两个不同月份各天的店铺浏览量和访客数进行对比。
宝贝被访排行 您可以自定义查看不同时间段的统计数据,也可以快速查看最近30天、本周、本月等不同时段的统计数据:
在宝贝较多时,您还可以通过按分类或按宝贝进行相应的宝贝查询,快速了解宝贝的情况:
“宝贝被访详情”提供排名TOP10的宝贝被访详情信息,包括关注度、浏览量、访客数、平均访问时间、入店和出店次 数等,并清晰地显示出查询日期内宝贝每天的浏览量和访客数。在页面的上方您可以选择不同的时段查看数据,宝贝图片右侧的下拉菜单可用来选择查看TOP10 中其他宝贝的详情,在页面的下方是宝贝被访趋势图以及宝贝访问来源和访问地区,帮助您多角度了解宝贝信息:
分类页被访排行
提供所有分类页当天、最近7天及最近30天的详细被访信息,包括浏览量、访客数、入店人次、出店人次等。排行默认按浏览量降序排列,您也可选择按访客数、入店人次、出店人次等其他指标进行排序。
另外,您也可以直接输入某个分类名称,点击“查询”,即可查看所查询的分类页信息。同时,为了方便您在本地进行数据分析以及对统计报表进行操作,您可以点击“下载”或“打印”按钮进行相应操作。
店内搜索关键词 提供访客在店内查找宝贝时所使用的全部关键词的统计信息,如搜索次数、跳失率等,您可以自由选择时间段,系统会自动根据您选择的时段,显示店内搜索排名前十位的关键词以及每个关键词所占的搜索比例:
另外,可以用“趋势查看”功能查看随着时间的变化,每个关键词的到达页浏览量、搜索次数及跳失率的变化趋势,为您及时优化宝贝的名称以便能够被高效地搜索到提供参考:
推广效果
流量来源构成
来源构成中总结了店内所有浏览的来源情况,比如某来源的到达页浏览量及其所占的百分比:
淘宝搜索关键词
淘宝搜索关键词反映的是买家通过哪些词的搜索到达店铺宝贝的数据。淘宝搜索关键词提供TOP10搜索关键词的图表展示,并提供所有关键词的统计信息,如到达页浏览量、平均每次访问页面数、跳失率等。
另外,可以用“趋势查看”功能查看随着时间的变化,每个关键词的到达页浏览量、搜索次数及跳失率的变化趋势,为您及时优化宝贝的名称以便能够被高效地搜索到提供参考。
客户分析
访客地区分析 “访客地区分析功能”支持国际和中国各省、自治区、直辖市、特别行政区内城市浏览量及访问人数的查询,以地图的形式展示地区分布。当您的鼠标放置在地图当中某一区域内时,会相应显示该区域的浏览量和访客数。系统每小时对该数据进行更新,您可以选择不同时间段查询数据。
另外,点击某一地区对应的访问趋势“查看”按钮,可以查看本周、一月、一个季度等不同时间段内各地区浏览量、访客数的变化趋势,为您针对不同地区做推广提供决策。
百宝箱
过滤掌柜ID 过滤掌柜ID可过滤掉掌柜进出店铺的浏览记录,让统计数据更加精确。
a.即日起,凡激活淘宝量子店铺统计的用户即默认开启过滤掌柜ID功能,若您未作任何更改,掌柜进出店铺的浏览记录将不再被记录。
b.为保证正常使用此功能,请确保您浏览器开启cookie功能,避免反复清除cookie。c.此功能支持多客户端,使用不同电脑时,只需登录,浏览记录就会被屏蔽。d.建议设置此功能后退出并重新登录到量子店铺统计,以使该功能生效。e.若您不能正常使用过滤功能,请访问以下链接http://bangpai.taobao.com/group/thread/868167-15038974.htm,尝试重新调整相关设置。
个性化统计图标
“个性化统计图标”提供两种图标显示方式:
a.在统计图标上显示店铺的统计数据:可以在店铺首页以生动的图片形式进行显示,图标上的数据分别是今天,昨天以及店铺使用量子统计以来的浏览量,能够为访问店铺的客人带来一种直观的印象,也可以让您不需登录店铺管理后台就能了解店铺的浏览量。b.在统计图标上不显示店铺的统计数据。
量子排行榜
量子排行榜是量子店铺统计通过收集分析用户数据并加以整理,以量子排行(宝贝人均关注度TOP榜)的形式体现出来。在这个排行榜中我们按淘宝主要类目/卖 家地区/卖家级别等维度来体现宝贝的关注度。卖家通过这个,可以简单清晰的了解自己行业类目最新动态。第一时间把握商机、优化商品,达到最终促进成交的效果。
量子积分礼盒
量子统计(淘宝官方版)为回馈广大卖家用户,正式推出“量子积分礼盒”。您可凭多种方式获取积分,换取多种量子优惠礼品,享受量子特权,抢先体验量子更多新功能。a.礼品兑换中心
通过“礼品兑换中心”可换取量子基础服务和特色功能免费使用时间、也可以抢先体验新功能。
b.获取量子积分
用户可凭多种方式轻松获取量子积分。
1)发送链接邀请好友使用量子统计(淘宝官方版)2)每日登录量子统计 3)参与量子活动
c.积分记录
可查询增加积分及积分兑换的历史记录。
d.积分小贴士
记录用户积分获取及积分使用过程中的常见问题,具体包括以下七个问题: 1)什么是量子积分礼盒;
2)量子积分用户有什么特权;
3)如何获得量子积分;
4)如何使用积分兑换礼品;
5)量子积分可以兑换哪些服务;
6)如何查看我的积分;
7)使用量子积分有什么注意事项;
量子超市
在量子超市这一模块中,您可以对不同功能模块进行了解,并根据自己的实际情况,进行订购、续订或积分兑换及试用等操作。
数据魔方的功能及应用
一、增添某些维度的数据,让数据查询更全面
1、添加“什么品牌好卖”,展现卖家所在行业的热卖品牌排行,通过排行榜明确自己品牌所处的位置。在时间维度上,可以选择最近7天和最近30天。还可以点击查看具体关注的某个品牌详情,包括它的成交金额、关注人数和收藏人数。
2、添加“什么产品好卖”,展示该行业下近期的热卖产品,无论卖家是用来分析竞争对手还是作为店铺日后的选品参考,都是很有价值的。
二、整理归类报表,展现更有逻辑,方便操作和查询
三、增加帮助中心,帮助您找到数据指标含义,学习更多数据分析干货
这一点对于新手卖家来说尤其重要。也许你刚接触电商,不了解很多数据指标,没有关系,通过帮助中心的解释,可以很清楚地了解每个指标对应的含义。同时在《魔方学堂》里面有很多学习课程,让你在使用魔方的同时,可以了解更多干货课程,有更多学习和交流的机会。
应用:
第一步,进入淘宝网首页(www.xiexiebang.com),登录账号,同时选择“我的淘宝”,点击进入 如图所示:
第二步,点击“我是卖家”,选择“软件服务订购” 如图所示:
第三步,选择“数据分析”,点击“数据魔方专业版”的“立即订购”,进入下一个页面 如图所示:
第四步,点击选择自己所需类目,确认无误后,点击“下一步”,进入支付宝付账页面 如图所示:
第五步,进入支付宝付账界面,卖家可按照支付宝流程进行数据魔方的购买
二、从哪里可以找到数据魔方专业版的入口?
入口一:进入淘宝网首页(www.xiexiebang.com),登录账号,选择“我的淘宝”,点击进入;进入以后选择“我是卖家”界面,找到“数据魔方专业版”的入口,点击进入
如图所示:
入口二:进入淘宝商家数据平台(http://shuju.taobao.com/),选择“数据魔方专业版”入口,点击进入 如图所示:
三、怎样使用数据魔方专业版? 以女装类目下的“衬衫”为例
第一步,进入淘宝商家数据平台(http://shuju.taobao.com/)页面,选择“数据魔方专业版”入口,点击进入 如图所示:
第二步,登录账号 如图所示:
进入页面的展示: 图一: 图二:
第三步,选择“行业”类目下的“女装”类目,再次选择“女装”类目下的“衬衫”,点击确定 如图所示:
衬衫类目的页面展示:
第四步,选择自己想要看的区块,进行选择,如选择“成交趋势分析”,会在“数据区”出现相应的数据
你可以点击时间标记,进行自定义选择时间,选择所需的时间段 如图所示:
您在查看数据时,可以在搜索区键入相应的关键词,进行搜索 如图所示:
数据魔方专业版还有很多其他功能和区块未被展示出来,卖家朋友们可以购买魔方专业版,自己来体验一下数据的神奇之处吧!
简析量子恒道与数据魔方的功能侧重
数据魔方主要是针对品牌企业和中小卖家的,而小艾分析、量子统计主要针对是中小卖家的.而且数据魔方还可以分析竞争对手的数据分析.相对来讲, 小艾分析、量子统计主要是分析精细东西.对于店铺前期比较好.后期随着店铺的不断成长.需要功能更强大的软件去分析店铺的详细数据.网店实训3的心得体会与课程建议
本次实训为熟悉一个第三方活动工具软件的使用和策划一次店内促销活动,包含活动宗旨、活动类型、具体内容及推广方案。通过此次学习,我了解了第三方活动工具VIP购优汇的功能及应用使用,有助于后期应用推广。
第二项策划一次店内促销活动,通过这个方式,增进了小组成员的合作,也加强我们个人的团队合作意识,学会合作,互相学习促进。并且,从本次的任务中,将策划实践于操作,有利于将课堂知识转化为现实中的应用。
建议:下次希望可以换个机房。
第四篇:数据分析软件和工具
以下是我在近三年做各类计量和统计分析过程中感受最深的东西,或能对大家有所帮助。当然,它不是ABC的教程,也不是细致的数据分析方法介绍,它只 是“总结”和“体会”。由于我所学所做均甚杂,我也不是学统计、数学出身的,故本文没有主线,只有碎片,且文中内容仅为个人观点,许多论断没有数学证明,望统计、计量大牛轻拍。
于我个人而言,所用的数据分析软件包括EXCEL、SPSS、STATA、EVIEWS。在分析前期可以使用EXCEL进行数据清洗、数据结构调 整、复杂的新变量计算(包括逻辑计算);在后期呈现美观的图表时,它的制图制表功能更是无可取代的利器;但需要说明的是,EXCEL毕竟只是办公软件,它 的作用大多局限在对数据本身进行的操作,而非复杂的统计和计量分析,而且,当样本量达到“万”以上级别时,EXCEL的运行速度有时会让人抓狂。
SPSS是擅长于处理截面数据的傻瓜统计软件。首先,它是专业的统计软件,对“万”甚至“十万”样本量级别的数据集都能应付自如;其次,它是统计软 件而非专业的计量软件,因此它的强项在于数据清洗、描述统计、假设检验(T、F、卡方、方差齐性、正态性、信效度等检验)、多元统计分析(因子、聚类、判 别、偏相关等)和一些常用的计量分析(初、中级计量教科书里提到的计量分析基本都能实现),对于复杂的、前沿的计量分析无能为力;第三,SPSS主要用于 分析截面数据,在时序和面板数据处理方面功能了了;最后,SPSS兼容菜单化和编程化操作,是名副其实的傻瓜软件。
STATA与EVIEWS都是我偏好的计量软件。前者完全编程化操作,后者兼容菜单化和编程化操作;虽然两款软件都能做简单的描述统计,但是较之 SPSS差了许多;STATA与EVIEWS都是计量软件,高级的计量分析能够在这两个软件里得到实现;STATA的扩展性较好,我们可以上网找自己需要 的命令文件(.ado文件),不断扩展其应用,但EVIEWS就只能等着软件升级了;另外,对于时序数据的处理,EVIEWS较强。
综上,各款软件有自己的强项和弱项,用什么软件取决于数据本身的属性及分析方法。EXCEL适用于处理小样本数据,SPSS、STATA、EVIEWS可以处理较大的样本;EXCEL、SPSS适合做数据清洗、新变量计算等分析前准备性工作,而STATA、EVIEWS在这方面 较差;制图制表用EXCEL;对截面数据进行统计分析用SPSS,简单的计量分析SPSS、STATA、EVIEWS可以实现,高级的计量分析用 STATA、EVIEWS,时序分析用EVIEWS。关于因果性
做统计或计量,我认为最难也最头疼的就是进行因果性判断。假如你有A、B两个变量的数据,你怎么知道哪个变量是因(自变量),哪个变量是果(因变量)?
早期,人们通过观察原因和结果之间的表面联系进行因果推论,比如恒常会合、时间顺序。但是,人们渐渐认识到多次的共同出现和共同缺失可能是因果关 系,也可能是由共同的原因或其他因素造成的。从归纳法的角度来说,如果在有A的情形下出现B,没有A的情形下就没有B,那么A很可能是B的原因,但也可能 是其他未能预料到的因素在起作用,所以,在进行因果判断时应对大量的事例进行比较,以便提高判断的可靠性。
有两种解决因果问题的方案:统计的解决方案和科学的解决方案。统计的解决方案主要指运用统计和计量回归的方法对微观数据进行分析,比较受干预样本与 未接受干预样本在效果指标(因变量)上的差异。需要强调的是,利用截面数据进行统计分析,不论是进行均值比较、频数分析,还是方差分析、相关分析,其结果 只是干预与影响效果之间因果关系成立的必要条件而非充分条件。类似的,利用截面数据进行计量回归,所能得到的最多也只是变量间的数量关系;计量模型中哪个 变量为因变量哪个变量为自变量,完全出于分析者根据其他考虑进行的预设,与计量分析结果没有关系。总之,回归并不意味着因果关系的成立,因果关系的判定或 推断必须依据经过实践检验的相关理论。虽然利用截面数据进行因果判断显得勉强,但如果研究者掌握了时间序列数据,因果判断仍有可为,其中最经典的方法就是 进行“格兰杰因果关系检验”。但格兰杰因果关系检验的结论也只是统计意义上的因果性,而不一定是真正的因果关系,况且格兰杰因果关系检验对数据的要求较高(多期时序数据),因此该方法对截面数据无能为力。综上所述,统计、计量分析的结果可以作为真正的因果关系的一种支持,但不能作为肯定或否定因果关系的最 终根据。科学的解决方案主要指实验法,包括随机分组实验和准实验。以实验的方法对干预的效果进行评估,可以对除干预外的其他影响因素加以控制,从而将干预实施后的效果归因为干预本身,这就解决了因果性的确认问题。关于实验
在随机实验中,样本被随机分成两组,一组经历处理条件(进入干预组),另一组接受控制条件(进入对照组),然后比较两组样本的效果指标均值是否有差 异。随机分组使得两组样本“同质”,即“分组”、“干预”与样本的所有自身属性相互独立,从而可以通过干预结束时两个群体在效果指标上的差异来考察实验处 理的净效应。随机实验设计方法能够在最大程度上保证干预组与对照组的相似性,得出的研究结论更具可靠性,更具说服力。但是这种方法也是备受争议的,一是因 为它实施难度较大、成本较高;二是因为在干预的影响评估中,接受干预与否通常并不是随机发生的;第三,在社会科学研究领域,完全随机分配实验对象的做法会 涉及到研究伦理和道德问题。鉴于上述原因,利用非随机数据进行的准实验设计是一个可供选择的替代方法。准实验与随机实验区分的标准是前者没有随机分配样本。
通过准实验对干预的影响效果进行评估,由于样本接受干预与否并不是随机发生的,而是人为选择的,因此对于非随机数据,不能简单的认为效果指标的差异 来源于干预。在剔除干预因素后,干预组和对照组的本身还可能存在着一些影响效果指标的因素,这些因素对效果指标的作用有可能同干预对效果指标的作用相混淆。为了解决这个问题,可以运用统计或计量的方法对除干预因素外的其他可能的影响因素进行控制,或运用匹配的方法调整样本属性的不平衡性——在对照组中寻 找一个除了干预因素不同之外,其他因素与干预组样本相同的对照样本与之配对——这可以保证这些影响因素和分组安排独立。
随机实验需要至少两期的面板数据,并且要求样本在干预组和对照组随机分布,分析方法就是DID(倍差法,或曰双重差分法);准实验分析用截面数据就 能做,不要求样本在干预组和对照组随机分布,分析方法包括DID(需两期的面板数据)、PSM(倾向性得分匹配法,需一期的截面数据)和PSM-DID(需两期的面板数据)。从准确度角度来说,随机实验的准确度高于准实验和非实验分析。
关于分析工具的选择
如果根据理论或逻辑已经预设了变量间的因果关系,那么就无需使用实验方法。我对非实验数据分析工具的选择原则如下。
因变量为连续变量,自变量至少有一个连续变量,进行多元线性回归; 因变量为连续变量,自变量全部为分类变量,进行方差分析;
因变量为分类变量,自变量至少有一个连续变量,使用Logit模型或Probit模型; 因变量为分类变量,自变量全部为分类变量,进行交叉表分析和卡方检验;
因变量在某个闭区间内分布,并且有较多样本落在闭区间的边界上,使用Tobit模型;
因变量不唯一,如多产出问题,进行数据包络分析(DEA);
因变量为整数、数值小、取零个数较多,使用计数(Count)模型; 数据具有层次结构(嵌套结构),使用多层线性模型(HLM)。
随着统计和计量经济学的发展,各种前沿分析工具层出不穷,但我认为最靠谱的分析工具不外乎以下四种:DID(针对随机实验),多元线性回归,固定效 应变截距模型(FE,针对面板数据),Logit模型或Probit模型(针对分类因变量数据)。其他方法或适用条件苛刻,或分析过程折腾,或方法本身不 可靠(尤其是聚类分析、判别分析,超级不靠谱),因此能用以上四种方法分析问题时,不必为“炫方法”而瞎折腾。关于拟合优度、变量选择原则及估计值绝对大小的意义
在人人的“数据分析”小站中,某同学提出这样一个问题:“多元回归分析中,怎么选择自变量和因变量,可以使R方达到80%以上?”
很显然,问这个问题的同学要么没学好计量,要么就是犯了功利主义的错误,或者二者皆有。拟合优度的大小很大程度上取决于数据本身的性质。如果数据是 时序数据,只要拿有点相关关系的变量进行回归就能使拟合优度达到80%以上,但这样的高R方根本说明不了什么,很可能使分析者陷入伪回归的陷阱,严谨的做 法当然是做平稳性检验和协整检验;如果是截面数据,根本没必要追求R方到80%的程度,一般来说,有个20%、30%就非常大了。
如果一定要增大R方,那么最应该做的的确是对纳入模型的变量进行选择。选择纳入模型的原则我认为有三条。第一,从理论和逻辑出发,将可能影响因变量 的变量作为自变量纳入模型,即理论上或逻辑上能影响因变量的自变量必须纳入模型,即使该自变量的回归系数不显著。第二,奥姆剃刀原则——如无必要,勿增实体,即理论上或逻辑上不能影响因变量的自变量不能纳入模型,即使该自变量的回归系数显著。第三,防止纳入具有多重共线性的自变量。
前面说了,对截面数据进行计量分析,R方能达到20%、30%是非常了不起的事情。但是,如果拟合优度(或类似拟合优度的指标)在20%、30%或 更低时,回归系数只具有定性或定序上的意义,强调其绝对数值的大小没什么意义。譬如lnY=alnA+blnB+„+zlnZ+c回归的R方为20%,a 为0.375,b为0.224,且二者的T检验显著,那么我们可以说,A、B对Y有影响,也可以说一百分点的A变化对Y的影响大于一百分点的B变化对Y的影响(控制其他因素的情况下),但说一百分点的A变化对Y的影响较一百分点的B变化对Y的影响大0.151%,就没什么意义了。
第五篇:数据分析实验报告册
《数据分析》
实验报告册
15-20 16 学年
目录
实验一 网上书店的数据库创建及其查询
实验 1-1 “响当当”网上书店的数据库创建
实验1-2 “响当当”网上书店库存、图书和会员信息查询
实验1-3 “响当当”网上书店会员分布和图书销售查询
实验二 企业销售数据的分类汇总分析
实验2-1 Northwind公司客户特征分析
实验2-2 “北风”贸易公司销售业绩观测板
实验三 餐饮公司经营数据时间序列预测
实验3-1 “美食佳”公司半成品年销售量预测
实验3-2 “美食佳”公司月管理费预测
实验3-3 “美食佳”华东分公司销售额趋势预测
实验3-4 “美食佳”公司会员卡发行量趋势预测
实验3-5 “美食佳”火锅连锁店原料采购成本预测
实验四 住房建筑许可证数量的回归分析
实验4-1 “家家有房”公司建筑许可证一元线性回归分析
实验4-2 “家家有房”公司建筑许可证一元非线性回归分析
实验4-3 “家家有房”公司建筑许可证多元线性回归分析
实验4-4 “家家有房”公司建筑许可证多元非线性回归分析
实验五 手机用户消费习惯聚类分析
实验六 新产品价格敏感度测试模型分析
实验一 网上书店的数据库创建及其查询
实验 1-1 “响当当”网上书店的数据库创建
实验类型:验证性
实验学时:2 实验目的:
• 理解数据库的概念;
• 理解关系(二维表)的概念以及关系数据库中数据的组织方式; • 了解数据库创建方法。
实验步骤:
这个实验我们没有直接做,只是了解了一下数据库的概念。
实验1-2 “响当当”网上书店库存、图书和会员信息查询
实验目的
• 理解odbc的概念;
• 掌握利用microsoft query进行数据查询的方法。
实验步骤:
1..建立odbc数据源:启动microsoft office query应用程序,在microsoft office query应用程序窗口中,执行“文件/新建”命令,出现 “选择数据源”对话框,单击“确定”按钮,出现“创建新数据源”对话框,按照要求做相应的操作。
选择数据源对话框
创建新数据源窗口
做图上所示的选择
odbc microsoft access安装对话框
选择数据库对话框
选择数据源对话框
2.查询设计1—低库存量图书信息查询:选择“bookstore”数据源,点击“确定”,进入“添加表”窗口,添加书表后,在“查询设计”窗口的“表”窗格中,分别双击“书”表中需要查询的“书名”、“isbn”、“库存量”等字段,执行“视图/条件”命令,在“条件”窗格的“条件字段”行的 实验小结:
因为我们没有尝试建立数据库,直接开始数据查询,所以实验时遇到了很多问题。比如我们在选择数据源时就遇到了麻烦,弄了半天才开始查询设计,而且不是很熟练,一直做了四五个查询设计才慢慢熟练起来。
实验思考:
1、在数据查询过程中,如果所选的某个表与其他表之间没有联系的话,会 产生什么问题?
答:所选的查询数据将会全部显示在查询窗口,与其它表的数据没有直接联系。这样就不能表现出表与表数据之间的关联性,数据也就失去赋予的意义。
2、若“响当当个”网上书店的某个会员了解自己最近2年的图书订购情况,请为他设计一个查询。
答:分别添加“书”、“会员”、“订单明细”和“订单”表,双击“书”表的“书名”、“会员”表的“姓名”和“订单明细”表的“订购数量”以及“订单”表的“订购日期”字段,在向查询条件窗口中输入某一会员姓名以及相应的订购日期.实验1-3 “响当当”网上书店会员分布和图书销售查询
实验目的
•掌握复杂的数据查询方法:多表查询、计算字段和汇总查询
实验步骤: 1.查询设计1—会员分布信息查询:添加“会员”表到查询设计窗口,在“查询设计”窗口的“表”窗格中,双击“会员”表的“城市”和“会员号”字段。然后双击“会员号”字段的列标,在“编辑列”对话框中输入列标“会员人数”,并选择汇总方式:“计数”,单击“确定”按钮后即可看到查询结果,其中显示了各城市的会员人数,再设置相应的条件,进行相应的查询。
选择汇总方式
查询结果
2.查询设计2—图书总订购量和总销售金额查询:添加“订单”、“订单明细”和“书”表。在“查询设计”窗口的“表”窗格中,双击“订单”表的“订购日期”、“订单明细”表的“订购数量”字段。另外还要构造一个计算字段“销售金额”,方法是直接在某空白列的列标中输入公式;在上面的字段中,“订购数量”和“销售金额”是汇总字段,分类字段是“订购年份”,双击“订购日期”列的列标,在编辑列对话框的字段项中输入公式“year(订购日期)”,在其中的列标项中输入“订购年份”然后分别双击“订购数量”和“订购数量*单价”字段的列标,在编辑列对话框的列标项中分别输入“总订购数量”和“总销售金额”字样,并在总计项中选择“求和”。
在“条件”窗格的“条件字段”行的
5.查询设计5—被订购图书的作者和出版社信息查询:添加“会员”、“订单”、“订单明细”、“书”、“作者”和“出版社”表。在表之间建立合适的联系。在“查询设计”窗口的“表”窗格中,双击“书”表的“书名”、“作者”表的“姓名”和“出版社”表的“出版社名称”字段。在条件窗格中添加关于订购日期和会员姓名的条件。可以查看到结果为会员“刘丹”在2007年共订购了7本图书。
实验小结:
实验1-3的实验比较难,但是经过前面的练习还是比之前快一点,不过还是遇到一些困难,比如查看到结果为会员“刘丹”在2007年共订购了几本书的查询设计就在输入指令时卡住了,经过几个同学讨论还是做出来了。一直到晚上天黑了才把一共十个实验做完。
实验思考:
1、在进行汇总查询的过程中,如果被选择的字段除了分类字段以外还包含了其他字段。
查询结果是否正确?为什么?请举例说明。
答:不正确,如果被选择的字段除了分类字段以外还包含了其他字段,那么query将把多余的字段自动作为分类字段。
2、“响当当”网上书店的管理人员想了解最近2年中那位作者的书是最畅销,请你设计一个查询找到相关作者。
答:查询近两年的总订购量。
实验二 企业销售数据的分类汇总分析
实验2-1 North wind公司客户特征分析
实验类型:验证性
实验学时:2 实验目的:
• 理解数据分类汇总在企业中的作用与意义; • 掌握数据透视表工具的基本分类汇总功能;
• 掌握建立分类汇总数据排行榜、生成时间序列、绘制praetor曲线图、计算各地区客户分布、统计各地区客户的平均销售额和大宗销售时间序列的方法和步骤。
实验步骤:
一、汇总客户销售额排行榜 为了汇总客户销售额的排行榜,首先要获得客户每笔销售的销售额、所购买产品的类别以及销售发生的时间,然后再利用数据透视表工具将销售额按照客户名称、产品类别和销售时间加以汇总。
步骤1:获取各客户每笔销售的销售额、销售产品的类别和时间。
在一张空白的工作表中,选择菜单“数据”→“数据透视表和数据透视图” →“外部数据源”,单击“获取数据按钮”,随后启动了Microsoft Query,选择所建立的连接到Northwind.mdb数据库的ODBC数据源——“NW”,并选择“确定”,选择“客户”表中的的“公司名称”、“订单”表中的“订购日期”、以及“类别”表中“类别名称”,随后Query弹出窗口“„查询向导‟无法继续,因为该表格无法链接到您的查询中。您必须在Microsoft Query 中的表格之间拖动字段,人工链接。”这是因为类别表无法同订单表建立联系。单击“确定”。
要查询销售额,需要在Query中首先增加“订单明细”表,利用其中的“单价”、“数量”与“折扣”字段中的数据,才能计算销售额。在数据窗格中,在一个空白字段的名称处输入公式:“订单明细.单价*数量*(1-折扣)”。键入回车后就可以计算出销售额。见图2-7。
随后,将“产品”表也添加到查询中,虽然查询结果中并不包括任何“产品”表中的字段,但是该表的能够建立“类别”表与“订单明细”表之间的联系(“订单明细”表指明所订购产品的ID,“产品”表指明该产品属于哪一个类别)。此时,查询中的表都建立了正确的联系,并在查询结果中包括了汇总所需要的数据。如图2-7。
图2-7 查询各客户每笔销售的销售额、销售产品的类别和时间
将计算销售额的字段的列标命名为“销售额”。选择Query菜单中的“文件”→“将数据返回Microsoft Office Excel”,此时Query已经关闭,我们的操作对象回到了Excel,单击“下一步”,指定位置在“现有工作表”,单元格A3,单击完成。
步骤2:汇总客户销售额排行榜,并排序。
此时,在工作表的区域A1:G16的位置,出现了数据透视表的框架,数据透视表的浮动工具栏和数据透视表的字段列表。
为了能对销售的时间——“订购日期”进行组合以获得各年的销售额,首先将“订购日期”拖至行域,将“销售额”拖至数据域,“类别名称”拖至列域,得到如图2-8所示的数据透视表。
图2-8 按订购日期与类别汇总销售额
为了能将销售额按照汇总,将光标停留在“订购日期”下方的任何单元格,右击鼠标,选择“组合及显示明细数据”→“组合”,选择组合的步长为年。
然后将单元格A4当中的字段名称“订购日期”改为“订购年”,将它推至页域,将字段列表中的“公司名称”拖到行域,让透视表按照列总计,从大到小排列,就得到了如图2-9所示的数据透视表。它能够反映了三年或者各,各个客户的销售额的大小,以及排列名词的先后,还能够观察到各客户订购的产品类别和该类别的销售额。
图2-9 按照订购年、客户公司名称、类别名称汇总的销售额排行榜
二、汇总前三大客户各月销售额,并绘制图形
在前一部分实验的基础上,选择前三个最重要的客户,进一步观察购买情况,他们购买情况的变化将对公司整体销售业绩产生很大影响。所以,将前三大客户的销售数据加以展开,按月显示其销售的变化。
步骤1:将实验要求1所汇总的数据透视表复制到新的工作表。步骤2:利用数据透视表,汇总前三大客户的销售额时间序列。
按照实验要求1汇总的数据透视表,反映出“高上补习班、正人资源、大钰贸易”是公司的前三大客户。点开“公司名称”字段,选中这三个公司名称,并拖到列域。
将列域的字段“类别名称”拖出数据透视表。将页域的字段“订购年”旋转到行域,将其重新组合。选择组合的步长为“月”和“年”,把字段名称修改为“订购年”与“订购月”。光标停留在数据表中任何单元格,右击鼠标,选择“表格选项”,将“对于空数据项显示”设置为“0”,即当该单元格汇总出的数据值为空时,在数据透视表中将其显示为0。此时得到的前三大客户销售额时间序列见图2-10。
图2-10 Northwind公司前三大客户销售额时间序列
步骤3:绘制前三大客户销售额时间序列图。
光标停留在数据透视表中,选择菜单“插入”→“图表”,在当前工作簿自动插入一张图表。选择菜单“图表”→“位置”,将该图表调整到与数据透视表位于同一张工作表。选择菜单“图表”→“图表类型”,选择“折线图”→“数据点折线图”。随后,再对该图的大小、外观以及数据系列的格式加以调整,就能得到Northwind公司前三大客户销售额时间序列图,如图2-1所示。
三、绘制按照客户汇总的客户数与销售额帕累托曲线
步骤1:查询“订购日期”、客户的“公司名称”与“销售额”等数据。
在Excel的空白工作表中,选择菜单“数据”→“数据透视表与数据透视图” →“外部数据源”→“获取数据”,利用Microsoft Query,从“订单”表、“订单明细”表与“客户”表中查询 “订购日期”、客户的“公司名称”与“销售额”(销售额=订单明细.单价*数量*(1-折扣))等字段,将所查询数据返回Excel。
步骤2:利用查询的数据,制作数据透视表。
从数据透视表的字段列表中,选择“订购日期”,拖至行域,将“销售额”拖至数据域。将“订购日期”字段按年组合,然后拖至页域,将“公司名称”拖至行域,按照销售额从大到小的顺序排列,得到按照和客户公司名称汇总的数据透视表,如图2-11。
图2-11 Northwind公司按照汇总的各客户销售额
步骤3:利用数据透视表的数据,计算客户数累计百分比与客户销售额累计百分比,绘制帕累托曲线。
在区域D4:G4依次输入说明文字,“公司名称”、“ 客户百分比”、“ 客户数累计百分比 ”、“销售额累积百分比”。按照图2-12输入公式,得到如图2-13所示的汇总数据。
图2-12 Northwind公司按照汇总客户数累计百分比和销售额累计百分比公式
图2-13 Northwind公司按照汇总客户数累计百分比和销售额累计百分比
区域F5:F93汇总累计的客户数,即到该客户为止,已有客户数占到总客户数的百分比。区域G5:G93汇总了到该客户为止,已有客户实现的销售额占总销售额的百分比。
选中区域F4:G93的数据,绘制无数据点散点图,得到如图2-14所示图形。
图2-14 客户数与销售额的帕累托初步曲线
步骤4:在曲线上添加代表20%客户数的垂直参考线。在I5:I7单元格输入“20%”,在J5与J7单元格输入“0”和“120%”,在J6单元格输入公式:“=INDEX(G5:G93,MATCH(I5,F5:F93,1),1)”,即从客户数累计百分比中,查找到20%的客户数在
图2-15 Northwind公司客户数与销售额帕累托曲线垂直参考线数据
最后公司客户销售额与客户数parato曲线呈现如图所示:
图2-2 公司客户销售额与客户数parato曲线
四、绘制按照订单汇总的销售额与销售次数帕累托曲线 步骤1:查询“订购日期”、“订单ID”与“销售额”等数据。
在Excel的空白工作表中,选择菜单“数据”→“数据透视表与数据透视图” →“外部数据源”→“获取数据”,利用Microsoft Query,从“订单”表和“订单明细”表中查询 “订购日期”、“订单ID”与“销售额”(销售额=订单明细.单价*数量*(1-折扣))等字段,将查询数据返回Excel。
步骤2:利用查询的数据,制作数据透视表。
从数据透视表的字段列表中,选择“订购日期”,拖至行域,将“销售额”拖至数据域。将“订购日期”字段按年组合,拖至页域,将“订单ID”拖至行域,按照销售额从大到小的顺序排列,得到按照和订单ID汇总的数据透视表,如图2-16。
图2-16 Northwind公司按照汇总各订单销售额
步骤3:利用数据透视表的数据,计算客户数累计百分比与销售额累计百分比,绘制帕累托曲线。
在区域D4:G4依次输入说明文字,“销售次数百分比”、“ 销售次数累计百分比”、“ 销售额累计百分比 ”。按照图2-17输入公式,得到如图2-18所示的汇总数据。
图2-17 Northwind公司按照汇总客户数累计百分比和销售额累计百分比公式
图2-18 Northwind公司按照汇总客户数累计百分比和销售额累计百分比
区域E5:E834计算单次销售占总销售次数(即订单数)的百分比,区域F5:F834汇总累计销售次数占总销售次数的百分比,即到该订单为止,已有订单数占到总订单数的百分比。区域G5:G834汇总到该订单为止,已有订单实现的销售额占总销售额的百分比。
选中区域F4:G834的数据,绘制无数据点散点图,得到如图2-19图形。
图2-19 销售次数与销售额的帕累托初步曲线
步骤4:在曲线上添加代表20%客户数的垂直参考线。
在I5:I7单元格输入“20%”,在J5与J7单元格输入“0”和“120%”,在J6单元格输入公式:“=INDEX(G5:G834,MATCH(I5,F5:F G834,1),1)”,即从销售次数累计百分比中,查找20%的销售次数在
图2-3 norwthwind公司销售次数与销售额parato曲线
五、汇总各地区客户分布
步骤1:查询“公司名称”与“地区”字段等数据。
将Excel一张空白工作表命名为“5.各地区客户分布”。选择菜单“数据”→“数据透视表与数据透视图” →“外部数据源”→“获取数据”,利用Microsoft Query,从“客户”表中查询 “公司名称”与“地区”字段,然后将所查询的数据返回Excel。
步骤2:利用查询的数据,制作数据透视表。
从数据透视表的字段列表中,选择“地区”,拖至行域,选择“公司名称”,拖至数据域,得到按照地区汇总的客户数的数据透视表,如图2-20。
图2-20 按照地区汇总客户数的数据透视表
步骤3:利用数据透视表的数据,制作数据透视图。光标停留在数据透视表中,选择菜单“插入”→“图表”,在新建工作表中建立数据透视图,改变该图表位置,将其调整到“5.各地区客户分布”工作表中,得到了如图2-4所示的图形。
图2-4 公司各地区客户的分布
六、绘制各地区平均销售额及销售额占总销售额百分比 步骤1:查询“地区”与“销售额”等数据。
在Excel的空白工作表中,选择菜单“数据”→“数据透视表与数据透视图” →“外部数据源”→“获取数据”,利用Microsoft Query,选择数据源,从“客户”、和“订单明细”表中,查询客户的“地区”与“销售额”(销售额=订单明细.单价*数量*(1-折扣))等字段,将查询数据返回Excel。查询时应包括“订单”表,该表能建立 “客户”表和“订单明细”表之间的联系。
步骤2:利用查询的数据,制作数据透视表。
从数据透视表的字段列表中,选择“地区”,拖至行域,将“销售额”拖至数据域,得到按照地区汇总的销售额的数据透视表,如图2-21。
图2-21 Northwind公司按照地区汇总的销售额
步骤3:利用数据透视表的数据,计算各地区平均销售额与销售额占总销售额的百分比。在区域D4:G4依次输入说明文字:“地区”、“ 客户数 ”、“平均销售额”与“ 销售额占总额百分比”。按照图2-22输入公式,得到如图2-23所示的汇总数据。
图2-22 Northwind公司按照地区汇总平均销售额、销售额占总销售额百分比公式
图2-23 Northwind公司按照地区汇总平均销售额、销售额占总销售额百分比
区域E5:E10存放各地区的客户数,区域F5:F10计算各地区平均销售额,区域G5:G10计算各地区销售额占总销售额的百分比。利用区域D5:D10与区域F5:G10中的数据,绘制柱型图。由于一个数据系列是平均销售额,一个数据系列是百分比,两个系列数值相差悬殊,所以在图2-24中,只能观察到一个数据系列的柱型,另一个系列的柱型贴近“0”,无法观察到。选中代表百分比的系列(选中平均销售额的系列,移动上下箭头,直到选中代表百分比的系列),选择菜单“格式”→“数据系列格式” →“坐标轴”→“次坐标轴”,将代表百分比的系列对应到次坐标轴。
图2-24 Northwind公司按照地区汇总平均销售额、销售额占总销售额百分比图
观察该图形,可以发现 “华东”与“西南”地区,客户的平均销售额比其他地区高,说明这两个地区大客户的销售情况比较好。华北地区虽然销售额占总销售额的百分比最高,是Northwind公司最重要的市场,但该地区大客户的销售情况并不理想,平均销售额并不高。今后该地区应更注重改善大客户销售情况。
七、绘制大宗销售的销售额时间序列。
步骤1:查询“公司名称 ”、“订单ID”、“ 订购日期”与“ 销售额”等数据。
将Excel的空白工作表命名为“7.大宗销售数据”,选择菜单“数据”→“获取外部数据” →“外部数据源”→“获取数据”,利用Microsoft Query,从“客户”表、“订单”表和“订单明细”表中,查询“公司名称 ”、“订单ID”、“ 订购日期”与“ 销售额”(销售额=订单明细.单价*数量*(1-折扣))等字段,将查询数据返回Excel,存放在区域A1:D831。
步骤2:挑选出销售额超过2000元的订单。
在区域F1:F2,按照图2-25,输入筛选的条件。利用Excel高级筛选功能,挑选出满足条件的记录,存放在区域H1:K186中。
图2-25 Northwind公司2000元以上销售额的订单的销售情况
步骤3:利用挑选出的订单,制作数据透视表。利用区域H1:K186中的数据,制作数据透视表。从数据透视表的字段列表中,选择“订购日期”,拖至行域,将“销售额”拖至数据域,将“订购日期”字段按年组合,然后拖至页域,将“公司名称”拖至页域,规定行域字段必须“显示空数据项”,得到如图2-26所示的数据透视表。
图2-26 Northwind公司大宗销售的时间序列数据透视表
步骤4:绘制大宗销售的时间序列图形。
为了让图形能够正确反映销售情况,去掉没有发生销售的时间点,如96年1月到96年6月,我们在数据透视表外面,另准备作图数据。按照图2-27,在区域E12:E33输入从96年7月到98年4月的时间(98年5月数据不完整,故不包括在时间序列内),在单元格F12输入公式:“=C12”,并复制到区域F13:F33。
图2-27 Northwind公司大宗销售的时间序列作图数据
利用区域E11:F33中的数据,制作折线图,将图表X轴的类型改为分类轴。“公司名称”选择“全部”,在图形上尝试添加恰当的趋势线,显示趋势线的方程与R2,并前推两个周期,得到的时间序列图形如图2-28。从该图形上,可以大致了解大宗销售的变化趋势,对未来的情况做初步估计。
图2-28 Northwind公司大宗销售的时间序列图
实验小结:
数据透视表分类汇总的两种方法:
1、先将数据导入Excel成为数据清单,利用数据透视表汇总对数据清单进行汇总
2、利用数据透视表直接从数据库中查询、并汇总数据。数据透视表功能,使用最方便,可以把汇总表“旋转”,从不同的“角度”查看数据,还可以筛选数据、合并数据、展开详细数据、或者选择部分数据加以查看。
实验思考:
1、你还能从哪些方面对客户的销售数据进行分析,帮助该公司促进销售或者为客户提供更好的服务?
答:使用Northwind公司的销售数据,生成净销售额时间序列,创建可以调节的产品列表框,并绘制特定产品销售金额时间序列的图形。观测每种产品在不同年份不同月份的销售情况,对下阶段的销售做出预测。
2、帕累托曲线可以帮助分析投入与产出之间的关系,它还能帮助该公司进哪些方面的分析?
答:①带来80%利润的20%的顾客在哪里,并且留住他们。②销售量达80%的20%产品是哪些,找出来好好包装开发。③销售量达80%的20%城市在哪里,并且维护好。
实验三 餐饮公司经营数据时间序列预测
实验3-1 “美食佳”公司半成品年销售量预测
实验类型:验证性
实验学时:2 实验目的: • 理解数平滑预测法的概念;
• 掌握在excel中建立指数平滑预测模型的方法; • 掌握寻找最优平滑常数的各种方法。
实验步骤:
一、运用“数据分析”工具进行指数平滑预测 步骤1:确定时间序列的类型。
如图3-1所示在单元格a1:b21中布置好公司从1987-2006年的销售量数据。然后,绘制公司从1987年至2006年共20年的销售量折线图,结果如图3-2所示,既没有趋势成分也没有季节成分,呈现出的是围绕一个水平上下波动的时间序列,说明适合用指数平滑法或移动平均法进行预测。本实验的数据是数据,建议采用指数平滑预测法。
图3-1 公司从1987-2006年的销售量数据
图3-2 公司从1987-2006年的销售量折线图
步骤2:利用“数据分析”工具中的指数平滑功能进行预测。
在“工具”菜单中选择“加载宏”,在随后弹出的“加载宏”对话框中选择“分析工具库”,然后单击“确定”按钮,将会在“工具”菜单下出现“数据分析”选项。在“工具”菜单中选择“数据分析”,在出现的“数据分析”对话框中选择“指数平滑”,出现如图3-3所示的对话框。
图3-3 指数平滑分析的参数设置
在“指数平滑”对话框中,在“输入区域”输入“b2:b21”单元格,“阻尼系数”输入“0.75”(注:阻尼系数=1-平滑常数),在“输出区域”输入“c2”单元格,单击“确定”按钮,将会看到如图3-4中单元格c2:c21的输出结果。
将单元格c21往下复制,便得到2007年的指数平滑预测值7.96。
图3-4 指数平滑预测结果
二、运用指数平滑公式进行预测 步骤1:利用公式
计算指数平滑预测值。
如图3-5,在单元格f1中输入平滑常数0.25,在单元格c2中输入公式:“=b2”,作为
三、寻找最优的平滑常数 步骤1:计算均方误差。
如图3-5在单元格f2中输入公式:“=average((b2:b21-c2:c21)^2)”,作为数组运算,需要同时按Ctrl+Shift+Enter三个键作为输入结束,计算均方误差MSE。步骤2:利用模拟运算表及查找引用函数功能,寻找最优平滑常数。
如图3-7在单元格e7:e24中给出不同的平滑常数(大于0小于1),在单元格f6中输入公式:“=f2”,选定单元格e6:f24,在“数据”菜单中选择“模拟运算表”,在弹出的对话框中做如图3-8所示的参数设置,利用一维模拟运算表功能计算不同平滑常数下的mse值,见图3-7结果。
图3-7 模拟运算表辅助查找最优平滑常数
图3-8 模拟运算表对话框参数设置
在单元格f4中输入公式:“=index(e7:e24,match(min(f7:f24),f7:f24,0))”,找到最优平滑常数为0.35。然后,根据最优平滑常数0.35(将此值代入单元格f1中),2007年的预测值为7.94。
步骤3:利用规划求解功能,寻找最优平滑常数。规划求解工具是一个从函数值所要达到的目标出发,反过来确定为达到这个目标,各自变量应取什么值的工具。
在“工具”菜单中选择“规划求解”,在弹出的对话框中做如图3-9所示的参数设置,然后单击“求解”按钮,得到如图3-10所示的规划求解结果,其中可变单元格f2中显示最优平滑常数为0.37。根据最优平滑常数0.37,2007年的预测值为7.93。
图3-9 规划求解参数设置
图3-10 规划求解的结果
以上两种方法所寻找到的平滑常数都是基于实际销售量与预测销售量的均方误差极小,从理论上证明了所获得的平滑常数是最优的。
实验思考:
1.为什么用模拟运算表加查找引用函数功能,得到的最优平滑常数(0.35),与用规划求解功能得到的结果(0.37)不一样?
答:用模拟运算表加查找引用函数功能得到的最优平滑常数(0.35)是根据设定的间隔求解,结果不是很准确。而规划求解功能得到的结果(0.37)是精确结果。
2.可否调整模拟运算表的输入数据间隔,再试一试,结果会如何?
答:在实验3-1中,调整模拟运算表的输入数据间隔,其结果不变。因为模拟运算表只是将数据代入变量中来求得对应的值,所得到的值与数据的间隔无关。
实验3-2 “美食佳”公司月管理费预测
实验目的:
• 理解移动平均预测法的概念;
• 掌握在excel中建立移动平均模型的方法; • 掌握寻找最优移动平均跨度的各种方法。
实验步骤:
一、运用“数据分析”工具进行移动平均预测 步骤1:确定时间序列的类型。
如图3-11所示在单元格a1:c19中布置好公司从2006年1月至2007年6月的数据。
绘制公司从2006年1月至2007年6月共18个月的管理费用折线图,结果如图3-12所示,既没有趋势成分也没有季节成分,呈现出的是围绕一个水平上下波动的时间序列,说明适合用指数平滑法或移动平均法进行预测。本实验的数据是月度数据,建议采用移动平均预测法。
图3-11 公司从2006年1月至2007年6月的管理费数据
图3-12 公司从2006年1月至2007年6月的管理费用折线图
步骤2:利用“数据分析”工具的移动平均功能进行预测。在“工具”菜单中选择“数据分析”,在出现的“数据分析”对话框中选择“移动平均”,出现如图3-13所示的对话框。
在“移动平均”对话框中,在“输入区域”输入“c2:c19”单元格,“间隔”输入“3”(注:移动平均跨度为3),在“输出区域”输入“d3”单元格,单击“确定”按钮,将会看到如图3-14中单元格d5:d20的输出结果。
如单元格d20所示,2007年7月公司管理费用的移动平均预测值为20.3万元。
图3-13 移动平均对话框参数设置
图3-14 移动平均预测结果
二、运用移动平均公式进行预测
步骤1:利用average()函数计算移动平均预测值。
如图3-15,在单元格g1中输入移动平均跨度3,在单元格d5中输入移动平均模型预测公式:“=average(c2:c4)”。
将单元格d5往下复制,便得到2007年7月的移动平均预测值20.3。
图3-15平均值函数的计算结果
步骤2:绘制移动平均预测图。
利用单元格c2:d20中的数据绘制如图3-16所示的公司18个月的管理费用及移动平均预测图。
图3-16 公司18个月的管理费用及移动平均预测图
通过以上实验能够检验,运用“数据分析”工具和移动平均公式进行移动平均预测的预测结果是一致的。“美食佳”公司2007年7月的管理费移动平均预测值为20.3,此预测结果是基于移动平均跨度为3个月所获得的。对没有先期经验的人来说,怎样选择移动平均跨度呢?又怎么判断所选的移动平均跨度是最优的呢?下面的实验步骤将指导我们掌握寻找最优移动平均跨度的不同方法。
三、寻找最优的移动平均跨度 步骤1:计算均方误差。
此处用到两个函数:sumxmy2()函数和count()函数。sumxmy2()函数的功能是返回两数组中对应数值之差的平方和,它需要两个参数,一个参数是 图3-18结果。
图3-18模拟运算表辅助查找最优移动平均跨度
图3-19 模拟运算表参数设置
在单元格g4中输入公式:“=index(f7:f15,match(min(g7:g15),g7:g15,0))”,找到最优移动平均跨度为5。根据最优移动平均跨度5(将此值代入单元格g1中),2007年7月的预测值为20.2。
实验思考
1.可否利用规划求解功能,寻找最优的移动平均跨度?
答:在实验3-2中,无法利用规划求解功能寻找最优的移动平均刻度。因为求MSE所用的公式为“=SUMXMY2(C2:C19,D2:D19)/COUNT(D2:D19)”与移动平均刻度值所在的G1单元格无直接联系。
2.excel提供的移动平均趋势线功能也可进行移动平均预测,但趋势线方法与本实验所介绍的方法有何不同?
答:Excel提供的移动平均趋势线方法与本实验所介绍的方法与本实验所介绍方法的区别在于趋势线的作用是对已知的一堆数据作回归分析,以找到一个可以直接计算的方程式并对其他任意未经测量的数值进行计算。趋势线方法考虑了大量可能的结果。
实验3-3 “美食佳”华东分公司销售额趋势预测 实验类型:验证性
实验学时:2 实验目的:
• 理解趋势预测法的概念;
• 掌握在excel中建立线性趋势预测模型的方法; • 掌握寻找线性趋势模型参数的各种方法; • 掌握线性趋势值预测的不同方法。
实验步骤:
步骤1:确定时间序列的类型。
如图3-20所示在单元格a1:c12中布置好华东分公司从1996年至2006年的销售额数据。绘制华东分公司从1996年至2006年共11年的销售额折线图,结果如图3-21所示,具有较明显的线性趋势成分,呈上升趋势,说明适合用线性趋势法进行预测。
图3-20 华东分公司从1996年至2006年的销售额数据
图3-21 华东分公司从1996年至2006年的销售额折线图
步骤2:添加线性趋势线。
如图3-22所示,在图中选中数据系列,右键菜单中选择“添加趋势线”,出现“添加趋势线”对话框。
如图3-23所示,在“添加趋势线”对话框的“类型”中选择“线性”。
如图3-24所示,在“添加趋势线”对话框的“选项”中选择“显示公式”和“显示r平方值”,得到如图3-25的结果。
图3-22 选用添加趋势线功能
图3-23 添加趋势线对话框
图3-24 添加趋势线的选项对话框
图3-25 华东分公司销售额与和线性趋势线
步骤3:用趋势线前推法大致预测线性趋势值。
选定线性趋势线,右键菜单中选择“趋势线格式”,出现如图3-26的“趋势线格式”对话框。
如图3-26所示,在“趋势线格式”对话框中选定“选项”,将趋势预测前推1周期,得到如图3-27所示的大致预测结果。
由图3-27中的趋势线可见,公司2007年的销售额预测值约为1000万元。
图3-26 趋势预测前推1周期设置
图3-27 趋势预测前推1周期的大致预测结果
步骤4:用方程或函数准确预测线性趋势值。
根据得到的线性趋势方程公式y=11.473x+861.98,如图3-28所示,在单元格c13中输入公式:“=11.473*a13+861.98”,即将x=12(2007年为
图3-29 带预测点的销售额线性趋势预测图
实验思考
1.本实验的几张图中,x轴是“分类”还是“自动”? 答:本实验(实验3-3)中,X轴是自动。
2.预测点数据如果作为新数据系列添加到图形中,结果与图3-29有何不同?
答:实验3-3中,预测点数据如果作为新数据系列添加到图形中,结果与图3-29相比,预测部分的值将是一条直线。
3.为什么预测值一定在趋势线的延伸线上?
答:预测值一定在趋势线上的原因是预测值是依据趋势线作出来的。4.若要预测公司2008年的全国销售额,可以怎么做?若要预测公司2009年、2010年、甚至更远年份的销售额,会有什么问题?
答:若要预测2008年的全国销售额,可依据2007年的预测值来作。但若要预测更远年份的销售额,则不能以之为基础由趋势线函数进行预测,因为彼时销售额呈线性增长,与客观事实不符。
5.除了本实验中介绍的添加趋势线方法可以找到线性趋势预测模型的参数外,还可以用哪些方法找到线性趋势预测模型y=a+bx中的参数 a和b。
答:还可用回归方法找到Y=a+bX中参数a,b的值。
实验3-4 “美食佳”公司会员卡发行量趋势预测
实验类型:验证性
实验学时:2 实验目的:
• 理解非线性趋势预测法的概念;
• 掌握在excel中建立非线性趋势预测模型的方法; • 掌握非线性趋势值预测的方法。
预测公司2007年7月会员卡的发行量。
实验步骤:
步骤1:确定时间序列的类型。
如图3-30所示在单元格a1:c15中布置好公司从2006年5月至2007年6月的会员卡发行数据。
绘制公司从2006年5月至2007年6月共14个月的会员卡发行量的折线图,结果如图3-31所示,具有较明显的非线性趋势成分,说明适合用非线性趋势法进行预测。从曲线的形状看,它先上升较快后上升较慢,符合对数曲线的特征,因此我们可以选用对数趋势模型进行预测。
图3-30 2006年5月至2007年6月会员卡发行量数据
图3-31 2006年5月至2007年6月会员卡发行量的折线图
步骤2:添加非线性趋势线。
如图3-32所示,在图中选中数据系列,右键菜单中选择“添加趋势线”,出现“添加趋势线”对话框。
如图3-33所示,在“添加趋势线”对话框的“类型”中选择“对数”。
如图3-34所示,在“添加趋势线”对话框的“选项”中选中“显示公式”和“显示r平方值”,得到如图3-35的结果。
图3-32 选择添加趋势线功能
图3-33 添加趋势线对话框
图3-34 添加趋势线选项对话框
图3-35 2006年5月至2007年6月会员卡发行量和对数趋势线
步骤3:趋势线前推法大致预测非线性趋势值。
选定对数趋势线,右键菜单中选择“趋势线格式”,出现如图3-36的“趋势线格式”对话框。
如图3-36所示,在“趋势线格式”对话框中选定“选项”,将趋势预测前推1周期,得到如图3-37所示的大致预测结果。
由图3-37中的趋势线可见,公司2007年7月的会员卡发行量预测值约为25万张。
图3-36 趋势预测前推1周期设置
图3-37 趋势预测前推1周期的大致预测结果
步骤4:用方程或函数准确预测非线性趋势值。根据得到的方程公式y=7.7785ln(x)+3.7651,如图3-38所示,在单元格c16中输入公式:“=7.7785*ln(a16)+3.7651”,即将x=15(2007年7月为 规划求解法找到对数趋势预测模型y=a+bln(x)中的参数a和b?
答:还可用回归方法找到Y=a+bX中参数a,b的值。
实验3-5 “美食佳”火锅连锁店原料采购成本预测 实验目的:
• 理解季节指数的概念; • 掌握季节指数预测方法。
实验步骤:
步骤1:确定时间序列的类型。
如图3-40所示在单元格a1:c17中布置好公司从2003年
图3-42 4年同期的原材料采购成本折线图
步骤2:计算季节指数。
一年有4个季度,所以以4为移动平均跨度,计算移动平均数,其结果应该对应放在每4个季度的中间位置。但当移动平均跨度为4时,没有中间季度位置可放,因此只能放在
图3-44 中心化后的原材料采购成本移动平均数
平均季节指数应等于1,因此4个季度的季节指数总和必须等于4。如果不满足这一点,则应对季节指数进行调整。方法是用每一个季节指数除以未调整的季节指数之
和再乘以季度指数总和4。如图3-43中单元格i6所示,未调整前的季节指数之和为3.9852,所以需要调整。在单元格j2中输入公式:“=i2/$i$6*4”,往下复制到j3:j5,得到调整后的季节指数。
步骤3: 消除季节影响。
如图3-45所示,将调整后的季节指数复制到E列,分别对应2003-2007年的4个季度。
图3-45 消除季节影响后的原材料采购成本
在单元格F2中输入公式:“=D2/E2”,将公式复制到单元格F3:F17中,得到消除季节影响后的结果。
利用单元格F2:F17中的数据绘制公司从2003年 图3-46 消除季节影响后的原材料采购成本及趋势线
步骤4:计算预测值。
如图3-47中G列所示,利用FORECAST()函数计算线性趋势预测值。
图3-47 趋势预测值和季节预测值的计算
在单元格H2中输入公式:“=G2*E2”,将公式复制到单元格H3:H21中,即在线性趋势预测值的基础上乘以调整后的季节指数得到最终的季节预测值。公司2007年1至4季度的采购成本预测值分别为73.0、20.9、13.8、154.9。
根据D列的原始采购成本数据和H列的季度预测值数据,作折线图,结果如图3-48所示。
图3-48 2003-2004年原材料采购成本及2007年4个季度的原材料采购成本预测值
实验思考
1.图3-47中的“序号”一列有什么用?
答:图3-47中“序号”一列的作用是为趋势线公式的获得提供依据(作为自变量X)。2.计算趋势预测值时,若不用forcast()函数,还可以有什么方法?请至少用两种方法试试看。
答:计算趋势预测值还可用移动平均预测法、指数平滑预测法、一元线性回归分析模型等。
3.季节指数模型是否只能用于季节数据的预测?若是、月度、甚至周数据,可以用季节指数模型吗?
答:季节指数模型不是只能用于季节数据的预测,、月度、周数据等在某些情况下均能用季节指数模型。
实验总结: 此次实验中学习了指数平滑预测法、移动平均预测法、趋势预测法、非线性趋势预测法、季节指数的概念,计算趋势预测值还可用移动平均预测法、指数平滑预测法、一元线性回归分析模型等。实验不难,关键要会分析和辨别使用何种分析方法。
实验四 住房建筑许可证数量的回归分析
实验4-1 “家家有房”公司建筑许可证一元线性回归分析
实验目的
• 理解一元线性回归分析的概念;
• 针对不同的问题,能够建立适当的一元线性回归模型; • 掌握内建函数slope()、intercept()与linest()的用法;
• 掌握用规划求解法、添加线性趋势线法、回归分析报告法确定线性回归方程的系数; • 给定自变量的情况下,根据线性回归模型预测因变量的值。
实验步骤:
步骤1:确定因变量与自变量并输入观测值。
根据实验要求,我们确定因变量为建筑许可证的颁发数量,自变量为人口密度,并将数据合理的布置在excel工作表的单元格a1:b19中,以备建模使用。
步骤2:绘制因变量与自变量关系散点图。
利用工作表的数据,以每平方公里的人口密度为x值,建筑许可证的颁发数量为y值,绘制xy散点图,如图4-1所示。从这个散点图可以看出每平方公里的人口密度与建筑许可证的颁发数量之间存在着大体上的线性依赖关系。
图4-1建筑许可证的颁发数量与每平方公里的人口密度散点图
步骤3:求出回归系数a、b的取值,计算判定系数R2,并进行预测。
excel提供了几种不同的工具,包括规划求解工具,intercept()、slope()与linest()等内建函数,在散点图中添加趋势线和趋势线方程以及生成回归分析报告等方法来确定回归系数a和b。我们这里介绍利用规划求解的方法来求解回归系数。
步骤4:假定回归系数的值,建立线性回归模型。
假定回归系数的值为a=1,b=1并将之放在单元格f2:f3中。用回归直线方程y=a+bx以及每平方公里的人口密度来计算建筑许可证的颁发数量预测值,放在单元格c2中,即在单元c2中输入公式“=$f$2+$f$3*a2”,并将此公式复制到c3:c19中,得到建筑许可证的颁发
数量预测值。在单元格f5中计算建筑许可证的颁发数量观测值与预测值的均方误差mse,即在单元格f5中输入公式“{=average((c2:c19-b2:b19)^2)}”(注:其中的花括号不是直接输入,是将所有内容输入完后按住ctrl+shift键后再按回车键生成的)。如图4-2所示:
图4-2 回归参数求解前的模型
步骤5:启动规划求解工具,确定模型最优参数。
在如图4-3的“规划求解参数”对话框中将目标单元格设为$f$5,使其等于最小值,将可变单元格设为$f$2:$f$3,无须设置任何约束条件即可直接求解,保存规划求解结果。注意规划求解受到迭代次数和精度的限制,本例需启用8次规划求解工具进行重复运算才能得到满意的精度,即
图4-4 回归参数求解后的模型
根据上述回归方程,如果任意给定人口密度(7000),即可预测出建筑许可证的颁发数量(14655.287),如图4-5所示。
实验思考
1.除了用规划求解的方法外,还可以哪些其它方法求出建筑许可证数量与每平方里人口密度之间关系的回归方程y=a+bx的系数,请用其它方法求得系数,并检验与实验4-1所获得的系数是否一致。
答:除用规划求解额方法外,还可以利用添加趋势线的方法获得回归方程Y=a+bX的系数。用规划求解方法获得的回归方程Y=a+bX的系数中a的值为-23900.10788,b的值为5.500026742;而用添加趋势线的方法获得的a的值为-23901,,b的值为5.5001,在误差允许的范围内,可认为他们的系数一致。
2.如果每平方公里的人口密度与建筑许可证数量之间是非线性关系,该如何选择非线性模型,并针对任意给定每平方公里的人口密度,预测建筑许可证的颁发数量。
答:若每平方公里的人口密度与建筑许可证数量之间是非线性关系,可利用添加趋势线的方法来进行检验,找出每一种可能的非线性模型的均方误差MSE,选择其中最小的一项作为最佳的非线性模型。然后根据非线性模型的公式,带入相应参数后即可预测建筑许可证的颁发数量。
3.根据拟合优度,进一步分析是否有其他非线性回归模型,更适合人口密度与建筑许可证数量的相关关系。
答:根据拟合优度对其他非线性回归模型进行分析,暂未找到更适合人口密度与建筑许可证数量的相关关系。
实验4-2 “家家有房”公司建筑许可证一元非线性回归分析
实验目的
• 理解一元非线性回归分析的概念;
• 针对不同的问题,能够建立适当的一元非线性回归模型;
• 掌握用规划求解法、添加非线性趋势线法、变换法确定非线性回归方程的系数; • 在给定自变量的情况下,根据非线性回归模型预测因变量的值。
实验步骤:
步骤1:确定因变量与自变量。
根据实验要求,我们确定因变量为建筑许可证的颁发数量,自变量为自由房屋的均值。并将数据合理的布置在excel工作表的单元格a1:b19中,以备建模使用。
步骤2:选择合适的回归方程。
利用步骤1中准备的数据画出散点图,如图4-5所示,通过散点图选择合适的拟合函数,建立含未知参数的方程。
图4-5 建筑许可证的颁发数量与自由房屋的均值散点图
仔细观察散点图,发现建筑许可证的颁发数量随着自由房屋的均值增大而增大,且随着自由房屋均值的增加建筑许可证的颁发数量增加的速度而放缓,这是对数曲线的特征,因此可以采用对数函数来进行拟合。即将建筑许可证的颁发数量(y)与自由房屋的均值(x)之间的关系表述为:
y= a + blnx 其中的参数a与b的值待定。
步骤3:假定回归系数的值,建立非线性回归模型。
假定回归系数的值为a=1,b=1并将之放在单元格f2:f3中。用回归对数方程y=a+blnx以及自由房屋均值来计算建筑许可证的颁发数量预测值,放在单元格c2中,即在单元c2中输入公式“=$f$2+$f$3*ln(a2)”,并将此公式复制到c3:c19中,得到建筑许可证的颁发数量预测值。在单元格f5中计算建筑许可证的颁发数量观测值与预测值的均方误差mse,即在单元格f5中输入公式“{=average((c2:c19-b2:b19)^2)}”(用ctrl+shift+enter组合键添加花括号)。如图4-6所示:
图4-6 回归参数求解前的模型 步骤4:确定参数a与b的值。
对于本例的问题,我们采用规划求解的方法来确定参数a与b的值,利用规划求解工具计算出使mse极小的参数a与b,规划求解对话框的设置如图4-7所示。
图4-7 规划求解对话框
然后点击“求解”按钮,可得如图4-8所示的结果。
图4-8 规划求解后的模型结果
步骤5:添加趋势线,显示R2值。
在图4-7的散点图中通过添加对数趋势线,并在添加趋势线对话框中的“选项”中选择“显示R2”与“显示公式”,如图4-9所示。我们发现R2达到0.9441,表明选择对数回归模型预测是可行的。同时我们也检验了趋势线方法与规划求解法所得到的回归方程系数是一样的。
图4-9 添加了对数趋势线
步骤6:进行预测。
根据对数回归方程,如果任意给定 自由房屋的均值,即可预测出建筑许可证的颁发数量。将x=300,预测出颁发的建筑许可证数量为-78874.08+16877.319*ln(300)=17390.4708,如图 4-8所示。
实验思考:
1、请将此问题转换为线性回归模型,求解模型的参数和R2值,并与规划求解法的结果进行比较。
答:若将此模型转换为线性回归模型,得到的模型为y=16877.34701Ln(X)-
79003.9859, MSE=2023817.464,与原模型中y=16878Ln(X)-78877,R²=0.9441,MSE=2006982.816相比,基本无差别。
实验4-3 “家家有房”公司建筑许可证多元线性回归分析 实验目的
• 理解多元线性回归分析的概念;
• 针对不同的问题,能够建立适当的多元线性回归模型; • 掌握运用向前增选法确定回归自变量;
• 在给定自变量的情况下,根据多元线性回归模型预测因变量的值。
实验步骤:
步骤1:输入原始数据。
首先分析案例中的自变量和因变量,并将数据合理的布置在excel工作表的a1:d19中,如图4-10所示,以备建模使用。
根据实验要求,我们确定因变量为建筑许可证的颁发数量(y),自变量为每平方公里的人口密度(x1)、自由房屋的均值(x2)与平均家庭收入(x3),假设多元线性模型为:y=a+b1*x1+b2*x2+b3*x3。
图4-10 人口密度、自由房屋均值、平均家庭收入与建筑许可证数量数据 步骤2:分别绘制三个候选自变量与因变量之间的关系图。
图4-11 建筑许可证数量与每平方公里人口密度的散点图
这个问题涉及到三个候选自变量,每平方公里的人口密度(x1)、自由房屋的均值(x2)与平均家庭收入(x3)。首先分别对每个候选自变量绘制与因变量建筑许可证的颁发数量关系的散点图,见图4-11—图4-13。
图4-12 建筑许可证数量与自由房屋的均值的散点图
图4-13建筑许可证数量与平均家庭收入的散点图
步骤3:针对每一个候选变量生成回归分析报告。
分别对这三个候选变量做回归分析报告,根据值,找出最优的变量。这里我们采用向前增选法,先给出建筑许可证的颁发数量与三个候选变量之间的回归分析报告,分别见图4-14和4-16。
图4-14 许可证数量与人口密度的回归分析报告
图4-15 许可证数量与自由房屋均值的回归分析报告
图4-16 许可证数量与平均家庭收入的回归分析报告
图4-17 建筑许可证数量与人口密度及平均家庭收入的回归分析报告
图4-18 建筑许可证数量与自由房屋均值及平均家庭收入回归分析报告
实验思考
1.在用回归分析报告求解参数时,自变量与因变量之间应该满足什么关系? 答:在用回归分析报告求解参数时,自变量与因变量之间应满足一个或多个自变量值对应一个应变量。
2.为什么实验结果只选用两元线性回归模型而不用三元线性回归模型进行建筑许可证数量的预测?
答:实验结果只选用两元线性回归模型二不用三元线性回归模型既高兴建筑许可证数量预测的原因是三元回归分析报告中自有房屋的均值X2的调整后的R²的值并未超过一元回归分析报告中对自有房屋的均值X2的调整后的R²的值,说明自有房屋的均值X2与建筑许可证数量的线性相关性不强,若它参与回归预测,将会影响预测结果。
3.在用多元线性回归时,如何确定候选变量,确定的依据是什么?
答:用多元线性回归时,可依据对某一自变量在组合前得到的调整后的R²的值与组合后得到的调整后的R²的值之间的大大小进行候选变量的确定。若组合后得到的调整后的R²的值超过组合前得到的调整后的R²的值,则确定其为候选变量
4.从实验4-2我们了解自有房屋的均值(x2)与建筑许可证数量是对数相关,如果我们用回归方程y=a+b1*x1+b2*lnx2+b3*x3来进行预测是否更精确?那么我们又怎样确定此方程的各项系数呢?
答:若用回归方程Y=a+b1*X1+b2*lnX2+b3*X3来进行预测,结果不一定会更精确。因为Y是受3个自变量的共同影响。可用多元非线性回归确定次方程的各项系数,因为线性回归是特殊的非线性回归。
实验4-4 “家家有房”公司建筑许可证多元非线性回归分析
实验目的
• 理解多元非线性回归分析的概念;
• 针对不同的问题,能够建立适当的多元非线性回归模型;
• 掌握用规划求解法、变换技术加回归分析报告法确定多元非线性回归方程的系数; • 在给定自变量的情况下,根据多元非线性回归模型预测因变量的值。
实验步骤:
步骤1:确定因变量与自变量。
根据实验要求,我们确定因变量为建筑许可证的颁发数量(y),因变量为平均家庭收入(x1)与人均交纳税收(x2),并将数据合理的布置在excel工作表中。
步骤2:确定模型并对模型初始化。
因为是非线性模型,而且是多元的,所以我们这里假设模型为y=a+b1*x1^2+b2*x2^2。在单元格h2:h4中分别放入参数a,b1,b2初值1,并在单元格d2中输入公式“=$h$2+ $h$3 *a2^2+$h$4*b2^2”,并将其复制到公式d3:d19中,在单元格h5中输入公式“=sumxmy2(d2:d19,c2:c19)/count(d2:d19)”。
步骤3:启用规划求解工具。
在“工具”菜单中选择“规划求解”,打开“规划求解”对话框,并在该对话框中做如
图4-19中设置,然后点击“求解”按钮,并将结果保存在图4-20中。
图4-19规划求解参数的设置
图4-20 规划求解后的模型结果
步骤4:根据获得的参数进行预测。
利用规划求解的结果,将参数a,b1,b2的值及平均家庭收入为80千元,人均交纳的税收为7千元代入模型y=a+b1*x1^2+b2*x2^2,可得建筑许可证的颁发数量预测值为11464.4。
步骤5:将非线性模型与线性模型结果比较。
将模型假设为线性模型y=a+b1*x1+b2*x2,并将参数放置在单元格h8:h11中,重复步骤2与步骤3,可以看到在线性模型求得的mse为1500179.183,比在非线性模型下求得的mse的值1158258.3大,因此在该实验中,用二元非线性模型要比用线性模型求解的结果要好些。
实验思考
1.如果要用回归分析报告求解多元非线性模型的参数,首先要做的工作是什么?怎么做?
答:若要用回归分析报告求解多元非线性模型的参数,首先要做的是确定因变量与自变量。并将数据合理地布置在Excel表中。
2.现王经理经过深入调查研究发现:建筑许可证的颁发数量既与每平方公里的人口密度有着密切的关系,也与自由房屋的均值有着密切的关系,此外还与平均家庭收入、人口增长百分比、失业率、人均交纳的税收等有着相关关系,并给出相关数据如表4-5,根据表4-5中所给的数据,想想用什么方法能够较快的找出合适的自变量建立多元回归分析模型,并以此预测建筑许可证的颁发数量。
答:可分别求出每一因素调整前的R²的值与调整后的R²作比较,再确定其是否影响显著,以此进行选择细分。
实验总结:
本次实验主要目的是理解数平滑预测法、移动平均预测法、趋势预测法、非线性趋势预测法、季节指数的概念;掌握在excel中建立指数平滑预测模型、移动平均模型、线性趋势预测模型、非线性趋势预测模型、季节指数预测的方法,掌握寻找最优平滑常数、最优移动平均跨度、线性趋势模型参数、线性趋势值预测的各种方法。
实验五 手机用户消费习惯聚类分析
实验目的
• 理解聚类分析的概念; • 理解聚类分析的原理;
• 掌握在SPSS中进行聚类分析的方法。
实验步骤: 为研究移动用户的手机消费习惯,现收集了反映移动用户手机使用情况的数据,该数据中包含7个变量:客户编号(Customer_ID)、工作日上班时期电话时长(Peak_mins)、工作日下班时期电话时长(OffPeak_mins)、周末电话时长(Weekend_mins)、国际电话时长(International_mins)、总通话时长(Total_mins)和平均每次通话时长(average_mins)。请用SPSS软件按除客户编号外的6个变量维度对移动用户进行细分。部分数据如图所示。
移动电话用户手机使用情况部分数据
本次实验采用迭代聚类方法进行数据分析。
1.数据的初步分析
选择菜单 打开SPSS文件 telco.sav→分析(Analyze)→描述统计(Descriptive Statistics)→描述(Descriptives…)选入变量 将除“Customer_ID”外的其余6个变量选入变量框(Variables)中
设置选项 打开Options按钮,勾选均值(Mean)、标准差(Std.deviation)、最小值(Minimum)、最大值(Maximum)四项
结果输出见下图。
上图显示6个变量数值差异较大,其中均值最大值为1064.3,最小值为4.1267,标准差的取值也从最小的3.804变化到最大的560.801。这种差异会影响聚类分析的结果。而要消除这种影响,需在聚类前对数据进行标准化处理。
2.标准化处理
在上一步弹出的“Descriptive”对话框中选择“Save standardized values as variables”,即将标准化值另存为变量,输出如下图。
标准化的目的是消除量纲和变异的影响。消除量纲影响,要扣减平均值;消除变异影响,要除以标准差。因此标准化数据等于某变量的观察值减去该变量的平均数,然后除以该变量的标准差。标准化后各变量的平均数为0,标准差为1,消除了量纲和变异的影响。如ID为K1000050的用户工作日上班时间通话时长(Peak_mins)标准化后的值,Peak_mins标准化=(观察值-均值)/标准差=(40.61-708.347)/515.258=-1.296。
3.聚类分析
选择菜单 打开SPSS文件 telco.sav→分析(Analyze)→分类(Classify)→K均值聚类(K-Means Cluster…)选择变量 选入上图中红框内的6个标准化数据变量
设置选项 主窗口设置选项如下图中的