第一篇:2012年统计用区划代码和城乡划分代码(截止2012年10月31日)
2012年统计用区划代码和城乡划分代码(截
止2012年10月31日)
140100000000 太原市
140109000000 万柏林区
140109003007 111 北二条社区居委会
140109003000 和平街道办事处
140100000000 太原市
140106000000 迎泽区
140106003000 庙前街道办事处
140106003004 111 南海街二社区居委会
第二篇:2010-06-02《统计用区划代码》和《统计用城乡划分代码》144107(写写帮推荐)
【发布单位】国家统计局
【发布文号】国家统计局令第14号
【发布日期】2010-06-02
【生效日期】2010-06-02
【失效日期】-----------
【所属类别】政策参考
【文件来源】国家统计局
《统计用区划代码》和《统计用城乡划分代码》
(中华人民共和国国家统计局令第14号)
《统计用区划代码》和《统计用城乡划分代码》已经2010年5月20日国家统计局第5次常务会议通过,现予公布,自公布之日起实施。
局长 马建堂
二〇一〇年六月二日
附件:2009年统计用区划代码和城乡划分代码(样稿)及说明
《统计用区划代码》《统计用城乡划分代码》
附件:2009年统计用区划代码和城乡划分代码(样稿)及说明.doc
2009年统计用区划代码(样稿)
统计用区划代码 区划名称
110000000000 北京市
110100000000 市辖区
110101000000 东城区
110101001000 东华门街道办事处
110101001001 多福巷社区居委会
110101001002 银闸社区居委会
110101001005 东厂社区居委会
110101001006 智德社区居委会
110101001007 南池子社区居委会
110101001008 黄图岗社区居委会
110101001009 灯市口社区居委会
110101001010 正义路社区居委会
110101001011 甘雨社区居委会
110101001013 台基厂社区居委会
110101001014 韶九社区居委会
110101001015 王府井社区居委会
110101002000 景山街道办事处
110101002001 隆福寺社区居委会
110101002002 吉祥社区居委会
110101002003 黄化门社区居委会
110101002004 钟鼓社区居委会
110101002005 魏家社区居委会
110101002006 汪芝麻社区居委会
110101002008 景山东街社区居委会
110101002009 皇城根北街社区居委会
110101003000 交道口街道办事处
110101003001 交东社区居委会
110101003002 福祥社区居委会
110101003003 大兴社区居委会
110101003005 府学社区居委会
110101003007 鼓楼苑社区居委会
110101003008 菊儿社区居委会
110101003009 南锣鼓巷社区居委会
110101004000 安定门街道办事处
110101004001 交北头条社区居委会
110101004002 北锣鼓巷社区居委会
110101004003 国子监社区居委会
110101004004 钟楼湾社区居委会
110101004005 宝钞南社区居委会
110101004006 五道营社区居委会
110101004009 分司厅社区居委会
(全部统计用区域代码见国家统计局信息网)
2009年统计用城乡划分代码(样稿)
统计用区划代码 城乡分类代码 区划名称
110000000000 000 北京市
110100000000 000 市辖区
110101000000 000 东城区
110101001000 000 东华门街道办事处
110101001001 111 多福巷社区居委会
110101001002 111 银闸社区居委会
110101001005 111 东厂社区居委会
110101001006 111 智德社区居委会
110101001007 111 南池子社区居委会
110101001008 111 黄图岗社区居委会
110101001009 111 灯市口社区居委会
110101001010 111 正义路社区居委会
110101001011 111 甘雨社区居委会
110101001013 111 台基厂社区居委会
110101001014 111 韶九社区居委会
110101001015 111 王府井社区居委会
110101002000 000 景山街道办事处
110101002001 111 隆福寺社区居委会
110101002002 111 吉祥社区居委会
110101002003 111 黄化门社区居委会
110101002004 111 钟鼓社区居委会
110101002005 111 魏家社区居委会
110101002006 111 汪芝麻社区居委会
110101002008 111 景山东街社区居委会
110101002009 111 皇城根北街社区居委会
110101003000 000 交道口街道办事处
110101003001 111 交东社区居委会
110101003002 111 福祥社区居委会
110101003003 111 大兴社区居委会
110101003005 111 府学社区居委会
110101003007 111 鼓楼苑社区居委会
110101003008 111 菊儿社区居委会
110101003009 111 南锣鼓巷社区居委会
110101004000 000 安定门街道办事处
110101004001 111 交北头条社区居委会
110101004002 111 北锣鼓巷社区居委会
110101004003 111 国子监社区居委会
110101004004 111 钟楼湾社区居委会
110101004005 111 宝钞南社区居委会
110101004006 111 五道营社区居委会
110101004009 111 分司厅社区居委会
(全部统计用城乡划分代码见国家统计局信息网)
《统计用区划代码》和《统计用城乡划分代码》说明
一、《统计用区划代码》和《统计用城乡划分代码》的范围
《统计用区划代码》和《统计用城乡划分代码》(以下简称:《区划和城乡代码》)规定了2009年我国乡、镇、街道及类似乡级单位,村民委员会、居民委员会及类似村级单位的统计用区划代码和城乡划分代码。
《区划和城乡代码》适用于各项统计调查、区划管理、城乡管理以及信息处理与交换。
二、《区划和城乡代码》编制所依据文件
本代码在编制过程中依据以下文件:
——国务院关于行政区划调整文件
——民政部关于行政区划调整文件
——县及县以上人民政府关于乡、村两级区域调整文件
——中华人民共和国行政区划代码(GB/T 2260-2007)
——统计用区划代码和城乡划分代码编制规则(国统字〔2009〕91号)
三、《区划和城乡代码》编制原则
《统计用区划代码》以《中华人民共和国行政区划代码》和《统计用区划代码和城乡划分代码编制规则》的有关规定为编制原则。
《统计用城乡划分代码》除采用《统计用区划代码》的编制原则外,还以县、乡两级人民政府驻地和村、居委会驻地的实际建设连接情况为划分城乡的依据。
四、《区划和城乡代码》的结构
(一)《统计用区划代码》的结构。
《统计用区划代码》的结构采用五层12位数字表示。按层次分别表示:省级(省、自治区、直辖市)、地级(地级市、地区)、县级(县、县级市、市辖区)、乡级(乡、镇、街道、类似乡级单位)、村级(村民委员会、居民委员会、类似村民委员会、类似居民委员会)。各层代码由左起表示:
1、2位表示省级码段3、4位表示地级码段5、6位表示县级码段
7~9位表示乡级码段
10~12位表示村级码段
(二)《统计用城乡划分代码》的结构。
《统计用城乡划分代码》由统计用区划代码和城乡分类代码两部分组成,共15位数字。左起1~12位表示统计用区划代码,13~15位表示城乡分类代码。城乡分类代码的结构为:
表示主城区
表示城乡结合区
表示镇中心区
表示镇乡结合区
表示特殊区域
210 表示乡中心区
220 表示村庄
城乡分类代码第13位为1,表示城镇;第13位为2,表示乡村。
第三篇:网站如何添加客服统计代码
本文由秀瘦网提供http://www.xiexiebang.com/
首先登入:http://www.xiexiebang.com/
登入后进后台
一般只要设置 账号管理、样式设置、获取代码。
1、样式我们是这样的
本文由秀瘦网提供http://www.xiexiebang.com/
2、账号设置
进入编辑是这样的
本文由秀瘦网提供http://www.xiexiebang.com/
3.最后就是复制代码
获取这代码后 黏贴到后台的统计代码就可以的我们一tugogo的为例
这样就OK 完工了,还有补充点: 代码加到后台后 要是在http://www.54kefu.net/设置您的账号样式这些的,会自动更新过来的。
第四篇:从行政区划代码管理现状简析城乡划分工作
从行政区划代码管理现状简析城乡划分工作
作者:阳辉萍文章来源:安仁统计局更新时间:2011-11-
4近年来,随着安仁县经济发展和城镇化进程的逐步加快,城乡间差别进一步缩小。县城扩容,撤、并等,安仁县行政区划建制不断发生变动,且变动较大。按照2001年底,建立的行政区划代码库情况,已不能适应我县目前统计工作的需要,更不能满足城乡划分工作的要求。按照国家、省市在2009年下发的开展城乡划分工作的文件通知要求,清理行政区划代码库,要求各地建立一套新的完整的行政区码代码库,加强规范管理,为开展城乡划分工作奠定基础。
一、行政区划代码库是一项重要的基础性工作
根据民政部门对行政建制的调整情况,统计部门对变动后的行政建制,依据编码规则,及时编码,而统计部门是最大的用户。行政区划代码作为统计工作中的一个基础标准,它的使用几乎贯穿了所有的统计调查(包括年报统计、定期报表、普查和专项调查等)、数据处理、信息发布和资料开发的全过程。其作用主要体现在以下几方面:
1、统计上使用的行政区划代码实际上是被调查单位(企业)所在行政区域的标识,是统计单位调查的一项重要指标。无论是基本单位普查还是各专业的调查单位的基本情况表都无一例外的地包含了这个指标,它同时也在数据填报、录入、上报、审核、汇总等多个环节起到重要作用。
2、行政区划代码是确定和划分调查范围的重要依据。人口普查、农业普查和经济普查等大型普查过程中所做的首要工作就是划分调查区和调查小区,并对其进行编码,而这个代码就是在行政区划代码的基础上形成的。是统计部门根据一定的编码规则赋予的。目前县以下统计用区划代码共有12位数字,分为三段。第一段为6位数字,表示县及县以上的行政区划;第二段为3位数字,表示街道、镇和乡;第三段为3位数字,表示居民委员会和村民委员会。为我们开展统计工作提供了更大方便,并在今后广泛应用抽样调查技术中,行政区划代码又是界定准确的样本群和抽样框,掌握城乡和村居委会情况的重要依据。
3、行政区划代码是反映区域经济的分类标准,同时又是推广数据联网直报的关键。行政区划代码可以精确定位到省、市、县、乡镇街道、村居民委会,运用行政区划代码进行相关资料开发,可以为各级政府领导研究区域经济,掌控经济发展提供很大的方便,不仅可以对历史资料进行纵向对比,也可跨省、市、县地域进行区域对比。统计数据的收集、录入、审核、上报、汇总、反馈等工作,都依赖于行政区划代码,特别是随着数据联网直报的广泛推广和应用,行政区划代码的关键作用更为突出。
4、行政区划代码是统计部门向政府和社会提供统计信息的得力助手。如果没有行政区划代码,我们就无法知道这些数据的地区来源,就无法与部门间信息交换,不能充分发挥统计信息的作用。
二、行政区划代码库管理的现状和做法
(一)县局行政区划代码库的建立维护、上报和发布已形成制度。根据国家、省关于对行政区划代码库管理规定等相关文件精神,我局从2004年起对安仁县行政区划代码的管理和使用进行了规范,并有专人负责,及时将全县行政区划代码库的管理、更新、维护实现制度化。
(二)县以下行政区划代码库维护和更新工作急待加强。因为缺乏历年代码变动情况的库管理资料,为了确保全县行政区划代码库的及时更新和维护,今年我们积极与县民政部门加强沟通和联系,了解和收集行政建制变动情况,利用计算机技术逐步建立和形成协调统一的全县行政区划代码库。具体做法是(1)加强沟通,及时更新。主动和县民政部门多联系,取得资料,将及时取得资料进行核对、汇总,做好代码更新准备工作。(2)加强培训,分级负责。对区划代码编制业务不熟的情况,组织开展各种形式培训学习,讲解编码规划,并按照编码规划要求,对取得区划变动资料及时编制和更新、上报。(3)逐步建立行政区划代码数据库。根据掌握的变动资料,定期对全县行政区划代码进行更新、维护、上报,逐步建立了代码数据库和相应的查询管理技术,要求在各项统计调查中使用统一的代码,我县还在内部信息网上建立了行政区划代码专栏,不仅满足了局内各专业的需要,也为我县其他部门和单位使用最新的行政区划代码提供了
方便。
三、行政区划代码库管理基础上开展城乡划分工作应注意的问题
1、随着行政区划的频繁变动,城镇化发展进程的不断加快,及时反映行政建制的变动情况,真实反映城镇化的实际水平,对于顺利地开展统计工作具有十分重要作用。城乡划分工作就是将行政区域划分为城镇和乡村,具体就是将县辖区、不设区县和镇中的农村成分剔除出去、使其成为规定中的城镇,剩余的为乡村。剔除的依据是城镇实际建设,凡实际建设连接到的区域为城镇,否则为乡村。城乡划分的目的主要是客观反映我国城镇和乡村的社会、人口和经济发展状况,科学评价我国城镇化发展水平,统一各专业的城乡划分口径。“城乡划分”是以行政区划作为划分对象,对国家批准的市辖区、县以上和街道、镇、乡、村居委会的行政区域进行划分,划分的方法主要是对反映村级单位的12位行政区划代码的后面增加两位城乡属性码,从而建立起《城乡地域库》,满足统计部门和社会各界对行政区划代码需求。
2、清理和划分工作对各级统计部门来说是一项新的统计工作。过去只在普查时才编制区划代码,如今划分城乡属性标识码、维护《城乡地域库》工作又成为一项经常性统计工作。
第五篇:商务统计例题代码(小编推荐)
商务数据分析与应用
第1章 线性回归
• 移动通信网络的客户价值分析
*指标设计
Y相对利润变化 X1通话总量 X2大网占比 X3小网占比
#读入数据,以数据为第一行
data1=read.csv(“F:/1商务统计/案例数据/第1章.csv”,header=T)names(data1)=c(“Y”,“X1”,“X2”,“X3”)data1[c(1:3),]
## Y X1 X2 X3 ## 1 0.2126197 2.822822 0.9037594 0.21954887 ## 2 0.2756156 2.628389 0.9717647 0.02823529 ## 3 0.1687526 2.537819 0.9913043 0.22318841
*描述分析
N=sapply(data1,length)#样本量 MU=sapply(data1,mean)#均值 SD=sapply(data1,sd)#标准差 MIN=sapply(data1,min)#最小值 MED=sapply(data1,median)#中位数 MAX=sapply(data1,max)#最大值
result=cbind(N,MU,SD,MIN,MED,MAX)result
## N MU SD MIN MED MAX ## Y 1123 0.1930176 0.1324444-0.49801016 0.1870535 0.9925818 ## X1 1123 2.5804381 0.4083604 0.77815125 2.5831988 3.6009729 ## X2 1123 0.8457207 0.1538765 0.09867452 0.8983452 1.0000000 ## X3 1123 0.2521307 0.2112832 0.00000000 0.1983730 0.9734904
*最小二乘估计
lm1=lm(Y~X1+X2+X3,data=data1)lm1
## Call:
## lm(formula = Y ~ X1 + X2 + X3, data = data1)## Coefficients:
##(Intercept)X1 X2 X3 ##-0.488566 0.235569 0.089486-0.007807
*方差分析
anova(lm1)
## Analysis of Variance Table ## Response: Y
## Df Sum Sq Mean Sq F value Pr(>F)## X1 1 10.7177 10.7177 1375.7807 < 2.2e-16 *** ## X2 1 0.2448 0.2448 31.4279 2.606e-08 *** ## X3 1 0.0017 0.0017 0.2216 0.638 ## Residuals 1119 8.7173 0.0078
## Signif.codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
*参数估计
summary(lm1)
## Call:
## lm(formula = Y ~ X1 + X2 + X3, data = data1)## Residuals:
## Min 1Q Median 3Q Max ##-0.62789-0.04540-0.01281 0.03177 0.62598 ## Coefficients:
## Estimate Std.Error t value Pr(>|t|)##(Intercept)-0.488566 0.026160-18.676 < 2e-16 *** ## X1 0.235569 0.006519 36.135 < 2e-16 *** ## X2 0.089486 0.022915 3.905 9.98e-05 *** ## X3-0.007807 0.016586-0.471 0.638
## Signif.codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## Residual standard error: 0.08826 on 1119 degrees of freedom ## Multiple R-squared: 0.5571, Adjusted R-squared: 0.5559 ## F-statistic: 469.1 on 3 and 1119 DF, p-value: < 2.2e-16
*模型诊断()
par(mfrow=c(2,2))
plot(lm1,which=c(1:4))
第2章 方差分析
• 北京市商品房定价分析
*指标设计
Y价格=log(平均售价)X1环线位置 X2装修状况 X3所在区县 X4有无地铁
data2=read.csv(“F:/1商务统计/案例数据/第2章.csv”,header=T)names(data2)=c(“Y”,“X1”,“X2”,“X3”,“X4”)#对因变量做对数变换 data2$Y=log(data2$Y)data2[c(1:3),]
## Y X1 X2 X3 X4 ## 1 1.098612 2至3环 精装修 朝阳 有 ## 2 1.686399 2至3环 精装修 朝阳 无 ## 3 1.386294 2至3环 精装修 朝阳 有
*描述分析(按环线位置)N=tapply(data2$Y,data2$X1,length)#样本量 MU=tapply(data2$Y,data2$X1,mean)#均值 SD=tapply(data2$Y,data2$X1,sd)#标准差 MIN=tapply(data2$Y,data2$X1,min)#最小值 MED=tapply(data2$Y,data2$X1,median)#中位数 MAX=tapply(data2$Y,data2$X1,max)#最大值 result=cbind(N,MU,SD,MIN,MED,MAX)result
## N MU SD MIN MED MAX ## 2至3环 26 1.4409491 0.2395535 0.9162907 1.4816045 1.8405496 ## 3至4环 60 1.2373459 0.3516936 0.5877867 1.1631508 2.1517622 ## 4至5环 30 1.1399181 0.2123769 0.7884574 1.1785366 1.4816045 ## 5至6环 60 0.8595883 0.2113624 0.4700036 0.8541889 1.3609766 ## 6环以外 8 0.2490578 0.3411846-0.2231436 0.3129692 0.5877867
*描述分析(按装修状况)
N=tapply(data2$Y,data2$X2,length)#样本量 MU=tapply(data2$Y,data2$X2,mean)#均值 SD=tapply(data2$Y,data2$X2sd)#标准差 MIN=tapply(data2$Y,data2$X2,min)#最小值 MED=tapply(data2$Y,data2$X2,median)#中位数 MAX=tapply(data2$Y,data2$X2,max)#最大值 result=cbind(N,MU,SD,MIN,MED,MAX)result
## N MU SD MIN MED MAX ## 精装修 100 1.2620118 0.3798301 0.0000000 1.2527630 2.151762 ## 毛胚 84 0.8722567 0.2618101-0.2231436 0.9021733 1.360977
*描述分析(按所在区县)
N=tapply(data2$Y,data2$X3,length)#样本量 MU=tapply(data2$Y,data2$X3,mean)#均值 SD=tapply(data2$Y,data2$X3,sd)#标准差 MIN=tapply(data2$Y,data2$X3,min)#最小值 MED=tapply(data2$Y,data2$X3,median)#中位数 MAX=tapply(data2$Y,data2$X3,max)#最大值 result=cbind(N,MU,SD,MIN,MED,MAX)result
## N MU SD MIN MED MAX ## 朝阳 58 1.3189428 0.3767793 0.6931472 1.2668484 2.151762 ## 丰台 38 1.0169271 0.2329162 0.5007753 1.0296194 1.458615 ## 海淀 52 1.1547562 0.2662418 0.5596158 1.1709029 1.722767 ## 通州 36 0.6744863 0.3172525-0.2231436 0.7175423 1.252763 *描述分析(按有无地铁)
N=tapply(data2$Y,data2$X4,length)#样本量 MU=tapply(data2$Y,data2$X4,mean)#均值 SD=tapply(data2$Y,data2$X4,sd)#标准差 MIN=tapply(data2$Y,data2$X4,min)#最小值 MED=tapply(data2$Y,data2$X4,median)#中位数 MAX=tapply(data2$Y,data2$X4,max)#最大值 result=cbind(N,MU,SD,MIN,MED,MAX)
result## N MU SD MIN MED MAX ## 无 36 1.095447 0.3228303 0.0000000 1.115007 1.686399 ## 有 148 1.081315 0.3977276-0.2231436 1.029619 2.151762
*方差分析
lm2.1=lm(Y~X1*X2+X3+X4,data=data2)
anova(lm2.1)## Analysis of Variance Table
## Response: Y## Df Sum Sq Mean Sq F value Pr(>F)## X1 4 13.4161 3.3540 59.9170 < 2.2e-16 *** ## X2 1 2.2944 2.2944 40.9884 1.439e-09 *** ## X3 3 1.3516 0.4505 8.0485 4.792e-05 *** ## X4 1 0.0133 0.0133 0.2375 0.6266 ## X1:X2 4 0.3153 0.0788 1.4082 0.2333 ## Residuals 170 9.5162 0.0560
## Signif.codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1*去除交互作用X1 × X2以及X4后的方差分析
lm2.2=lm(Y~X1+X2+X3,data=data2)anova(lm2.2)
## Analysis of Variance Table
## Response: Y## Df Sum Sq Mean Sq F value Pr(>F)## X1 4 13.4161 3.3540 59.6205 < 2.2e-16 *** ## X2 1 2.2944 2.2944 40.7856 1.481e-09 *** ## X3 3 1.3516 0.4505 8.0087 4.946e-05 *** ## Residuals 175 9.8448 0.0563
## Signif.codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1*参数估计
summary(lm2.2)
## Call:
## lm(formula = Y ~ X1 + X2 + X3, data = data2)
## Residuals:
## Min 1Q Median 3Q Max ##-0.72379-0.12676 0.00633 0.12498 0.73482
## Coefficients:## Estimate Std.Error t value Pr(>|t|)##(Intercept)1.47950 0.04767 31.037 < 2e-16 *** ## X13至4环-0.06256 0.05984-1.046 0.2972 ## X14至5环-0.17128 0.06794-2.521 0.0126 * ## X15至6环-0.40837 0.07241-5.640 6.73e-08 *** ## X16环以外-1.02414 0.11725-8.734 1.92e-15 *** ## X2毛胚-0.19259 0.04160-4.630 7.10e-06 *** ## X3丰台-0.25072 0.05427-4.620 7.41e-06 *** ## X3海淀-0.02894 0.04940-0.586 0.5588 ## X3通州-0.11002 0.07118-1.546 0.1240
## Signif.codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1## Residual standard error: 0.2372 on 175 degrees of freedom ## Multiple R-squared: 0.6341, Adjusted R-squared: 0.6174
## F-statistic: 37.91 on 8 and 175 DF, p-value: < 2.2e-16*模型诊断
par(mfrow=c(2,2))
plot(lm2.2,which=c(1:4))
第3章 逻辑回归
• 上市企业特别处理ST分析
*指标设计
Y是否ST X1盈利质量ARA=应收账款/总资产 X2公司规模ASSET=log(资产规模)X3资产周转率ATO X4资产收益率ROA X5销售收入增长率GROWTH X6债务资产比率(杠杆比率)LEV X7第一大股东持股比率(股权结构)SHARE data3=read.csv(“F:/1商务统计/案例数据/第3章.csv”,header=T)
names(data3)=c(“X1ARA”,“X2ASSET”,“X3ATO”,“X4ROA”,“X5GROWTH”,“X6LEV”,“X7SHARE”,“YST”)data3[c(1:3),]
## X1ARA X2ASSET X3ATO X4ROA X5GROWTH X6LEV X7SHARE YST
## 1 0.1923096 19.85605 0.0052 0.08770980-0.9507273 0.4458801 26.89 0
## 2 0.2201200 20.91086 0.0056 0.01682038-0.9426563 0.3986864 39.62 0
## 3 0.3252917 19.35262 0.0166 0.04246833-0.9374404 0.3033481 26.46 0
*描述分析
N=sapply(data3,length)#样本量 MU=sapply(data3,mean)#均值 SD=sapply(data3,sd)#标准差 MIN=sapply(data3,min)#最小值 MED=sapply(data3,median)#中位数 MAX=sapply(data3,max)#最大值
result=cbind(N,MU,SD,MIN,MED,MAX)result
## N MU SD MIN MED MAX
## X1ARA 684 0.09504945 0.09228931 0.00000000 0.06832718 0.6346842
## X2ASSET 684 20.77785347 0.83352322 18.66070036 20.70050279 24.0176107
## X3ATO 684 0.51977383 0.36282648 0.00280000 0.43340000 3.1513000 ## X4ROA 684 0.05587011 0.03859391 0.00008170 0.05125798 0.3111300
## X5GROWTH 684 0.11525745 0.30702005-0.95072732 0.10228264 0.9985565
## X6LEV 684 0.40606356 0.16576397 0.01843107 0.40673974 0.9803218
## X7SHARE 684 46.03451754 17.68437717 4.16000000 44.95500000 88.5800000
## YST 684 0.05263158 0.22346029 0.00000000 0.00000000 1.0000000
*描述分析(按X1ARA)
N=tapply(data3$X1ARA,data3$YST,length)#样本量 MU=tapply(data3$X1ARA,data3$YST,mean)#均值 SD=tapply(data3$X1ARA,data3$YST,sd)#标准差 MIN=tapply(data3$X1ARA,data3$YST,min)#最小值 MED=tapply(data3$X1ARA,data3$YST,median)#中位数 MAX=tapply(data3$X1ARA,data3$YST,max)#最大值 result=cbind(N,MU,SD,MIN,MED,MAX)result
## N MU SD MIN MED MAX ## 0 648 0.09060347 0.08673571 0.00000000 0.06634297 0.6346842 ## 1 36 0.17507708 0.14207891 0.01191061 0.13924284 0.5335909
*描述分析(按X2ASSET)
N=tapply(data3$X2ASSET,data3$YST,length)#样本量 MU=tapply(data3$X2ASSET,data3$YST,mean)#均值 SD=tapply(data3$X2ASSET,data3$YST,sd)#标准差 MIN=tapply(data3$X2ASSET,data3$YST,min)#最小值 MED=tapply(data3$X2ASSET,data3$YST,median)#中位数 MAX=tapply(data3$X2ASSET,data3$YST,max)#最大值 result=cbind(N,MU,SD,MIN,MED,MAX)result
## N MU SD MIN MED MAX ## 0 648 20.77346 0.8324296 18.66070 20.6881 24.01761 ## 1 36 20.85695 0.8611029 19.07364 20.8161 23.48810
*描述分析(按X3ATO)
N=tapply(data3$X3ATO,data3$YST,length)#样本量 MU=tapply(data3$X3ATO,data3$YST,mean)#均值 SD=tapply(data3$X3ATO,data3$YST,sd)#标准差 MIN=tapply(data3$X3ATO,data3$YST,min)#最小值 MED=tapply(data3$X3ATO,data3$YST,median)#中位数 MAX=tapply(data3$X3ATO,data3$YST,max)#最大值 result=cbind(N,MU,SD,MIN,MED,MAX)result
## N MU SD MIN MED MAX ## 0 648 0.5254105 0.3676712 0.0028 0.43455 3.1513 ## 1 36 0.4183139 0.2424995 0.0824 0.39110 0.9212
*描述分析(按X4ROA)
N=tapply(data3$X4ROA,data3$YST,length)#样本量 MU=tapply(data3$X4ROA,data3$YST,mean)#均值 SD=tapply(data3$X4ROA,data3$YST,sd)#标准差 MIN=tapply(data3$X4ROA,data3$YST,min)#最小值 MED=tapply(data3$X4ROA,data3$YST,median)#中位数 MAX=tapply(data3$X4ROA,data3$YST,max)#最大值 result=cbind(N,MU,SD,MIN,MED,MAX)result
## N MU SD MIN MED MAX ## 0 648 0.05663345 0.03741736 0.000081700 0.05201964 0.3111300 ## 1 36 0.04212999 0.05459187 0.001052306 0.02567337 0.2350839
*描述分析(按X5GROWTH)
N=tapply(data3$X5GROWTH,data3$YST,length)#样本量 MU=tapply(data3$X5GROWTH,data3$YST,mean)#均值 SD=tapply(data3$X5GROWTH,data3$YST,sd)#标准差 MIN=tapply(data3$X5GROWTH,data3$YST,min)#最小值 MED=tapply(data3$X5GROWTH,data3$YST,median)#中位数 MAX=tapply(data3$X5GROWTH,data3$YST,max)#最大值 result=cbind(N,MU,SD,MIN,MED,MAX)result
## N MU SD MIN MED MAX ## 0 648 0.12304428 0.2994712-0.9507273 0.1063968 0.9985565 ## 1 36-0.02490552 0.4003226-0.8167039-0.1188108 0.8997644
*描述分析(按X6LEV)
N=tapply(data3$X6LEV,data3$YST,length)#样本量 MU=tapply(data3$X6LEV,data3$YST,mean)#均值 SD=tapply(data3$X6LEV,data3$YST,sd)#标准差 MIN=tapply(data3$X6LEV,data3$YST,min)#最小值 MED=tapply(data3$X6LEV,data3$YST,median)#中位数 MAX=tapply(data3$X6LEV,data3$YST,max)#最大值 result=cbind(N,MU,SD,MIN,MED,MAX)result ## N MU SD MIN MED MAX ## 0 648 0.4018435 0.1644874 0.01843107 0.4026904 0.9803218 ## 1 36 0.4820251 0.1726016 0.13810509 0.5042842 0.7937813
*描述分析(按X7SHARE)
N=tapply(data3$X7SHARE,data3$YST,length)#样本量 MU=tapply(data3$X7SHARE,data3$YST,mean)#均值 SD=tapply(data3$X7SHARE,data3$YST,sd)#标准差 MIN=tapply(data3$X7SHARE,data3$YST,min)#最小值 MED=tapply(data3$X7SHARE,data3$YST,median)#中位数 MAX=tapply(data3$X7SHARE,data3$YST,max)#最大值 result=cbind(N,MU,SD,MIN,MED,MAX)result
## N MU SD MIN MED MAX ## 0 648 46.29100 17.69054 4.16 45.45 88.58 ## 1 36 41.41778 17.16103 14.03 37.02 74.44
*盒状图
ST_0=which(data3$YST==0)ST_1=which(data3$YST==1)
boxplot(data3$X1ARA[ST_0],data3$X1ARA[ST_1],xlab=“ST Status”,ylab=“ARA”)
boxplot(data3$X2ASSET[ST_0],data3$X2ASSET[ST_1],xlab=“ST Status”,ylab=“ASSET”)
boxplot(data3$X3ATO[ST_0],data3$X3ATO[ST_1],xlab=“ST Status”,ylab=“ATO”)
boxplot(data3$X4ROA[ST_0],data3X4ROA[ST_1],xlab=“ST Status”,ylab=“ROA”)
boxplot(data3$X5GROWTH[ST_0],data3$X5GROWTH[ST_1],xlab=“ST Status”,ylab=“GROWTH”)
boxplot(data3$X6LEV[ST_0],data3$X6LEV[ST_1],xlab=“ST Status”,ylab=“LEV”)
boxplot(data3$X7SHARE[ST_0],data3$X7SHARE[ST_1],xlab=“ST Status”,ylab=“SHARE”)
*逻辑回归
glm3=glm(YST~X1ARA+X2ASSET+X3ATO+X4ROA+X5GROWTH+X6LEV+X7SHARE, family=binomial(link=logit),data=data3)summary(glm3)
## Call:
## glm(formula = YST ~ X1ARA + X2ASSET + X3ATO + X4ROA + X5GROWTH + ## X6LEV + X7SHARE, family = binomial(link = logit), data = data3)## Deviance Residuals:
## Min 1Q Median 3Q Max ##-1.4165-0.3354-0.2536-0.1958 3.0778 ## Coefficients:
## Estimate Std.Error z value Pr(>|z|)##(Intercept)-8.86924 4.63586-1.913 0.05573.## X1ARA 4.87974 1.49245 3.270 0.00108 ** ## X2ASSET 0.24660 0.22409 1.100 0.27115 ## X3ATO-0.50738 0.65744-0.772 0.44026 ## X4ROA-0.63661 6.22354-0.102 0.91853 ## X5GROWTH-0.83335 0.56706-1.470 0.14167 ## X6LEV 2.35415 1.20138 1.960 0.05005.## X7SHARE-0.01111 0.01115-0.997 0.31891
## Signif.codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1##(Dispersion parameter for binomial family taken to be 1)## Null deviance: 282.07 on 683 degrees of freedom ## Residual deviance: 251.51 on 676 degrees of freedom
## AIC: 267.51## Number of Fisher Scoring iterations: 6
*按照WMCR做模型预测以及评估
pred=predict(glm3,data3)
prob=exp(pred)/(1+exp(pred))yhat=1*(prob>0.0526)table(data3$YST,yhat)## yhat
## 0 1 ## 0 463 185 ## 1 11 25
第4章 定序回归
• 手机商务消费者偏好度研究分析
*指标设计
Y偏好程度 X1手机品牌 X2能否拍照
X3能否收看电视 X4有无触摸屏
X5电话本能否多条记录 X6有无MP3 X7游戏数目
data4=read.csv(“F:/1商务统计/案例数据/第4章.csv”,header=T)names(data4)=c(“Y”,“X1”,“X2”,“X3”,“X4”,“X5”,“X6”,“X7”)data4[c(1:3),]
## Y X1 X2 X3 X4 X5 X6 X7 ## 1 3 诺基亚 0 0 0 1 1 3 ## 2 4 诺基亚 1 0 1 0 1 5 ## 3 4 诺基亚 0 1 1 0 0 7
*描述品牌与偏好度的关系
table(data4$Y,data4$X1)
## 波导 摩托罗拉 诺基亚 三星 ## 1 37 24 34 26 ## 2 80 64 53 66 ## 3 98 138 132 133 ## 4 109 108 116 96 ## 5 28 30 35 44
*描述分析其他功能性指标
#均值
MU2=tapply(data4$X2,data4$Y,mean)MU3=tapply(data4$X3,data4$Y,mean)MU4=tapply(data4$X4,data4$Y,mean)MU5=tapply(data4$X5,data4$Y,mean)MU6=tapply(data4$X6,data4$Y,mean)result=cbind(MU2,MU3,MU4,MU5,MU6)result
## MU2 MU3 MU4 MU5 MU6 ## 1 0.4297521 0.4380165 0.4710744 0.2148760 0.5371901 ## 2 0.3840304 0.4334601 0.4296578 0.3878327 0.5019011 ## 3 0.4830339 0.4890220 0.5369261 0.4231537 0.4530938 ## 4 0.5780886 0.5314685 0.5547786 0.6153846 0.5151515 ## 5 0.5766423 0.6350365 0.3795620 0.8540146 0.5985401
*描述分析(游戏数目)
N=tapply(data4$X7,data4$Y,length)#样本量 MU=tapply(data4$X7,data4$Y,mean)#均值 SD=tapply(data4$X7,data4$Y,sd)#标准差 MIN=tapply(data4$X7,data4$Y,min)#最小值 MED=tapply(data4$X7,data4$Y,median)#中位数 MAX=tapply(data4$X7,data4$Y,max)#最大值 result=cbind(N,MU,SD,MIN,MED,MAX)result
## N MU SD MIN MED MAX ## 1 121 5.066116 1.339997 3 5 7 ## 2 263 5.060837 1.512072 3 5 7 ## 3 501 4.904192 1.582025 3 5 7 ## 4 429 5.037296 1.723534 3 5 7 ## 5 137 5.000000 1.940285 3 5 7
*计算因变量频数
table(data4$Y)
## 1 2 3 4 5 ## 121 263 501 429 137
*极大似然估计
library(MASS)
probit4=polr(as.factor(Y)~as.factor(X1)+X2+X3+X4+X5+X6+X7,method=“probit”,Hess=T,data=data4)summary(probit4)
## Call:
## polr(formula = as.factor(Y)~ as.factor(X1)+ X2 + X3 + X4 + ## X5 + X6 + X7, data = data4, Hess = T, method = “probit”)## Coefficients:
## Value Std.Error t value ## as.factor(X1)摩托罗拉 0.28048 0.09608 2.9193 ## as.factor(X1)诺基亚 0.48908 0.08529 5.7342 ## as.factor(X1)三星 0.27652 0.08613 3.2106 ## X2 0.39145 0.05984 6.5419 ## X3 0.31159 0.06188 5.0357 ## X4 0.25499 0.06176 4.1291 ## X5 0.90094 0.06362 14.1606 ## X6 0.20205 0.07563 2.6714 ## X7-0.01373 0.01761-0.7799 ## Intercepts:
## Value Std.Error t value ## 1|2-0.3036 0.1313-2.3125 ## 2|3 0.5214 0.1295 4.0247 ## 3|4 1.5312 0.1331 11.5057 ## 4|5 2.6876 0.1418 18.9589 ## Residual Deviance: 3984.573 ## AIC: 4010.573
*按照MCR做预测 Y.hat=predict(probit4,data4)table(data4$Y,Y.hat)## Y.hat
## 1 2 3 4 5 ## 1 28 0 72 21 0 ## 2 49 0 145 69 0 ## 3 34 0 303 164 0 ## 4 7 0 188 234 0 ## 5 0 0 24 113 0
第5章 泊松回归
• 付费搜索广告数据分析
*指标设计
Y点击量 X1关键词长度 X2展现量 X3平均点击价格 X4平均排名
data5=read.csv(“F:/1商务统计/案例数据/第5章.csv”,header=T)names(data5)=c(“Y”,“X1”,“X2”,“X3”,“X4”)data5[c(1:3),]
## Y X1 X2 X3 X4 ## 1 11 3 761 146.37 2.28 ## 2 1 5 8 105.72 1.00 ## 3 0 5 2 0.00 3.50
*全变量描述分析
N=sapply(data5,length)#样本量 MU=sapply(data5,mean)#均值 SD=sapply(data5,sd)#标准差 MIN=sapply(data5,min)#最小值 MED=sapply(data5,median)#中位数 MAX=sapply(data5,max)#最大值
result=cbind(N,MU,SD,MIN,MED,MAX)result
## N MU SD MIN MED MAX ## Y 200 0.38500 1.472282 0 0 14.00 ## X1 200 6.70500 2.247942 2 7 13.00 ## X2 200 40.17500 200.657673 1 3 2242.00 ## X3 200 6.83445 22.502247 0 0 146.37 ## X4 200 4.53970 4.068050 1 3 26.00 *泊松回归
pos5=glm(Y~X1+X2+X3+X4,family=poisson(),data=data5)summary(pos5)
## Call:
## glm(formula = Y ~ X1 + X2 + X3 + X4, family = poisson(), data = data5)
## Deviance Residuals:
## Min 1Q Median 3Q Max ##-2.0367-0.6888-0.4143-0.2060 6.3874 ## Coefficients:
## Estimate Std.Error z value Pr(>|z|)##(Intercept)1.2785068 0.4085366 3.129 0.00175 ** ## X1-0.3865588 0.0752822-5.135 2.82e-07 *** ## X2 0.0006558 0.0005122 1.280 0.20043 ## X3 0.0179875 0.0026502 6.787 1.14e-11 *** ## X4-0.2010931 0.0889027-2.262 0.02370 *
## Signif.codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1##(Dispersion parameter for poisson family taken to be 1)
## Null deviance: 358.74 on 199 degrees of freedom## Residual deviance: 173.95 on 195 degrees of freedom ## AIC: 259.75
## Number of Fisher Scoring iterations: 6
*预测与评估()
pred=predict(pos5,data5)lam=exp(pred)
RME=abs(data5$Y-lam)/(1+lam)
summary(RME)## Min.1st Qu.Median Mean 3rd Qu.Max.## 0.000632 0.046380 0.137400 0.249300 0.273000 5.471000
第6章 生存数据回归
• 员工离职管理分析
*指标设计
Y工作年限 C是否离职 X1户籍 X2性别 X3年龄
data6=read.csv(“F:/1商务统计/案例数据/第6章.csv”,header=T)names(data6)=c(“X1”,“X2”,“X3”,“Y”,“C”)data6[c(1:3),] ## X1 X2 X3 Y C ## 1 异地 男 25 9 1 ## 2 本地 男 30 24 0 ## 3 异地 女 20 30 1
*KM估计生存函数
library(survival)
## Warning: package 'survival' was built under R version 3.2.3 summary(survfit(Surv(data6$Y,data6$C)~1))
## Call: survfit(formula = Surv(data6.1$Y, data6.1$C)~ 1)
## time n.risk n.event survival std.err lower 95% CI upper 95% CI ## 3 844 84 0.585 0.01367 0.558 0.612 ## 4 760 62 0.537 0.01383 0.510 0.565 ## 5 698 38 0.508 0.01387 0.481 0.536 ## 6 660 38 0.478 0.01385 0.452 0.506 ## 7 621 47 0.442 0.01378 0.416 0.470
*画出生存函数
plot(survfit(Surv(data6$Y,data6$C)~1))
*分户籍描述
plot(survfit(Surv(Y,C)~X1,data=data6),col=c(1,2),lty=c(1,2))
*分性别描述
plot(survfit(Surv(Y,C)~X2,data=data6),col=c(1,2),lty=c(1,2))
*分年龄描述
nX3=floor(data6$X3/10)*10
plot(survfit(Surv(Y,C)~nX3,data=data6),col=c(1,2,3),lty=c(1,2,3))
*加速失效模型
fit6.1=survreg(Surv(Y+1,C)~X1+X2+X3,data=data6)summary(fit6.1)
##
## Call:
## survreg(formula = Surv(Y + 1, C)~ X1 + X2 + X3, data = data6)## Value Std.Error z p ##(Intercept)0.9118 0.2142 4.26 2.08e-05 ## X1异地-0.2967 0.0708-4.19 2.79e-05 ## X2女 0.2762 0.0742 3.72 1.98e-04 ## X3 0.0605 0.0074 8.18 2.82e-16 ## Log(scale)0.0911 0.0254 3.59 3.31e-04 ##
## Scale= 1.1 ##
## Weibull distribution
## Loglik(model)=-3512.4 Loglik(intercept only)=-3566 ## Chisq= 107.23 on 3 degrees of freedom, p= 0 ## Number of Newton-Raphson Iterations: 5 ## n= 1300
*Cox等比例风险模型
fit6.2=coxph(Surv(Y+1,C)~X1+X2+X3,data=data6)summary(fit6.2)## Call:
## coxph(formula = Surv(Y + 1, C)~ X1 + X2 + X3, data = data6)##
## n= 1300, number of events= 1005
## ## coef exp(coef)se(coef)z Pr(>|z|)## X1异地 0.267386 1.306544 0.064635 4.137 3.52e-05 *** ## X2女-0.235347 0.790297 0.067723-3.475 0.000511 *** ## X3-0.051081 0.950202 0.006755-7.562 3.95e-14 ***
##---## Signif.codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1##
## exp(coef)exp(-coef)lower.95 upper.95 ## X1异地 1.3065 0.7654 1.1511 1.4830 ## X2女 0.7903 1.2653 0.6921 0.9025 ## X3 0.9502 1.0524 0.9377 0.9629 ##
## Concordance= 0.616(se = 0.011)## Rsquare= 0.07(max possible= 1)
## Likelihood ratio test= 94.52 on 3 df, p=0 ## Wald test = 90.35 on 3 df, p=0 ## Score(logrank)test = 90.37 on 3 df, p=0 plot(survfit(fit6.1.2))