计量地理知识总结
第一章:
一早期计量运动的三种学派
1衣阿华的经济派
代表人物:舍弗尔、麦卡尔蒂。
研究对象:着重探讨经济区位现象间相互内在联系及其组合类型。
特点:重视相关分析和回归分析统计方法在地理学中的应用
2威斯康星的统计派。
代表人物:威弗尔、罗宾逊、东坎和仇佐里
特点:以经典著作《统计地理学》为代表作,主要特征是发展和应用统计分析方法。
3普林斯顿的社会物理学派。
代表人物:司徒瓦特(J.Q.Stewart)。
特点:该派把物理学原理应用于社会现象的研究之中,发展了理论地理学中的引力模型、位势模型、空间相互作用模式。
三、计量地理学的发展阶段
第一阶段 初期阶段(20世纪50年代末到60年代末期)把统计学方法引入地理学研究领域,构造一系列统计量来定量地描述地理要素的分布特征,应用各种概率分布函数、方差等简单的统计特征回归分析方法。
第二阶段 中期阶段(20世纪60年代末期到70年代末期)多元统计分析方法和电子计算机技术在地理学研究中广泛应用。以电子计算机技术为手段,许多地理学家熟练地掌握了多元统计方法,具备了分析多因素、复杂结构和动态特征等复杂地理问题的能力。
第三阶段 成熟和发展阶段(20世纪70年代末期开始到80年代末期)系统理论、系统分析方法、系统优化方法、系统调控方法等被引进了地理学研究领域,促进了地理学向着更加严密的理论结构和现代化方向发展.第四阶段 计量地理 计算地理(20世纪90年代初至今)地理计算,以向量或并行处理器为基础的超级计算机为工具,对“整体”、“大容量”资料所表征的地理问题实施高性能计算,探索构筑新的地理学理论和应用模型。
四、数学方法及用途:
1相关分析 :分析地理要素之间的相关关系。
2回归分析:拟合地理要素之间的数量关系、预测发展趋势。
3时间序列分析:用于地理过程时间序列的预测与控制研究。
4主成分分析:用于地理数据的降维处理及地理要素的因素分析与综合评价。
5聚类分析:用于各种地理要素分类、各种地理区域划分。
6马尔可夫过程:用于研究随机地理过程、预测随机地理事件。
7线性规划:用于研究有关规划与决策问题。
8投入产出分析:用于产业部门联系分析、劳动地域构成分析、区域相互作用分析。
9网络分析:用于交通网络、通讯网络、河流水系等地理网络的研究。
10层次分析法:用于有关多层次、多要素战略决策问题的分析。
11风险型决策分析法:用于各种风险型地理决策问题的分析。
12非确定型决策分析法:用于各种非确定型地理决策问题的分析。
五、对计量地理学的评价:
1“反定量化”——反对地理学定量化研究,认为地理现象十分复杂,不能用简单的数学方法来解释,对数学方法采取拒绝和否定态度。代表人物:史密斯(David Smith)、奥格登(Philip Ogden)等。
2“定量化”——推崇地理学定量化,认为数学方法不仅是一种分析技术,而且能够导出普遍性规律,能够解决地理学传统研究方法所不能解决的理论问题。代表人物如克里斯塔勒(W.Christaller)、帮吉(W.Bunge)乔莱(R.Chorley)、哈格特(P.Haggett)等。
3“非定量化”——认为数学方法只是地理学研究方法之一,只能用来研究地理要素之间的数量关系和地理事物的空间格局,不能用来描述和解释地理规律,不能导出地理学理论,但其观点摇摆不定。
六、数学方法主要应用方面:
1分布型分析--对地理要素的分布特征及规律进行定量分析。
2相互关系分析--对地理要素、地理事物之间的相互关系进行定量分析。
3分类研究--对地理事物的类型和各种地理区域进行定量划分。
4网络分析--对水系、交通网络、行政区划、经济区域等的空间结构进行定量分析。
5趋势面分析--做出地理要素的趋势等值线图,展示所要分析的地理要素的空间分布规律。
6空间相互作用分析--定量分析各种“地理流”在不同区域之间流动的方向和强度。
7系统仿真研究,步骤:
①对复杂地理系统的各种系统要素之间的相互关系与反馈机制进行分析,构造系统结构;
② 建立描述系统的数学模型;
③ 以适当的计算方法与算法语言将数学模型转化为计算机可以识别运行的工作模型;
4运行模型,对真实系统进行模拟仿真,从而揭示其运行机制与规律。
第二章:
一,地理数据:
1空间数据:用于描述地理实体、地理要素、地理现象、地理事件及地理过程产生、存在和发展的地理位置、区域范围及空间联系的数据。
(1)几何数据:描述空间对象空间特征的数据,也称位置数据、定位数据,一般用经纬度、坐标表达。
(2)关系数据:描述空间对象的空间关系的数据,如邻接、包含、关联等。
2属性数据:用于描述地理实体、地理要素、地理现象、地理事件、地理过程的有关属性特征的数据,又称非几何数据,如类型、名称、性质等。
二空间数据的表达
点:由一个独立的坐标点(x,y)定位,是空间上不可再分的几何实体。
线:由若干个(至少两个,理论上是无
穷个)坐标点(xi,yi)(i =1,2,…)定义,有一定的长度和走向,表示线状地物或点实体之间的联系。
面:
三、空间数据的拓扑关系:邻接 相交 相离 包含 重合四、属性数据的类型
1数量标志数据
1间隔尺度数据:以有量纲的数据形式表示测度对象在某种单位(量纲)下的绝对量。
2比例尺度数据:以无量纲的数据形式表示测度对象的相对量。
2品质标志数据
① 有序数据:当测度标准不是连续的量,只是表示其顺序关系的数据。
② 二元数据:用0、1两个数据表示地理事物、地理现象或地理事件的是非判断问题。
③ 名义尺度数据:用数字表示地理实体、地理要素、地理现象或地理事件的状态类型。
五、地理数据基本特征:
(一)数量化、形式化与逻辑化
1定量化的地理数据是建立地理数学模型的基础,其作用为:
①确定模型的参数、给定模型运行的初值条件; ②检验模型的有效性。
2形式化、逻辑化与数量化,是所有地理数据的共同特征。
3地理计算学对地理数据的形式化、逻辑化提出了更高的要求。
(二)不确定性 不确定性是地理数据的基本特征之一。地理数据不确定性的来源:
1地理系统本身的复杂性从本质上决定着地理数据的不确定性。
2各种原因所导致的数据误差。
(三)地理数据的多时空尺度:
1从空间尺度上来看,描述地理区域的各种地理数据,具有多种空间尺度—既有全球尺度的、洲际尺度的、国家尺度的,也有流域尺度的、地区尺度的、城市尺度的、社区尺度的。
2从时间尺度上来看,描述地理过程的各种地理数据具有多种时间尺度,如历史年代、天、月、季度、年等。
(四)、多维性 对于一个地理对象的具体意义要从空间、属性、时间三个方面综合描述。
1空间方面,描述该地理对象所处的地理位置和空间范围,一般需要2~3个变量 ;
2属性方面,描述该地理对象的具体内容,至少需要1个以上,多则需要十几个、甚至几十个变量 ;
3时间方面,描述该地理对象产生、发展和存在的时间范围,需要1个变量;
4地理数据的这种多维性,被人们描述为地理数据立方体(The Geographical Data Cube)。
六、地理数据的采集:
(一)地理数据的渠道来源 :
(1)来自于观测、测量部门的有关专业数据。
(2)来自于统计年鉴、统计公报中的有关自然资源及社会经济发展数据。
(3)来自于有关单位或个人的不定期的典型调查数据、抽样调查数据。
(4)来自于政府公报、政府文件中的有关数据
5)来自于档案、图书等文献资料中的有关数据。
(6)来自于互联网(Internet)的有关共享数据。
(7)地图图件。主要包括各种比例尺的地形图、影像地图、专题地图等。
(8)遥感数据。主要包括各种航空遥感数据和卫星遥感数据。
(9)其它来源的有关数据。
七:采集地理数据的过程中需要注意的问题:
(1)数据的完备性和可靠性。
(2)在数据采集过程中,最大限度地减小数据的误差。
(3)在数据采集完毕后,进行检验,进行比较、辨别真伪,通过数据筛选,去粗存精、去伪存真。
八、地理数据处理
(一)地理数据处理,是所有地理问题研究的核心环节
(二)从理论上讲,在地理学中,数学方法的运用主要有两个目的:
(1)运用数学语言对地理问题的描述,建立地理数学模型,从更高、更深层次上揭示地理问题的机理;(2)运用有关数学方法,通过定量化的计算和分析,对地理数据进行处理,从而揭示有关地理现象的内在规律。因此,从一定意义上来说,地理数据处理也是计量地理学的任务之一。
九、地理数据的统计处理
(一)统计整理 统计整理的基本步骤:统计分组:根据研究目的,按照一定的分组标志将地理数据分成若干组。
(1)统计分组的种类
A正确地选择分组标志是运用分组法的关键。
B按分组标志的不同,统计分组可分两类:
质量(属性)标志:按地理事物的质量属性分组,例如人口按性别、民族和职业等分组。
数量标志:在质量分组的基础上再按数量分组,例如企业按人数、生产能力等分组,气候特征按温度、降水等分组。
(2)统计分组方法
A求变数的全距(R)地理数据中的最大值与最小值之差,或称极差。
B确定组数(n)组数是根据地理数据所包含变数值个数(N)的多少
C计算组中值(m)组中值是—组数据的上限与下限之间的中点数值,表各组数值的平均水平。
总之,进行数量分组的目的就在于:通过对地理数据的分组,来研究各组数据出现的频率(次数)、频率的分配或分布情况,借以概括总体的结构及其分布特征,进而研究其平均水平及其变化规律。编制统计分组表:
(1)频数:是指原始地理数据出现在该组内的次数。各级频数的和应等于地理数据的总数。3 作分布图。
十、几种常用的统计指标与参数
(一)描述地理数据一般水平的指标
1平均值,反映了地理数据一般水平。计算方法
2中位数 :就是从小到大排列,居于中间位置的那个数。计算方法
3众数:众数就是出现频数最多的那个数, 计算方法
(二)描述地理数据分布的离散程度的指标
极差,指所有数据中最大值与最小值之差:
离差,指每一个地理数据与平均值的差,计算公式为:
离差平方和。它从总体上衡量一组地理数据与平均值的离散程度,其计算公式为:
方差与标准差,从平均概况衡量一组地理数据与平均值的离散程度。
变异系数,表示了地理数据的相对变化(波动)程度,其计算公式
(三)描述地理数据分布特征的参数 :
偏度系数,测度地理数据分布的不对称性情况,刻画以平均值为中心的偏向情况,峰度系数。它测度了地理数据在均值附近的集中程度
第三章:
一:相关分析
(一)、地理相关的意义:地理系统是由各种地理要素组成。各要素之间存在着相互联系、相互影响和相互制约,为了定量地研究它们之间的数量关系,常用相关分析法和回归分析法来确定它们之间的关系和性质,并概括成数学模型,进而作出地理预测。
(二)相关分析的任务,是揭示地理要素之间相互关系的密切程度。
(三)确定性的关系,即函数关系,这种关系在地理各要素间较少见,这是因为许多地理要素的变化具有随机性的缘故
(四)相关关系,即要素间既存在较密切的关系,但又不能由一个(或几个)要素(或变量)的值精确地求出另一个要素(变量)的值。
(五)相关系数的计算与检验
1定义.对于两要素x,y,如果它们的样本值分别为xi与yi(i=1,2,…,n)
根据经验将相关程度划分为以下几种情况:当 |r|≥0.8时,视为高度相关; 0.5≤|r|<0.8时,视为中度相关; 0.3≤|r|<0.5时,视为低度相关; |r|<0.3时,说明两个变量之间相关程度极弱,可视为不相关。
(六)秩相关系数的计算与检验
(一)秩相关系数,又称等级相关系数,或顺序相关系数,是将两要素的样本值按数据的大小顺序排列位次,以各要素样本值的位次代替实际数据而求得的一种统计量。
d2=(R1i-R2i)2代表要素x和y的同一组样本位次差的平方
(七)、偏相关系数的计算与检验
1定义:在多要素所构成的地理系统中,先不考虑其它要素的影响,而单独研究两个要素之间的相互关系的密切程度,这称为偏相关。用以度量偏相关程度的统计量,称为偏相关系数。
2偏相关系数的性质
① 偏相关系数分布的范围在-1到1之间;
② 偏相关系数的绝对值越大,表示其偏相关程度越大;
③ 偏相关系数的绝对值必小于或最多等于由同一系列资料所求得的复相关系数,即 R1·23≥|r12·3|。
3复相关系数的性质
① 复相关系数介于0到1之间
3复相关系数越大,则表明要素(变量)之间的相关程度越密切。复相关系数为1,表示完全相关;复相关系数为0,表示完全无关。
4复相关系数必大于或至少等于单相关系数的绝对值。
二、回归分析方法
(一)地理回归分析的意义
地理系统各要素之间的相关关系,可以通过大量的观测、试验取得一定的地理数据,为了寻找出这些隐藏在随机性数据后的统计规律,需要用到回归分析
(二)回归分析与相关分析的区别与联系
联系:研究对象和内容相同,都是研究处理相关关系的一种数理统计方法。
区别:相关分析主要研究要素之间的密切程度,没有严格的自变量和因变量之分。回归分析有自变量和因变量之分,能进行预测。
偏回归系数的意义是,当其它自变量都固定时,自变量 每变化一个单位而使因变量平均改变的数值。
(三)非线性关系线性化的基本步骤
第一步:确定非线性回归模型的类型(做散点图)。
第二步:通过变换将非线性方程转化为线性方程。
第三步:求转换后的线性回归方程的系数。
第四步:进行逆变换,将线性方程转换为需要的非线性方程。
第五步:统计检验
三、时间序列分析
(一)1时间序列,是要素(变量)的数据按照时间顺序变动排列而形成的一种数列,它反映了要素(变量)随时间变化的发展过程。
2时间序列(Time series):在连续时点或连续时期上测量的观测值的集合。(补充)
3地理过程的时间序列分析,就是通过分析地理要素(变量)随时间变化的历史过程,揭示其发展变化规律,并对其未来状态进行预测。
(二)时间序列的组合成份
1长期趋势(T)是指时间序列随时间的变化而逐渐增加或减少的长期变化的趋势。
2季节变动(S)是指时间序列在一年中或固定时间内,呈现出的固定规则的变动。
3循环变动(C)是指沿着趋势线如钟摆般地循环变动,又称景气循环变动(business cycle movement)。
4不规则变动(I)是指在时间序列中由于随机因素影响所引起的变动。
5趋势线拟合法:用某种趋势线(直线或曲线)来对原数列的长期趋势进行拟合。其主要作用是进行外推预测。
(三)自回归模型
1自相关性判断
①时间序列的自相关,是指序列前后期数值之间的相关关系,对这种相关关系程度的测定便是自相关系数。
② 测度:设y1,y2,…,yt,…,yn,共有n个观察值。把前后相邻两期的观察值一一成对,便有(n-1)对数据,即(y1,y2),(y2,y3),…,(yt,yt+1),…,(yn-1,yn)。
四、系统聚类分析方法
(一)、分类的意义和作用
1地理系统是一种多要素、多类型、多种区域组合在—起的、具有特殊结构与功能的综合体。
2地理变量(或指标或样品)的属性或特征的相似性或亲琉程度,反映客观地理事物的内在联系。
3因此研究地理系统内在联系的重要问题之一就是要进行地理分区与分类。
(三)聚类分析的形式:
Q型聚类:以样品为分类对象,将各参数(变量)比较相近的样品归为一类,表征这些样品具有相似的特征和结构。
R型聚类:以变量为分类对象,变量归为同一类指在各样品中的分布状况相似,变量之间具有一定的相关性。
A不同要素的数据往往具有不同的单位和量纲,其数值的变异可能是很大的,这就会对分类结果产生影响。
B因此当分类要素的对象确定之后,在进行聚类分析之前,首先要对聚类要素进行数据处理。
(四)常用的聚类要素的数据处理方法有如下几种
1总和标准化。分别求出各聚类要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和,标准差标准化极大值标准化极差的标准化
(五)系统聚类法
1常见的聚类分析方法有系统聚类法、动态聚类法和模糊聚类法等。
2常用的系统聚类法有最短距离法,最长距离法、重心法,组平均法。
A最远距离聚类法
五、马尔可夫预测方法
马尔可夫(Markov)预测方法,就是一种预测事件发生的概率的方法。它是基于马尔可夫链,根据事件的目前状况预测其将来各个时刻(或时期)变动状况的一种预测方法。马尔可夫预测法是对地理事件进行预测的基本方法,它是地理预测中常用的重要方法之一。
1状态 指某一事件在某个时刻(或时期)出现的某种结果。
2状态转移过程 事件的发展,从一种状态转变为另一种状态,称为状态转移。
3马尔可夫过程在事件的发展过程中,若每次状态的转移都仅与前一时刻的状态有关,而与过去的状态无关,或者说状态转移过程是无后效性的,则这样的状态转移过程就称为马尔可夫过程。
总结:在地理事件的预测中,被预测对象所经历的过程中各个阶段(或时点)的状态和状态之间的转移概率是最为关键的。
马尔可夫预测的基本方法就是利用状态之间的转移概率矩阵预测事件发生的状态及其发展变化趋势。
六、主成分分析
(一)主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法
(二)主成分选择的依据
1选择越少的主成分,降维就越好。
2被选的主成分所代表的主轴的长度之和占了主轴长度总和的大部分。
3有些文献建议,所选的主轴总长度占所有主轴长度之和的大约85%即可,其实,这只是一个大体的说法;具体选几个,要看实际情况而定。
4注意,和二维情况类似,高维椭球的主轴也是互相垂直的。这些互相正交的新变量是原先变量的线性组合,叫做主成分(principal component)。
第四章:线性规划方法
线性规划的概念:在有限资源的条件下,合理分配和利用资源,以期取得最佳的经济效益的优化方法。
第八章:网络分析方法
(一)网络分析——主要运用图论方法研究各类网络的结构及其优化问题。
.路径优选——最短路径问题
.定点优选——中心点和中位点选址问题
1中心点选址问题 :中心点选址问题的质量判据:
使最佳选址位置所在的顶点的最大服务距离为最小。
.中心点选址问题适宜于医院、消防站点等一类服务设施的布局问题。
2中位点选址问题:中位点选址问题的质量判据:使最佳选址位置所在的顶点到网络图中其它各个顶点的最短路径距离的总和(或者以各个顶点的载荷加权求和)达到最小。
3最大流算法的讨论:一个图成为最大流图的条件是从发点到收点的每一条路上总存在某个起点容量为零的弧,我们称这样的路为饱和路;如果从s到t有一条路,它上面每条路的起点容量都大于零,则称为非饱和路。
由此可以得到一个结论:一个图是最大流图的充分必要条件是不存在从s到t的非饱和路。