我想通过分析2004-2016年间某省农业受五个因素影响程度,来预测下一年,用多元线性回归分析怎么实现呢?

要素之间的关系经常应用多元统计分析方法
时间: 19:04:38
第1章&&&&地理空间数据分析与GIS&&&&地理信息系统技术的日益革新为众多应用领域创造了丰富的地理空间信息财富,使地理空间数据的存储,检索,制图和显示功能越来越完善,但同时越来越多的复杂应用问题也对GIS产生了更多新的要求.各种类型的GIS中存贮了海量的地理空间数据,且数据还在以指数级方式不断增长,迫切需要高效,精确,科学地分析这些数据,以找出数据所蕴涵的寓意,进而了解事物的性质与规律,为科学决策提供必需的信息.所以,开发一些工具来进行一般性地理空间数据分析和复杂的地理空间对象模拟,以将数据点石成金是一项艰巨而又紧迫的任务.因此,GIS领域由原来重点关注数据库创建和系统开发建设,逐渐转向重点关注空间分析和空间建模.事实上,GIS本身就是空间数据分析技术的重要组成部分和有效依赖平台.GIS的奠基人之一M.F.Goodchild曾指出:地理信息系统真正的功能在于它利用空间分析技术,对空间数据的分析.空间分析使GIS超越一般空间数据库,信息系统和地图制图系统,成为不仅能进行海量空间数据管理,信息查询检索与量测,更可通过图形操作与数学模拟运算分析出地理空间数据中隐藏的模式,关系和趋势,挖掘出对科学决策具有指导意义的信息,从而解决复杂的地学应用问题,进行地学综合研究的技术系统.然而,目前多数地理信息系统的应用还局限于数据库型GIS层面上,没有充分利用和开发GIS的空间分析功能,不能真正满足全球变化和区域可持续发展研究对空间分析,预测预报,决策支持等多方面的应用要求,GIS空间分析功能偏弱已经严重地阻碍了其作为空间数据分析工具和决策支持系统的使用.因此,建立完善的空间数据分析理论和方法体系,集成先进的空间数据分析工具,增强GIS的空间分析能力,使数据库型GIS上升为分析型GIS,是GIS技术与应用的发展目标和趋势.本章首先对20世纪50年代以来地理空间数据处理与建模领域重要的技术方法如数量地理学,地理信息系统和地理计算等进行简要的回顾,然后论述数据分析领域中迅速发展的新技术——数据挖掘,在此基础上,讨论GIS环境下空间分析的基本框架.&&&&1.1&&&&地理空间数据处理与建模&&&&地理空间数据分析是地理学和地理信息科学领域的重要研究内容,它通过研究地理空间数据及其相应分析理论,方法和技术,探索,证明地理要素之间的关系,揭示地理特征和过程的内在规律和机理,实现对地理空间信息的认知,解释,预测和调控.长久以来,人们一直不懈地致力于研究和探索高效的,适合于地理空间数据处理与分析的方法,从对地理现象及其空间关系的文字记载,到利用数学概念和方法进行解释性描述;从传统统计学方法和数学模型对地理现象和过程的模拟,到基于地理信息系统的多维地理空间数据表达,管理,地理过程的动态模拟,可视化分析和决策支持;从空间数据挖掘技术到高性能计算技术支撑下的地理计算方法,随着人们对信息需求水平的不断提高和科学技术的日益进步,地理空间数据分析的技术和方法得到不断完善和丰富.1.1.1数量地理学数量化方法在感知,认识和解释现实世界的各种自然,人文,社会现象过程中的相互关系中起着定性方法不能替代的作用.对于决策者而言,数量化方法是获取更为合乎理性,可信,有效决策信息的重要手段.它能够以多种方式,从多重侧面,详尽,准确地解释事物的&&&&1&&&&&&&&状态特征和演变过程,合理推测未来发展规律,提供可供选择的多重决策.马克思早就指出:一种科学只有在成功地运用数学时,才算达到了真正完善的程度.数量地理学(QuantitativeGeography)又称计量地理学或地理数量方法,是应用数学思想方法和计算机技术进行地理学研究的科学.它试图以定量的精确判断来弥补定性文字描述的不足;以抽象的,反映本质的数学模型去刻画具体的,庞杂的各种地理现象;以对过程的模拟和预测来代替对现状的分析和说明;以合理的趋势推导和反馈机制分析来代替简单的因果关系分析.数量地理学提供了理性的复杂方法以传递有关诸如行为,决策的确定性程度,综合研究精度等有用的信息,与定性研究方法结合共同构筑了地理学研究方法的科学体系.数量地理学是对地理学传统研究方法的发展和变革,反映了地理学向定量化,科学化发展的趋势,使地理学由一门对地表事物进行解释性描述的学科,转变为一门进行确定性解释的科学.数量地理学是地理学领域中最先采用数学原理方法来探讨地理数据分析处理与建模的学科.1.数量地理学的产生与发展地理学是一门研究地球表层自然要素与人文要素相互作用关系及其时空规律的科学.作为一门古老的空间科学,地理学与数学有着不解之缘.在古代,地理学与数学之源泉科学——几何学,几乎都是研究地表的科学,如运用几何学原理和方法测算河流长度,山体高度,土地面积等.古希腊学者,西方地理学之父艾拉托塞尼(Eratcsthenes)最早运用几何学原理和方法测算了地球的周长.在近代地理学时期,经济学中的区位论被移植到地理学中,开辟了地理学运用分析数学之先河.20世纪20-30年代,地理学研究中统计方法开始萌芽,主要是一般的数理统计,进行地理要素的统计概括和相关关系探讨.前苏联地理学家马尔科夫指出:更多的地理学家应当使主要的研究方向现代化,应当偏重于以基础科学,首先是精确性科学为基础的道路.现代地理学中的数量方法与理论模式的产生与形成,可以追溯到20世纪50年代末期开始的计量运动.计量运动主要由美国地理学家发起,早期集中在衣阿华,威斯康星,普林斯顿和华盛顿等几所大学.不同学者所持观点不同,研究方向各异,由此形成了所谓的经济,统计,社会等学派.从世界范围看,计量运动的兴起首先要归功于加里森(WilliamL.Garrison)及其领导的华盛顿小组.加里森是第一个把地理学的理论和方法建立在定量基础上的倡导者和实践者,也是第一本《计量地理学》教材的作者.作为地理科学的方法论之一,数量地理学尽管历史不长,但发展速度很快,且时时充满着变革和创新.20世纪50年代末开始,数量地理学先后经历了三个发展时期,各自呈现不同特征(如图1.1).&&&&20世纪50年代末-60年代末数量地理学发展初期阶段把统计学方法引入地理学研究&&&&20世纪60年代末-70年代&&&&数量地理学发展中期阶段&&&&在地理学研究中应用多元统计方法和计算机技术&&&&20世纪70年代末至今&&&&数量地理学日趋成熟阶段&&&&地理学与运筹学,模糊数学,系统科学,GIS技术等结合&&&&图1.1&&&&数量地理学的发展阶段&&&&2.传统地理学与数量地理学数学方法是人们进行数字运算和求解的工具,能以严密的逻辑和简洁的形式描述复杂&&&&2&&&&&&&&的问题,表达极为丰富的实质性思想.对于现代地理学而言,数学方法不仅是应用地理学研究中进行预测,决策,规划及优化设计的工具,也是理论地理学研究中进行逻辑推理和理论演绎的手段.世界上的任何事物都可以用数值来描述和度量,地理要素如区域范围,城市位置,道路长短,气温高低,雨量多少,山高水深,人口增减,物产丰欠等都可用数量来表示.各种地理要素的分布形态及其相互关系特征,亦可以用数学方法进行定量分析与研究.与地理学传统的思维模式相比,地理数量方法有着明显的优势(如图1.2).传统地理学分析方法所采用的推理方式以经验归纳型综合为主,以观察材料和事实为基础,由直接的类推得出现实世界的结论,这一方法难以回避特殊情况或解释者的主观好恶问题.而数量地理学以理论演绎为主,把感知到的地理事物通过假设予以条理化,继而经过模式化得出数据进行检验,在成功的情况下建立法则和理论,否则反馈回去重新制定假设.整个研究过程经历了提出假设,建立模式,检验假设和建立理论四个步骤,符合感性-理性-实践这一认识的过程规律.&&&&实地考察观察实践收集资料根据已有的概念体系条理化归纳,概括地理解释建立理论与法则比较先期模式提出假设资料筛选建立模型反复检验成功建立理论与法则数量地理学方法失败&&&&传统地理学方法&&&&图1.2&&&&数量地理学与传统地理学研究方法比较&&&&3.数量地理学中地理数据分析模拟方法数量地理学本质上是一门关于地理数据分析处理与建模的科学,其主要研究内容涉及地理要素的描述统计和数量分析技术,地理系统的分析方法,数学模型的构建和应用,数学模拟(仿真)技术,地理预测和决策的方法,程序,模型以及地理学理论表述的数学形式等.其研究方法归纳如下:(1)地理系统分析地理系统分析是指扬弃地理事物繁琐的枝节,抽象出地理事物在结构与功能上的主线,揭示地理事物动态演变的方向与强度,预测其状态变化和稳定性程度,将复杂,高级的地理系统简化为次一级简单的系统,进而探讨地理要素之间的数量关系.一般是首先列出所研究等级系统的要素清单,根据地理系统的实际绘出各要素的联系框图,再以定量方法研究系统要素之间的关系.(2)随机数学方法地理系统输入与输出之间一般具有随机性,数量地理学研究方法中随机数学占很大比重.地理系统是多级,多元系统,在进行系统分析时,分析一组或几组地理要素之间的关系经常应用多元统计分析方法,如多元线性回归,逐步回归,主成分分析,因子分析等;地理系统是具有空间范围和地域界线的系统,确定界线,进行地理区域的划分等经常应用二级判别分析,多级判别,逐步判别等数学分类技术;在探讨地理系统结构,类型组合,空间关系&&&&3&&&&&&&&时,常运用系统聚类分析方法;分析地理系统的空间特性时,常用趋势面分析方法;地理系统研究中十分重视系统目标,系统结构的研究,以使地理系统达到符合一定目标的最佳状态.此外,模拟地理系统状态的转移规律时还包括马尔柯夫链,多元线性方程组,微分方程的应用等.(3)地理系统模拟建立地理系统数学模型的过程称为地理系统的数学模拟(简称地理模型).地理模型成为表达地理现象的状态,描述地理现象的过程,揭示地理现象的结构,说明地理现象的分级,认识该现象与其他地理现象之间联系的概念性和本质性的表征方式.地理系统数学模拟的一般过程是:①从实际的地理系统或其要素出发,对空间状态,空间成分,空间相互作用进行分析,建立地理系统或要素的数学模型;②经验检查,若与实际情况不符,则要重新分析,修改模型;若大致相符,则选择计算方法,进行程序设计,程序调试和上机运算,从而输出模型解;③分析模型解,若模型解出错,则修改模型;若模型解正确,则对成果进行地理解释,提出切实可行的方案.可见,地理系统数学模拟过程是反复修改数学模型,调试和修改程序的过程.1.1.2地理信息系统英国著名地理学家R.J.Johnston在1995年曾指出计量革命的直接成果是导致了GIS革命的到来.GIS起源于20世纪60年代,是对地理空间数据进行采集,存储,表达,更新,检索,管理,综合分析与输出的计算机应用技术系统.GIS是以应用为导向的空间信息技术,强调空间实体及其关系,注重空间分析与模拟,是重要的地理空间数据管理和分析工具.1.GIS是客观现实世界抽象化的数字模型客观现实世界极其复杂,运用各种数据采集手段和量测工具,如野外调查,遥感技术等,获取有关客观世界的数据,把各种来源和类型的地理空间数据数字化,输入计算机,按一定的规则组织管理,构建客观现实世界的抽象化数字模型,即GIS(如图1.3).&&&&空间数据获取客观世界基于数学法则数据&&&&库&&&&空间数据输入&&&&据&&&&数&&&&空间数据管理GIS&&&&图1.3&&&&客观世界的抽象化过程&&&&存贮于GIS中的地理空间数据不是客观世界的完全再现,而是在地理认知的基础上对真实世界进行抽象和概括而形成的数字模型,在一定比例尺下表达客观事物的分类,分级,空间过程和空间格局.GIS应用成功与否不仅在于空间信息技术的发达程度,更多地依赖于人类定义客观世界认知模型的恰当程度.在GIS中,对现实世界的理解是从数据,信息,知识到智慧逐渐深入的.2.GIS是地理空间数据管理,显示与制图的集成工具地理信息系统不仅是客观世界抽象化的数字模型,同时还是一种对空间数据进行采集,存储,管理,显示与制图的计算机系统和集成工具,这是地理信息系统最主要的功能之一.GIS处理的数据可以归纳为两大类:一类描述地理实体的空间位置和空间拓扑关系的图形图像信息;另一类描述地理实体的属性文字,数字信息等.通过数据的获取,管理,显示,分析与制图输出,保证了地理信息系统数据库中数据在内容与空间上的完整性,数值逻辑上的一致性与正确性.地理信息系统拥有所有大型数据库管理系统所具有的功能,如地学空间数&&&&4&&&&&&&&据的采集,监测,编辑,存储与管理等,能够高效地组织海量数据,为解决空间复杂问题奠定基础.地理信息系统还为用户提供了许多用于显示地理空间数据的工具,其表达形式既可以是计算机屏幕显示,也可以是诸如报告,表格,地图等硬拷贝图件.GIS除了具有计算机辅助设计(CAD),计算机辅助制图(CAC)等一般显示功能外,还具有多幅图层叠加,阴影透视,网状透视,用户格网,地图动画等高级显示功能.一个完备的地理信息系统应能提供—种良好的,交互式的制图环境,使地理信息系统的使用者能设计和印制出具有高品质的地图.3.GIS是地理空间数据分析模拟与可视化的技术平台地理信息系统支持多种数学模型综合运用,可以建立一系列具有分析,模拟,仿真,预测,规划,决策,调控等多功能的模型系统.这种模型系统的运行既需要海量地理数据构成的地理数据库支持,也依赖强有力的计算方法与计算机程序,最终的研究结论则以可视化的地图,统计图或者三维图等形式输出.GIS用户可以完成对空间数据的一系列处理,分析与建模任务,实现空间数据的可视化.(1)空间数据分析与建模现实世界中,越来越多的地理现象都以数字形式表达,形成地理空间数据库.对数据库中的空间数据进行分析与建模以挖掘出有用的空间信息是GIS最具生命力的核心功能,也是GIS区别于其他计算机系统的主要标志之一.目前常用的GIS空间分析方法有缓冲区分析,叠加分析,网络分析,拓扑结构分析,三维分析等.对于复杂的地理空间问题可以为其建立空间分析模型,如数字地形模型(DTM),空间统计分析模型,人工神经网络模型,粗集模型等.借助GIS进行地理模型分析是研究地球系统的重要途径,如综合评价模型,预测模型,规划模型,决策分析模型等应用分析模型在分析地理空间信息,探究地学研究对象的本质特征及其动态变化方面具有重要价值.(2)空间信息可视化科学可视化技术贯穿GIS空间分析的始终,将分析结果以易于理解的方式直观地表达出来,最大限度地利用信息,实现信息共享.从某种角度讲,GIS可以称为动态的地图,它提供了比普通地图更为丰富和灵活的空间数据表现方式,如动态信息表达,虚拟现实等.地学专家对可视化在地学中的地位和作用已进行了深入探讨,提出了与可视化密切相关的地图可视化,地理可视化,GIS可视化,探析地图学(ExploratoryCartography),地学多维图解,虚拟地理环境等概念,但不同的专家有不同的理解,对其相互关系认识仍不明确.1.1.3地理计算随着计算机技术,数学方法的不断进步,空间数据分析处理方法论也随之革新,20世纪90年代,一门融合了计算机科学,地理学,地球信息科学(Geomatics),信息科学,数学和统计学理论与方法的地理计算学(GeoComputation)开始形成并逐渐发展起来,数量地理学进入全新的计算地理学(GeocomputationalGeography)时代,地理空间数据分析与建模有了一个新的技术平台.1.地理计算的概念与内涵20世纪90年代中期,英国著名地理学家,里兹大学计算地理研究中心(TheCenterofComputationalGeography)StanOpenshaw教授认为空间数据挖掘已成为数量地理学中一个重要分支,并以GeoComputation命名这个新的学科,StanOpenshaw因此被称为地理计算之父.此后,许多学者纷纷从不同角度对地理计算的定义与内容框架进行设计,并论证其作为一个学科的必要性和合理性.&&&&5&&&&&&&&Openshaw(1999)认为地理计算本质上是继地理信息科学之后的革命.他在2000年又进一步深化对于地理计算的理解,认为地理计算是一种高性能计算,用以解决目前不能解决的,甚至未知的空间问题的科学.地理计算具有三方面特点:一是强调地理主题;二是对现存问题承认有新的或更好的解决办法,且可以解决以前不能解决的问题;三是地理计算需要独特的思考方式,由于基于海量计算代替残缺的知识或理论的过程,故能够增强机器的智能.英国里兹大学著名地理学家Rees等提议将地理计算定义为:应用计算技术求解地理问题的理论,方法和过程.从构词来看,GeoComputation由前缀Geo和主词Computation组合而成,前者指地理计算要做什么,后者则是如何去做.Gahegan在1999年发表的论文中细致地谈到…地理计算关注利用一系列方法的工具箱丰富地理模拟和分析大量高度复杂的,非确定性的问题…这是人类有意识的努力去探索地理学与计算机科学之间的关联.这是一个真正的对于数量地理学家的技术,也是计算机科学家进行计算性应用的丰富源泉.Conclelis(1998)采用相对简洁的定义:地理计算是应用数学计算方法与技术来描述空间特征,解释地理现象,解决地理问题.Openshaw和Abrahart(2000)认为:地理计算是一门新兴的交叉学科,它是在科学方法的整体范围内利用各种不同类型的地理数据发展相关的地理工具和模型.2003年8月,我国亚运村地理学术沙龙谈到虚拟地理实验室建设,认为地理计算既不是数量地理学,也不是GIS,而是智能计算在地理学中的精确应用,是强大的高性能计算,其理论驱动是科学.地理计算能够有效地用于非线性复杂地理问题的模拟,计算与求解.地理计算是利用不同类型的地理与环境数据,在计算科学方法的整个体系中发展相关的计算工具.它依赖于新计算技术,算法和范例,并且利用高性能计算(High-PerformanceComputing,HPC)和高效率计算机(HTC),包括空间数据分析,自动建模,模拟,时空动力学,可视化和虚拟现实.地理计算试图回归计量革命时代的地理分析和建模,吸收了新的计算机科学成果,如高性能计算,模式识别,分类,预测与模型技术,知识挖掘,可视化等一系列计算方法和工具,建立地理模型并分析复杂的,具有不确定性的地理问题,从而丰富了地理学的研究.GeoComputation不仅仅是计算机在地理信息领域中的应用,关键是可以辅助进行地理研究,从而获得基于数据驱动的地理信息管理和地理信息分析.综上所述,地理计算这一学科的统一视角就是计算,它被认为是一系列有效的程序或算法(如神经网络,模糊逻辑,遗传算法等),当应用到地理问题时必然产生结果,不同算法之间由于基本假设的不同而产生结果的差异.地理计算本质上可认为是对地理学时间与空间问题所进行的基于计算机的定量化分析.2.地理计算模型与方法地理计算的目标是将地理学领域的知识引入计算机工具,设计合适的地理数据挖掘和知识发现操作,研发时空尺度上的集群算法,获得超越目前软件,硬件能力的地理数据分析方法,用可视化和虚拟现实的手段实现地理问题的理解与交流.地理计算学是数量地理学向深层次的拓展,强调数学模型与模拟实验并重的理念,凭借计算机工具对地理学问题进行定量或非定量分析的抽象概括和综合研究,解决海量,复杂数据集或数据库分析的复杂空间问题.GeoComputation包含丰富的模型和方法体系,不仅采纳了传统的数量地理学理论与模型,还涉及一系列新的理论技术方法:GIS为之创建数据库;人工智能技术(ArtificialIntelligence,AI)和智能计算技术(ComputationalIntelligence,CI)为之提供计算原理和计算工具;高性能计算服务系统为之提供动力.智能计算技术中的神经网络模型(NeuralNetwork,NN),模糊逻辑模型(FuzzyLogic),遗传算法模型(GeneticAlgorithm,GA)元胞自动机模型,(CellularAutomata,CA)以及分形分析(FractalAnalysis)&&&&6&&&&&&&&等不断被引入并成为地理计算的核心.高性能计算(High-PerformanceComputing)是利用超级计算机对大容量资料,需要进行实时分析与控制的系统以及那些复杂而又不能用其他手段来处理的现实世界所实施的计算.地理研究的实践,更多的是充分利用GIS技术,结合GPS和RS技术,以向量或并行处理器为基础的超级计算机为工具,对海量数据资料所表征的地理学问题实施高性能计算,探索并构筑新的地理学理论与应用模型.在目前GIS技术下,计算机表达地理空间基本上是静止的.地理计算研究的重要内容之一是如何建立一种模型将空间(地理目标)的结构元素与改变这种空间结构(人类活动及其影响)的过程相结合.这种模型将改变对于空间的静止描述观点,强调作为地理空间基本部分的动态组成,如使用元细胞自动机技术模拟城市和区域增长等.&&&&1.2&&&&地理空间数据挖掘&&&&人类在空间科学技术,遥感(RS),地理信息系统(GIS),全球定位系统(GPS)等领域取得了巨大成就,对地球系统的不同层面,不同现象的综合观测能力达到了空前的水平,获得了大量对地观测数据.同时,随着数据库技术的成熟和信息应用的普及,人类累积的数据量正在呈指数级增长,全世界每天存入数据数量超过万兆字符.未来学家JohnNaisbitt惊呼:人类正被数据淹没,却饥渴于信息.面临浩如烟海的数据,人们呼唤从数据的汪洋大海中去芜存精,去伪存真,因此,从数据库中发现知识(KDD)及其核心技术——数据挖掘(DataMining)应运而生.1.2.1地理空间数据挖掘概述数据挖掘是一个由数据库,人工智能,数理统计和可视化等多学科与技术交叉,渗透,融合形成的交叉学科(邸凯昌,2000).它试图综合应用上述领域技术,在庞大的数据库中探索事先并不知道,但潜在有用的,新的结构形态或者关系特征,即关于数据的高层次信息结构和知识.地理空间数据挖掘(GeospatialDataMining)是数据挖掘的一个研究分支,其实质是从地理空间数据库中挖掘时空系统中潜在的,有价值的信息,规律和知识的过程,包括空间模式与特征,空间与非空间数据之间的概要关系等.由于空间数据具有海量,多维和自相关性等特征,使得地理空间数据挖掘更为复杂.地理空间数据挖掘技术可以有效地解决一些地学问题.例如,地球系统的基本驱动力是什么?整个地球系统是如何变化的?如何能更好地预测地球系统未来的变化?某一种流行病的分布模式?流行病发展变化范围,趋势及速率等?其中许多分析都是基于空间位置关系的,因此地理空间数据挖掘技术最根本的是基于事物的空间特性(如拓扑,距离,方位等).近些年来,国内外开展了许多有关地理空间数据分图形用户接口析与挖掘方面的研究.加拿大SimonFraser大学计算机科学系HanJiawei教授领导的小组进行了基于关系数据库各种数据挖掘模块挖掘系统的研究,在MapInfo平台上开发了空间数据挖掘原型系统GeoMiner,并设计了专门用于空间数据挖掘的空间数据库服务器和数据立方体语言GMQL,实现了空间数据特征描述,空间比较,空间关联,空间聚类和空间分类等空间数据分析方法的集空间数据库空间数据库空间数据库成.该系统具有空间数据库模型,空间数据立方体,空间OLAP等模块(如图1.4).武汉大学李德仁院士等提出图1.4GeoMiner系统结构从GIS数据库可以挖掘出包括几何信息,空间关系,几何性质与属性关系以及面向对象知识等多种知识,认为空间数据分析与挖掘使GIS的有限数据变成无限的知识.图1.5为数据挖掘与知识发现的进化历程(陈述彭等,1996).&&&&7&&&&&&&&(20&&&&进化阶段&&&&数据集60&&&&)&&&&计算机,带和&&&&数据访问(2080数据库(2090数据挖掘()&&&&)&&&&关系数据库,结构,ODBC&&&&术手段&&&&技&&&&)&&&&联机分析处理,多维数据库,数据库算,多处理器计算机,量数据库&&&&图1.5&&&&数据挖掘与知识发现的进&&&&程&&&&地理空间数据挖掘包含旨在从地理空间数据库中发现有用却尚未发现的模式的一系列技术.传统观点认为数据挖掘技术植根于计算科学和数学,不需要也不得益于数据立方体.这种观点今天看来并不正确,数据挖掘成功的关键之一就是先通过访问正确,完整和集成的数据库,才能进行深层次的分析,寻求有意义的信息.而这些正是数据立方体所能提供的,数据立方体不仅是集成数据的一种方式,其联机分析功能——OLAP还为数据挖掘提供了一个极佳的操作平台.实现空间数据挖掘与数据立方体有效的联结,将给空间数据挖掘带来各种便利操作和新的功能.按照不同的挖掘任务,地理空间数据挖掘可以分为预测模型发现,聚类,关联规则发现,序列模式发现,依赖关系发现,异常值分析和趋势发现等.由于空间数据库包含了大量的拓扑/距离信息,需要按照复杂的多维空间索引结构组织数据.在访问这些数据时,需要采用空间推理,地理计算和空间知识的表示技术.地理空间数据挖掘系统包括三大支柱模块:地理空间数据立方体,联机分析处理(OLAP)模块和空间数据挖掘模块.&&&&图形用户界面&&&&挖掘模块集合&&&&空间聚类规则发现空间关联规则发现空间序列模式发现空间依赖关系发现&&&&空间预测模型发现&&&&间数据立&&&&空间数据库方体器务服&&&&空&&&&非空间数据&&&&空间异常值发现空间趋势模型发现未来空间发现模块&&&&空间数据库&&&&相关概念&&&&图1.6&&&&地理空间数据挖掘体系结构&&&&地理空间数据挖掘的体系结构如图1.6所示,由以下四部分组成:(1)图形用户界面(交互式挖掘);(2)挖掘模块集合;(3)数据库和知识库(空间,非空间数据库和相关概念);(4)空间数据库服务器(如ESRI/OracleSDE,ArcGIS以及其他空间数据库引擎).1.2.2地理空间数据立方体地理空间数据立方体(GeospatialDataCube)是一个面向对象的,集成的,以时间为变量的,持续采集空间与非空间数据的多维数据集合,组织和汇总成一个由一组维度和度量值定义的多维结构,用以支持地理空间数据挖掘技术和决策支持过程.地理空间数据立方体绝非仅在数据库上加一层空间外衣,而是真正地以空间数据库为基础,进行复杂的空间分析,&&&&8&&&&&&&&反映不同时空尺度下的动态变化趋势,为决策者提供及时,准确的信息.地理空间数据立方体中的数据是经过选择,整理,集成等处理的,为空间数据挖掘提供了良好的数据基础,因而在地理空间数据立方体中进行数据挖掘比在原始数据库中更加有效.数据立方体法的基本思想是把那些经常被查询到的求和,求平均值,求最大最小值等成本较高的计算进行具体化,并将这些具体化的视图存储到数据立方体中,便于知识发现.所谓立方体并非指数据包含3个维度,事实上一个数据立方体可以包含128个维度.数据立方体在处理时预先计算好一些汇总数据,称为聚合.聚合提供了一种便于使用,快捷且响应时间一致的数据查询机制.数据立方体在逻辑上一般由一个事实数据表和多个维度表构成一种星形构架(如图1.7),其核心是事实数据表.事实数据表是数据立方体中度量值的源,维度表是数据立方体中维度的源.&&&&地区维度表东北地区天气事实数据表地区名称时间时间维度表时间日期月份季节…温度风力降雨区域地图…所属省份区域名称城市查询位置…温度维度表温度变化范围具体描述…&&&&图1.7&&&&东北地区天气数据立方体星形构架&&&&地理空间数据立方体涉及的概念包括:1.维度是数据立方体的一种结构特性,是描述事实数据表中数据级别的有组织的层次结构.这些级别通常描述相似成员的集合,用户要根据它们进行分析.例如,某个地理维度可能包括国家,省以及城市等级别.在地理空间数据立方体中有三种维度类型:(1)非空间维度:包含非空间信息,如城市名称,城市人口数,气温,湿度等.(2)空间-非空间维度:该维度的初始数据是空间维度,其解释数据变为非空间维度.例如,作为空间维度的城市分布是中国地图的一部分,假设该城市分布被表达为长江以北,尽管长江以北是一个空间概念,但它从表达上是一个字符型,属于非空间维度.(3)空间-空间维度:初始数据和解释数据均为空间维度.例如,等温区维度包含空间数据,其解释数据为0~5℃,5~10℃区域的空间维度数据.2.度量值是在数据立方体内基于该数据立方体的事实数据表中某列的一组值,它们通常是数字.度量值是进行聚合和分析的主要数值.空间数据立方体的度量值有两种类型:(1)数值度量:仅包含数字数据.例如,已知一个区域的人均月收入,便能计算总体收入(年,国家等).(2)空间度量:包含空间目标的指示性聚集信息.例如,相同的温度和风力范围的区域可以被合成为一单元.3.成员属性是维度表的一个可选特性,为最终用户提供成员的其他信息,仅从属于级别.成员属性在级别中创建,该级别应包含应用该成员属性的那些成员.1.2.3联机分析处理技术1.OLAP概念联机分析处理(On-LineAnalyticalProcessing,OLAP)的概念最初是由关系数据库之父E.F.Codd于1993年提出的.Codd认为联机事务处理(On-LineTransactionProcessing,OLTP)&&&&9&&&&&&&&已不能满足终端用户对数据库查询分析的需要,SQL对大型数据库的简单查询也无法满足用户分析的需求,因此提出了多维数据库和多维分析的概念,即OLAP.OLAP是共享多维信息的,针对特定问题的联机数据访问和分析的软件技术,具有汇总,合并,聚集以及从不同角度观察消息的能力.它可以跨越空间数据库模式的多个版本,处理来自不同组织的信息和由多个数据存储集成的信息.联机分析处理对空间数据立方体进行的多维数据分析主要有切块,切片,旋转,钻取等分析动作,目的是进行跨维,跨层次的计算与建模.在多维空间数据结构中,按二维进行切片,按某一维进行切块,对片,块或整个多维数据库在维数不变的前提下通过改变维的层次或位置,进行数据钻取和旋转.利用OLAP对空间数据立方体进行多维分析的一般过程是:先按某一维切块得到关注的内容,然后钻取空间数据到达适当的综合层次,再通过旋转动作更换空间数据观察角度,选取重要的空间数据进行切片分析.每个环节可能有一定的重复,但是经过如此切片,切块,旋转,钻取可以形成对空间数据新的观察角度和综合层次,可能提取出有价值的空间信息,得到潜在知识.2.OLAP与地理空间数据立方体OLAP和地理空间数据立方体密不可分,但两者概念内涵不同.如前所述,地理空间数据立方体中的数据不能用于联机事物处理系统(OLTP),而OLAP技术则可利用数据立方体中的数据进行联机分析,将复杂的分析查询结果快速地返回用户.OLAP利用多维数据集和数据聚集技术对数据仓库中的数据进行组织和汇总,用联机分析和可视化工具对这些数据迅速进行评价.从图1.8中可以发现,OLAP用多维结构表示空间数据立方体中的数据,有效地满足用户复杂查询的要求.因此,空间数据立方体的结构将直接影响立方体的设计和构造,进而影响OLAP的工作效率.&&&&数据准备区数据提取数据业务处理系统&&&&客&&&&地理空间数据立方体&&&&多维化处理&&&&OLAP服务器可视化处理&&&&端&&&&户&&&&图1.8&&&&地理空间数据立方体与OLAP的关系&&&&1.2.4地理空间数据挖掘典型方法1.地理空间统计方法地理空间统计是指分析地理空间数据的统计方法,主要是基于空间中邻近的要素通常比相离较远的要素具有较高的相似性这一原理.它是通过空间位置建立数据间的统计关系,其应用范围极广,包括地质,大气,水文,生态,天文,遥测,地震,环境监测,流行病及影像处理等.事实上,除极少数情况外,真实世界的空间数据大多无法仅基于物理化学机制用简单的公式来描述.为解决数据中所隐含的空间不确定因素,地理空间统计模型尝试从凌乱的地理空间数据中,用统计方法发掘地理空间变化规律.地理空间统计分析与传统分析主要有两大差异:(1)空间数据间并非独立,而是在D维空间中具有某种空间相关性,且在不同的空间分辨率下呈现不同的相关程度;(2)大多数空间问题仅有一组(不规则分布空间中)观测值,而无重复观测的资料.因此,真正地了解与&&&&10&&&&&&&&描述空间现象是极为复杂的任务.传统的统计分析技术,特别是基于独立样本的统计方法,并不适于分析处理空间数据.而地理空间统计分析与时间序列分析最大的差异在于空间中并无过去,未来的次序,因而不易透过某种因果关系的描述来建构空间模型.目前地理空间统计模型大致可分为三类:地统计(Geostatistics)格网空间模型,(SpatialLatticeModel)和空间点分布形态(SpatialPointPattern)(如表1.1).地统计是以区域化变量理论为基础,以变差函数为主要工具,研究空间分布上既具有随机性又具有结构性的自然现象的科学.它可以根据离散数据生成连续表面,通过空间自相关进行空间预测.格网空间模型用以描述分布于有限(或无穷离散)空间点(或区域)上数据的空间关系.例如,在流行病学中通过地理区域(如县市,乡镇)的发病人数数据研究疾病发生率与地理位置的关系,在影像处理中利用扭曲或带有噪声的数字影像(如医学或卫星影像)数据,重建背后的真实影像等.在自然科学研究中,许多资料是由点(或小区域)所构成的集合,比如,地震发生地点分布,树木在森林中的分布,某种鸟类鸟巢的分布,生物组织中细胞核的分布,太空中星球的分布等,称之为空间点分布形态,其中点的位置为事件.由于形成机制不同,空间点分布形态具有随机,丛聚或规则等不同类型.基于空间点分布形态的研究,可以找寻丛聚所在,并了解其形成的原因及其可能的影响.空间点分布形态通常由一个D维的空间点过程描述.此类模型的随机机制在于位置本身,其中最基本的空间点过程为均匀泊松点过程,通常用于定义所谓完全空间随机的点分布形态,并与丛聚或规则的分布区别开来.&&&&表1.1数据类型与统计模型&&&&点处理栅格点矢量线面图表基于格网的统计地统计&&&&空间数据统计分析是分析空间数据广泛使用的一种方法,能够很好地处理数字数据,提出空间现象的现实模型.然而,需要指出的是统计分析方法往往假设在空间中分布的数据具有统计独立性,而在现实中,空间物体相关性很大.此外,绝大多数统计模型需要在有丰富领域知识和统计专门技术的专家的协助下才能实现.而且,统计模型不能很好地处理字符值,不完整或非确定性数据.2.地理空间聚类方法地理空间数据聚类是按照某种距离度量准则,在大型,多维数据集中标识出聚类或稠密分布的区域(如图1.9),从而发现数据集的整体空间分布模式.该方法把空间数据库中的对象分为有意义的子类,使同一子类内部的成员有尽可能多的相同属性,而不同的子类之间差异较大.比如,空间聚类方法可以将距离很近的,散布的居民点聚类成居民区,也可将精准农业中的作物产量图聚类成高,中,低产区.事实上,聚类分析技术把大型数据库分为多个较小的部分,采用分而治之的策略使用户可以更好地分析空间数据,更容易把握大局.地理空间聚类是空间数据挖掘中的主要方法之一,对于处理海量数据,提取大型空间数据库中的有用信息和知识具有十分重要的意义.而且在实施其他空间数据挖掘任务之前,应用空间聚类方法可大大提高挖掘精度与效率.目前,地理空间聚类方法主要有四类:分割法,层次法,基于密度的方法及基于网格的方法.而经典聚类法包括K-mean,K-meriod,ISODATA等.近年来,围绕DMKD领域发展了CLARANS(NgR.etal.,1994),DBSCAN(EsterM.etal.,1996),Murray(MurrayA.J.&&&&11&&&&&&&&etal.,1998)等算法.Kohonen自组织特征映射网络,竞争学习网络等自组织神经网络方法,在空间聚类应用中亦有较好的效果.&&&&完全的空间任意分布聚集型分布分散型分布&&&&经&&&&典&&&&聚&&&&类&&&&空&&&&间&&&&聚&&&&类&&&&完全的空间任意分布模式&&&&124&&&&31&&&&33223&&&&32分散分布模式3&&&&1:极密2:密3:一般密4:稀疏&&&&图1.9&&&&地理空间聚类&&&&3.地理空间关联分析空间数据库存储了大量与空间有关的数据,与关系数据库存在很大区别.空间数据表现了地理空间实体的位置,大小,形状,方向及几何拓扑关系.地理空间关联分析利用空间关联规则提取算法发现空间数据库中空间目标间的关联程度,是空间数据库知识发现研究中的一个重要研究课题.GIS数据库是典型的空间数据库,从GIS数据库中挖掘空间关联规则是理解GIS模型和将GIS数据转化成知识的一种有效方法.地理空间关联分析的核心内容是挖掘空间关联规则.空间关联规则是指空间目标间相邻(如村落与道路相邻),相连(如火车站与铁路相连),共生(如蒙古包与草场的关系),包含(如区域中包含的城市)等空间相关关系.具体而言,空间关联规则中包含各种不同的空间谓词,它们不但可以表示空间对象之间的拓扑关系(如相交,不相交,相邻等),还可以表示空间方位,排列次序(如东,西,南,北等)以及距离信息(如靠近,远离等).空间关联规则指明了空间谓词与非空间谓词间存在的关联性.例如,通过挖掘GIS数据库,可能发现靠近海滩的房屋有90%价格很贵,加油站有75%靠近高速公路等.空间关联规则提取算法并不唯一,较常用的是利用MBR技术,R+树及其他快速方法进行空间分析,并采用概念层次树对拓扑关系进行概化形成拓扑关系数据表,从而提取关联规则.4.地理空间分类与预测分析地理空间分类与预测是根据已知的分类模型把数据库中的数据映射到给定类别中,进行数据趋势预测分析的方法.分类是将数据库中的对象根据一定的意义划分为若干个子集.它和聚类算法的差别在于:聚类算法是根据一定要求将对象聚为一个集合,最后得到的分布模式是聚类之前未确知的;分类算法则是根据已知分布模式的属性要求,将数据库对象归入相应的分类中.在机器学习中,数据分类一般称为监督学习,而数据聚类则称为非监督学习.分类目的是通过学习&&&&12&&&&&&&&确定一个分类模型(或分类器),该模型能把数据库中的数据项映射到给定类别中.地理空间数据分类包括两个步骤(图1.10).第一步通过分析数据库中各数据行的内容建立一个分类模型(分类器),描述已知数据集类别或概念.第二步利用所获得的分类模型(分类器)进行分类操作.首先对模型分类的准确率进行评估,若分类准确率可以被用户接受,则利用该分类器对目标数据库进行分类.分类器的典型构造方法有决策树法,贝叶斯法,神经网络法,近邻学习或基于案例学习等方法.&&&&训练数据分类算法分类规则&&&&风蚀沙地植被覆盖度(%)风蚀厚度(mm/a)级别-25中度轻度-50强度轻度-25中度&&&&If植被覆盖度=50-70and风蚀厚度=2-10then级别=轻度&&&&...&&&&...&&&&...&&&&...&&&&(a)学习过程&&&&测试数据&&&&分类规则&&&&新数据&&&&风蚀沙地植被覆盖度(%)风蚀厚度(mm/a)级别10-25中度-25中度00550-50强度25--10轻度-25中度06630-50&&&&(085号沙地,50-70,2-10)级别?&&&&轻度&&&&...&&&&...&&&&...&&&&...&&&&(b)分类过程&&&&图1.10数据分类过程&&&&预测是利用历史数据记录自动推导出对给定数据的推广描述,实现对未来数据的趋势分析.分类和回归都可用于预测,空间回归规则与空间分类规则相似,也是一种分类器,其差别在于空间分类规则的预测值是离散的,空间回归规则的预测值是连续的.二者常表现为一棵决策树,根据数据值从树根开始搜索,沿着满足条件的分支往上走,走到树叶就能确定类别.空间分类或回归的规则是普及知识,实质是对给定数据对象集的抽象和概括,可用宏元组表示.5.异常值分析若一个数据库包含的数据目标与通常的行为或数据模型不一致,则这些数据目标被称为异常值.绝大多数数据挖掘方法把异常值作为噪音或例外数据,然而,在很多情况下这将会导致重要隐含信息的丢失.从另一角度讲,异常值是内在数据可变性的必然结果.例如,与我国其他城市的商业产值相比,我国经济中心——上海市的商业产值很自然地成为一个异常值出现.在一些应用,如赝品检测,定制买卖,数值分析等任务中,异常值分析有很重要的价值.一个人认为的噪音可能是其他人所需的重要信息,稀有事件往往比规律发生的事件更能说明问题.因此,异常值检测与分析也是一项重要的数据挖掘技术.基于计算机的异常值分析方法主要有三种:基于统计的异常值分析;基于距离的异常值探测;基于偏差的异常值探测.聚类分析方法将异常值视为噪声,事实上可以将异常值探测作为聚类分析的副产品.另外,由于人眼能够迅速,有效地观察出异常数据,利用数据可视化方法探测异常值可以说是一个明智之举.需要指出的是,人眼只擅长于数字数据或二维,三维数据,在探测多种类属&&&&13&&&&&&&&性数据或高维数据时,数据可视化方法没有优势.&&&&1.3&&&&1.3.1空间分析概念1.空间分析的定义&&&&GIS环境下的空间分析&&&&空间分析(SpatialAnalysis,SA)是地理学的精髓,是为解答地理空间问题而进行的数据分析与挖掘.目前,比较典型的空间分析定义有如下几种:空间分析是对数据的空间信息,属性信息或二者共同信息的统计描述或说明(Goodchild,1987).空间分析是对于地理空间现象的定量研究,其常规能力是操纵空间数据成为不同的形式,并且提取其潜在信息(Openshaw,1997;Bailyetal.,1995).空间分析是基于地理对象空间布局的地理数据分析技术(RobertHaining,1990).空间查询和空间分析是从GIS目标之间的空间关系中获取派生的信息和新的知识(李德仁,1993).空间分析是指为制定规划和决策,应用逻辑或数学模型分析空间数据或空间观测值(Landis.J,1995).空间分析是基于地理对象的位置和形态特征的空间数据分析技术,其目的在于提取和传输空间信息(郭仁忠,1996).GIS空间分析是从一个或多个空间数据图层获取信息的过程(DeMers,1997).空间分析是集空间数据分析和空间模拟于一体的技术方法,通过地理计算和空间表达挖掘潜在空间信息,以解决实际问题.空间分析的本质特征包括:(1)探测空间数据中的模式;(2)研究空间数据间的关系并建立相应的空间数据模型;(3)提高适合于所有观察模式处理过程的理解;(4)改进发生地理空间事件的预测能力和控制能力.2.空间分析的研究对象空间分析主要通过对空间数据和空间模型的联合分析来挖掘空间目标的潜在信息.空间目标是空间分析的具体研究对象.空间目标具有空间位置,分布,形态,空间关系(距离,方位,拓扑,相关场)等基本特征.空间关系是指地理实体之间存在的与空间特性有关的关系,是刻画数据组织,查询,分析和推理的基础.不同类型的空间目标具有不同的形态结构描述,对形态结构的分析称为形态分析.例如,可以将地理空间目标划分为点,线,面和体四大类要素,点具有位置这一形态结构,线具有长度,方向等形态结构.考虑到空间目标兼有几何数据和属性数据的描述,因此必须联合几何数据和属性数据进行分析.空间数据分析实际上是对空间数据一系列的运算和查询.不同的应用具有不同的运算和不同的查询内容,方式,过程.应用模型是在对具体对象与过程进行大量专业研究的基础上总结出来的客观规律的抽象,将它们归结成一系列典型的运算与查询命令,可以解决某一类专业的空间分析任务.3.空间分析的研究目标空间分析是指用于分析地理事件的一系列技术,分析结果依赖于事件的空间分布,面向最终用户.其主要目标有:①认知.有效获取空间数据,并对其进行科学的组织描述,利用数据再现事物本身,例如绘制风险图.②解释.理解和解释地理空间数据的背景过程,认识事件的本质规律,例如住房价格&&&&14&&&&&&&&中的地理邻居效应.③预报.在了解,掌握事件发生现状与规律的前提下,运用有关预测模型对未来的状况做出预测,例如传染病的爆发.④调控.对地理空间发生的事件进行调控,例如合理分配资源.总之,空间分析的根本目标是建立有效的空间数据模型来表达地理实体的时空特性,发展面向应用的时空分析模拟方法,以数字化方式动态地,全局地描述地理实体和地理现象的空间分布关系,从而反映地理实体的内在规律和变化趋势.GIS空间分析实际是一种对GIS海量地球空间数据的增值操作.1.3.2空间分析的萌芽与发展空间分析在地理学研究中有着悠久的传统与历史.从某种意义上讲,空间分析孕育了地理学.在古代,人类出于生存和发展的需要,要学会分析周围地理事物的空间关系,因而始终在进行着各种类型的空间分析.作为地理学的第二语言,地图的出现使人类的空间分析能力大大增强.从1863年LalanneL.提出六边形轨道模式到1963年ToblerW.R.提出图像转换方法,前GIS时期的地图学家对地理空间数据自我表述方法极为感兴趣.为使地图有助于空间分析,地理学家试图寻找一种能以形象方式描述数据空间分布的方法,这就是早期的空间统计方法.地图研究者一方面研究空间数据表达及空间数据归纳,一方面借助统计学等数学手段,探索从地图中提取尽可能多信息的方法.长期以来,人们在地图上量测各种地理要素间的距离,方位,面积,或者利用地图进行信息叠加与合成,也基于地图进行较高层次的信息分析,例如社会,经济,文化和军事等领域的各种区域性决策.随着地图理论与应用的广泛深入,物理,数学概念与方法的不断引入以及地学各分支的发展,传统的空间分析能力大大加强,人们对地图表达空间信息的理解与解译能力显著提高.比如,交通部门进行公路选线,需要使修建和运营费用最小,解决这一问题要考虑坡度,地面覆盖物,水系,填挖的土石方量等多个因素.可以从多张地图上抽取相关信息,进行地图投影转换,量测,传统叠加(即将来自不同数据源的图纸绘于透明纸上,在透光桌上将其叠放在一起,然后用笔勾出所需信息)等分析处理,最终达到所选线路最安全,费用最小等目标.现代空间分析概念的提出源于20世纪60年代地理与区域科学的计量革命.初始阶段主要是应用统计分析方法,定量描述点,线,面的空间分布模式,后期逐渐强调地理空间本身的特征,空间决策过程和复杂空间系统的时空演化过程.地理信息系统把人们从过去繁重的手工操作中解脱出来,集成了多学科的最新技术和所能利用的空间分析方法,包括关系数据库管理,高效图形算法,插值,区划和网络分析等,为解决地理空间问题提供了便捷途径,空间分析能力发生了质的飞跃.新一代空间分析的主要目的是从现有数据的空间关系中挖掘新的信息.探测性空间分析方法不仅可以揭示空间数据库中许多非直观的内容,如空间异常点,层次关系,时域变化及空间交互模型,还可以揭示用传统地图不能辨明的数据模式和趋势.在地理信息系统的数字环境中,数据的比例尺能够很方便地改变,能将不同的数据媒介如文字,声音,图形和影像连接在一起.数字环境表明了物体空间上的接近及邻近关系,也提供物体间的相互作用,以及文化,贸易和社会网络的联系.比如上例中利用地理信息系统软件进行公路选线,其量测与叠加等工作都在计算机内进行,与传统空间分析相比提高了工作效率,减小了计算误差.随着GIS技术的不断进步,空间分析成为地理信息系统的核心,是地理信息系统区别于一般空间数据库和普通制图系统的标志.从某种意义上讲,空间分析与GIS间的关系类似于统计学与统计软件包间的关系(Goodchild,1988).&&&&15&&&&&&&&今天的计算机系统用高速网络相互连接,可以将分散在不同系统上的数据,软件功能和存储能力集成为一个有机的整体.互联网环境下的新计算技术——网格计算正在对空间分析产生深远影响,为空间分析提供了在统一环境中工作的可能,使一个系统的知识可以容易地转移到另一个系统,实现数据与知识的共享,系统之间软硬件资源的互操作也变得非常方便.1.3.3GIS与空间分析空间分析涉及地理空间数据的分析,计算,表达等内容,与一般的数据分析方法不同,它强调事件(如森林火灾)或参数(如地面温度)的时空变化.用户利用空间分析技术,通过对原始数据模型的观察与实验,可以获得新的信息和知识,并以此作为空间行为的决策依据.空间分析方法从简单到复杂,简单的方法如两个地物之间的空间距离量测,复杂的方法如对全球气候变化过程的数值模拟.空间分析技术可以分为验证性和探索性两大类,如何选择不同的空间分析方法主要取决于空间数据的特征和应用目标.传统的空间分析方法包括空间信息量算,空间信息分类,空间信息叠加,网络分析,邻域分析,地统计分析等多方面,这些分析方法在一般GIS软件中都已经实现.空间插值,探测性数据分析(描述性统计),解释性分析和确定性数据分析(统计推论和模型的发展与测试)等技术也不断发展与完善.为了适应空间分析新需求的挑战,计算机领域的智能计算技术提供了一系列适应地理空间数据的高性能计算模型,并重点强调在数据丰富的计算环境中所产生的空间分析新方法,包括神经网络,模拟退火,遗传算法和密集计算模拟方法等.目前,空间分析一般采用专业分析模型与GIS集成方式.GIS软件与空间分析软件相结合的方式可分为两种:一种是紧耦合(如图1.11),即把空间分析模块作为一个高级应用模块嵌入GIS软件包中,GIS不仅可以为空间分析提供图形显示功能,而且GIS中的有关数据直接参与空间分析计算.这种方式可以为用户提供方便,全面,有效的使用功能,但造价高,实现周期长;第二种是松耦合(如图1.12),即在两个相对独立的GIS软件和空间分析软件之间增加数据交换接口,使空间分析数据及相关的影响因素和空间分析结果能够在GIS中以各种简单的或复杂的图形方式显示出来,这种方式适用于短期且费用较小的情况.地理信息系统中引入的专业空间分析模块已经在一些国内外地理信息系统软件中部分实现.但总的来看,数量还很少,其原因可以归结为以下几个方面:(1)空间分析理论本身不完善,缺乏权威的,大型的,全面的软件包;(2)空间分析过于专业化的算法阻碍了软件的开发;(3)GIS开发者和空间分析人员之间缺乏交流,对GIS空间分析功能的研究尚不够深入,研究成果尚欠深度.&&&&用户面&&&&空间分析模块&&&&统计分析专业模型&&&&网络分析其他GIS理系统&&&&用户&&&&空间分析模型&&&&GIS&&&&理系统空间数据库数据件&&&&空间数据库&&&&数据交换接口&&&&图1.11&&&&GIS与空间分析的紧耦合&&&&图1.12&&&&GIS与空间分析的松耦合&&&&1.3.4GIS环境下空间分析框架在GIS环境中开发有效的处理地理空间数据的通用空间分析工具,特别是交互式空间数&&&&16&&&&&&&&据分析工具,是一个极具挑战性的研究课题.基于AnselinL和GetisA(1992)提出的一般性框架,GIS环境下空间分析模块的关系如图1.13所示.参照GIS输入,存储,分析和输出等功能,GIS环境下空间分析功能可进一步细分为选择,操作,探索和确认四种.Goodchild1994)(将空间分析分为两大类,一类是所谓的产生式分析ProductModel)(,通过这些分析可以获取新的信息,尤其是综合信息;另一类是所谓的咨询式分析(QueryModel),旨在回答用户的一些问题.从GIS应用角度看,空间分析大致可以归纳为如下两大类:一类是基于点,线,面基本地理要素的空间分析,通过空间信息查询与量测,缓冲区分析,叠置分析,网络分析,地统计分析等空间分析方法挖掘出新的信息;另一类是地理问题模拟,解决应用领域对空间数据处理与输出的特殊要求,地理实体和空间关系通过专业模型得到简化和抽象,而系统则通过模型进行深入分析操作.&&&&选择视图缩放浏览空间查询缓存空间采样探索空间数据分析空间分布全局空间组织局域空间组织&&&&操作聚集分散地图提取质心镶嵌拓扑空间权重覆盖插补&&&&确认空间数据分析空间回归模型确定模型评价模型诊断空间预测&&&&图1.13&&&&GIS环境中的空间分析(AnselinL,1998)&&&&郭仁忠(1996)以空间数据及其特点作为框架来构造空间分析的体系,主要考虑不同数据之间的空间关系,将空间分析框架界定为以下五个方面:空间位置分析,空间分布分析,空间形态分析,空间关系分析和空间相关分析,空间分析类型依据空间信息类型进行划分.考虑到GIS环境下空间分析的易理解性和可操作性,我们将GIS环境下空间分析方法分为如下六个方面:1.确定性空间分析确定性空间分析是指分析处理确定性空间数据或解决确定性空间问题的方法,它是高级空间分析的基础.无论是空间查询,空间统计分析,还是网络分析,基于地图代数的叠加分析等基本分析方法都是基于确定性的算法或技术,包括坐标,长度,面积,体积,方位,形状,空间分布等指标的量测,空间拓扑查询,空间要素图形叠加与属性叠加等.从算法来看,确定性空间分析的算法基本上是基于经典数学方法建模的,其在GIS空间分析技术中已经相当成熟.2.探索性空间数据分析探索性空间数据分析(ExploratorySpatialDataAnalysis,ESDA)是利用统计学原理和图形图表相结合对空间数据的性质进行分析,鉴别,用以引导确定性模型的结构和解法的一&&&&17&&&&&&&&种技术,本质上是一种数据驱动的分析方法.广义上讲,ESDA可以定义为技术的集合,它可描述和显示空间分布,识别非典型空间位置(空间表面),发现空间关联模式(空间集群),提出可用的空间结构及空间不稳定性(空间非固定性)的其他模式(AnselinL,1994).ESDA技术注重研究数据的空间相关性与空间异质性,在知识发现中用于选取感兴趣的数据子集,以发现隐含在数据中的某些特征和规律.相对于传统的统计分析而言,ESDA技术不是预设数据具有某种分布或某种规律,而是一步步地,试探性地分析数据,逐步地认识和理解数据.&&&&EDA数据AOIL数据化&&&&始数据&&&&Rough集&&&&发现知识&&&&图1.14&&&&EIL方法流程&&&&探索性归纳学习方法(ExploratoryInductiveLearning,EIL)是ESDA方法中灵活通用的空间数据分析方法,可以从空间数据库中发现普遍知识,属性依赖,分类知识等多种知识.EIL方法是探索性数据分析(ExploratoryDataAnalysis,EDA)面向属性的归纳学习,(AttributeOrientedInductionLearning,AOIL)和Rough集三种方法的结合,应用流程如图1.14所示.EIL方法表现结果的手段除传统的图形图表外,还可与GIS相结合,利用GIS的可视化技术,把相关结果表示到基础底图上,增强直观效果,其实际应用思路如图1.15所示.&&&&感研究的问题数据集的趣兴&&&&定义探测性分析的空间范围数据探测性归纳学习EIL方法+GIS技术结果可视化检验&&&&先验知识&&&&图1.15&&&&GIS&&&&发现知识&&&&知识库用&&&&用EIL方法从GIS数据库中发现知识基本流程&&&&3.时空数据分析Goodchild曾指出,分析模拟环境问题的主GIS回放要能力是能够处理海量的,异质的,空间导向的数现状理动态据,对地理问题的处理伴随着时空过程.在现实世界中,时间,属性,空间是空间目标的三个不可分时空数据分析割的特性,空间目标的特征随时间变化而变化,其理几何位置,形态,空间关系等信息都是在特定时刻趋势预测或时段通过直接或间接观测得到的.与其他类型的信息相比,空间信息具有明显的时序特征.传统空图1.16时空数据分析的功能模间分析只涉及地理信息的两个方面:空间维和属性维.GIS能同时处理时间维,模拟和分析空间数据随时间变化,即GIS具有时空数据分析(Spatio-temporalDataAnalysis)的能力.时空数据分析是当前及今后GIS界的热点研究问题之一,它不仅描述系统在某一时刻,时段的状态,而且描述系统沿时间维变化的过程,预测未来时刻,时段系统将呈现的状态,以此获得系统变化的趋势,或对过去不同时刻,时段的系统状态回放重现,挖掘系统沿时间变化的规律(见图1.16).&&&&18&&&&&&&&时空数据分析的基础是时空数据模型,时空数据模型通常由数据结构,数据操作和完整性约束三部分组成(张祖勋等,1996).它是以概念方式对客观世界的抽象,是一组由相关关系联系在一起的具有动态特性的实体集,包括几何数据模型和语义数据模型.目前,较典型的时空数据模型概括起来有以下四种:(1)把时间作为新的维数;(2)面向对象建模;(3)将时间作为属性附加项;(4)基于状态和变化建模.时空数据模型的主要问题是:现有模型多是从计算机表达的角度出发,而不是面向地学问题的,因此缺少对地理实体的显示定义和基础关系描述,不能在语义层次上实现数据的共享,为此应建立基于地理特征的时空数据模型,加强空间事件的时间标记方法研究,时间标记应以尽可能减少冗余数据,提高时间数据检索与分析的效率为目标(王家耀,2000).4.专业模型集成分析解决某一类地理问题时,由于各种应用系统的服务对象,解决问题的类型,复杂程度等方面差异很大,不同的研究对象或专业范畴需要不同的专业模型.专业模型是在对系统所描述的具体对象或过程进行大量专业研究的基础上,模拟或抽象客观规律,将系统数据重新组织,并总结出与研究目标有关的,有序的数据集合的有关规则和公式.专业模型中既有定量模型,又有定性模型,既有结构化模型,又有非结构化模型,如土地利用变化动力学模型,区域水资源承载力模型,大气环境评价模型,水环境评价模型,农作物长势监测与估产模型,干旱与荒漠化监测模型等.还有一些模型如水体动力学模型,大气环流模型及城市空间动力学模型等空间模型是进行三维分析的重要专业模型.地理问题模拟是空间分析的重要研究内容,主要是利用有关专业模型来模拟对象的行为过程,预测对象发展,变化趋势,发现对象间的相互关系,得到所需的信息或知识.运用专业模型集成分析可以将地理实体和空间关系通过专业模型进行简化和抽象,系统则通过模型进行深入分析.目前,通用GIS空间分析功能与各种领域专业模型集成主要有两种途径:(1)基于组件的嵌入式耦合(如图1.17),即利用组件开发技术,将专业应用模型封装成一个组件,作为GIS系统的一部分.GIS的通用功能组件与应用模型组件具有公共的数据环境和操作平台,并以统一的用户界面与用户进行交互.这种方法的优点在于充分利用GIS空间分析功能,支持应用问题的数据集定义,模型定义,模型生成和模型检验等整套过程.(2)基于数据交换的松散耦合方式(如图1.18),即GIS与专业模型相对独立,专业模型由其他外部软件实现,二者之间在一定的规范和协议支持下,采用数据通讯的方式进行联系.从总体上说,此种结合方式实现简单,技术要求低,但对用户自己定义的专用模型支持程度不够,不能很好地处理复杂问题.&&&&图空间分析&&&&图形化用户界面据空间与属性数库&&&&化用户界面&&&&地理信息系统&&&&图&&&&化用户界面&&&&专业应用模型&&&&空间操作专业模型库专业知识库空间信息服务&&&&空间分析空间操作空间信息服务&&&&大气环境评价模型干旱与荒漠化监测模型土地利用变化动力学模型&&&&&&&&空间数据库&&&&&&&&专业数据库&&&&图1.17&&&&基于组件的嵌入式耦合&&&&19&&&&图1.18&&&&基于数据交换的松散耦合&&&&&&&&5.智能化的空间分析由于地理对象具有动态性,多重性,复杂性等特点,地理对象的数据表达普遍存在模糊性与不确定性,地理数据的不确定性理论是GIS界公认的极为重要也是极为困难的基础理论课题之一.对于这些具有模糊性,不确定性的地理空间数据,传统的空间分析方法显得无能为力,将数学,计算机和信息科学领域的人工智能技术引入地学分析,可使许多以前不可能实现的模糊问题找到新的解决途径.GIS向智能化方向的革新给空间分析带来了强大的生命力,为地理学研究提供了一个更加科学,有力的分析技术平台.计算机智能可以兼容大规模现实世界问题中的不精确性和不确定性,能够达到易加工,鲁棒性,可编程,低成本,快速和精确(与人类操作接近)处理空间数据的目的.智能生命,进化计算和神经网络是计算机智能领域的主要代表.智能生命是一种集成了几种进化原则的方法,它基于简单规范,具有能开发出新颖,有效和充分标志大型地理空间数据库的模式和空间关系方法的巨大潜力.进化计算在处理优化难题方面具有明显优点;神经网络则有可能成为计算机智能驱动空间数据分析程序的惟一重要组成.因此,计算机智能是最适合GIS空间分析的技术,它不仅能完成大规模并行计算和有效处理信息等任务,而且还可以通过调整某些参数进行自我学习.智能化空间分析方法经历了从决策树,基于知识的专家系统到基于智能计算的分析方法的发展历程.随着计算机智能技术的不断进步,智能化空间分析方法可以解决越来越复杂的地理问题,并使其效率与精度得以提高.将智能计算技术与空间分析有效地融合起来,能够有效地解决GIS环境下空间分析中的不确定性问题.6.可视化空间分析空间数据的可视化以及基于可视化技术的空间分析,空间数据挖掘和知识发现已发展成为空间数据处理的重要手段和关键技术.GIS可以将空间数据转化为地图,使这些数据所表达的空间关系可视化,人们可以在地图,影像和其他图形中分析它们所表达的各种类型的空间关系.可视化空间分析主要用于分析空间对象的空间分布规律,进行空间对象的空间性质计算,表现数据的内在复杂结构,关系和规律.目前,可视化空间分析已由静态空间关系的可视化发展到动态表示系统演变过程的可视化.&&&&20&&&&&&&&第2章&&&&GIS空间分析基础&&&&空间分析是地理信息系统区别于其他信息系统的独特功能,空间分析处理的对象是地理空间目标.在GIS中,空间是一个极其重要的术语,地理对象的空间位置,空间形态,空间格局,空间关系等特征信息需要通过空间坐标系统,空间尺度,空间数据结构和空间数据模型等来表达与描述,地理空间问题需要通过空间计算,空间推理等方法来获取与求解.因此,理解空间和地理空间的准确含义,掌握地理空间坐标系统的建立方法,熟识地理空间数据的特征是进行GIS空间分析的前提和基础;而对纷繁复杂的客观世界的本质认识,把各种具体应用问题抽象为一般性的典型地学问题,则是GIS辅助决策的关键.&&&&2.1&&&&2.1.1空间的概念1.空间&&&&空间与地理空间&&&&同时间一样,空间是人类最基本的认知对象之一.日常语义上的空间是指事物之间的距离或间隔.空间知识的本质问题是一个古老的研究领域,哲学家,天文学家,物理学家对空间的论述众说纷纭.从中世纪开始,在自然哲学和自然科学中空间取得了一个更抽象的意义,它是指包容一切事物的无限的维度.布鲁诺将空间作为一种持续延伸的三维自然属性.牛顿认为空间是一个可以由数学方法量测的对象,如欧氏几何所描述的空间.牛顿的追随者多把空间作为一种客观存在物——物体或物质.莱布尼茨强调空间是一个关系概念,表示事物之间共有的数学关系,是各种关系的总和,没有物体就没有空间,如拓扑几何学和图论描述的就是空间结点之间的关系.康德则从主观方面界定空间,认为空间不是一个从外部经验得来的经验概念,而是人类感觉的一种形式,由于空间才能将人类对外部事物的各种感觉统一起来.空间是一个复杂的概念,具有多义性,既有与时间对应的含义,也有宇宙空间的含义.空间可以定义为一系列结构化物体及其相互间联系的集合(Gatrell,1991).从感观角度将空间看作是目标或物体所存在的容器或框架(Freksa,1991;Nunes,1991),因此空间更倾向于理解为物理空间.不同的学科中对空间的解释各不相同,天文学认为空间是时空连续体系的一部分;从物理学的角度,空间为宇宙在三个相互垂直的方向上所具有的广延性;在数学中空间概念的范围很广,一般指某种对象(现象,状况,图形,函数等)的任意集合,其中要求说明距离或邻域的概念;从地理学的意义上讲,空间是客观存在的物质空间,是人类赖以生存的地球表层具有一定厚度的连续空间域,是地理信息系统表达和研究的对象.为了在GIS中对地理空间进行描述,常常需要借助于抽象的数学空间表达方法.2.欧氏空间欧氏空间是对物理空间的一种数学理解与表达,是GIS中常用的一种重要空间.大多&&&&21&&&&&&&&数空间实体在GIS中用二维方法描述,其关于距离以及方位的度量依赖于欧氏空间,许多地理信息模型均以欧氏空间为基础.欧氏(Euclidean)空间是欧氏几何所研究的空间,是对现实空间简单而确切的近似描述,分为平面和立体两种,可以看作是描述空间的坐标模型.其中平面通过一个简单的二维模型把空间特征转变成实bX数元组特征,该二维模型建立在包括一个固定原点和相交于原点的两条坐标轴的平面直角坐标框架下,对点,线,β|ab|面特征的描述均有相关规定.(1)点目标aα在欧氏空间中,点用一组惟一的实数对(x,y)标识,Yx,y分别为其横,纵坐标值,所有这样点的集合就是一图2.1笛卡尔平面个笛卡尔平面,记为R2.笛卡尔平面内的点被看作向量,向量表示从原点到点(x,y)的线段,并可以对其进行加,减,乘,求模等运算.&&&&相加:(x1,y1)+(x2,y2)=(x1+x2,y1+y2)相减:(x1,y1)(x2,y2)=(x1x2,y1y2)求模:x=x2+y2乘常数:k(x,y)=(kx,ky)&&&&(2.1)&&&&如图2.1所示,在笛卡尔平面内,假定有向量a,b,其坐标分别为(a1,a2)和(b1,b2),则a,b间的距离可计算为&&&&ab=(b1a1)2+(b2a2)2&&&&向量a和b之间的角度α可以用三角公式来计算为&&&&(2.2)&&&&cosα=(a1b1+a2b2)/(ab)&&&&从a到b间的角β(0到360°之间的角度),可以计算为&&&&(2.3)&&&&sinβ=(b1a1)/abcosβ=(b2a2)/ab&&&&(2.4)&&&&(2)线目标GIS中线可以代表空间物体的属性及其边界.在笛卡尔平面中,线目标被定义为点集合.例如,点A和点B为两个不同的点:在R2平面中过点A和点B的直线可以定义为点集合{λa+(1-λ)b|λ∈R2};2在R平面中在点A和点B之间的线段可以定义为点集合{λa+(1-λ)b|λ∈R2};2.在R平面中以点B为顶点,过点A的射线可以定义为点集合{λa+(1-λ)b|λ≥0}根据线目标形状的不同,变量λ在特定的范围内变化.给定不同的参变量时,组成线物体的点集合也就被定义了,即定义了不同形式的线.直线还可以用一个简单的二维公式ax+by=k来描述,ax2+bxy+cy2=k则可以描述而更加复杂的线目标,如圆,椭圆,多边形的边界等.(3)面目标R2的平面,面目标也称为多边形.多边线由有限条线段组成,除两个端点外每一点都被两条边所共有,多边形由多边线构成.多边形可分为三类:凸多边形,凹多边形以及含内环的多边形.凸多边形是指任意两顶点间的连线均在多边形内,即从凸多边形内部的任何一个点看其他各点都是可见的;凹多边形是指任意两顶点间的连线不全都不在多边形内的部分,也叫星多边形,一个星形的多边形缺点就是从多边形的任何一个点来看至少有一个点不可见;含内环的多边形则是指多边形内再套有多边形,多边形内的多边形也叫内环,内环之&&&&22&&&&&&&&间不能相交.(4)欧氏平面的变换在GIS中,为了突出或压缩目标某一方面的特征信息,往往需要进行变换,在改变对象某些性质的同时保留对象的另外一些性质,最终实现对空间对象某些性质或某方面信息的压缩或扩大.欧氏平面的基本变换类型为:①全等变换:保持空间对象的形状和尺寸不变.如不改变空间对象的形状和大小,进行平移或旋转变换.平移只将整个平面的所有点都向某个方向移动,例如平面内的点(x,y)经平移后的坐标变为(x+a,y+b),这里a和b是常数.对欧氏平面的所有点以原点为中心,以一定角度a进行旋转,则对任一属于该平面的点(x,y),旋转后其坐标为(xcosθ-ysinθ,xsinθ+ycosθ),这种变换也没有改变空间对象的大小和形状.②相似变换:保持空间对象的形状不变,大小发生变化,从某种意义上说,全等变换为相似变换的特殊情况.按照一定比例进行缩放是相似转换的典型情况.对于平面内任一点(x,y),经缩放转换后坐标变为(ax,by),a,b为变换比例.③仿射变换:保持空间目标的相似性不变,例如平行的空间目标经过仿射转换后仍然保持平行.仿射是将欧氏平面中的所有点以通过原点且与x轴成a角度的直线为中心进行翻转,原来欧氏平面中的任一点(x,y)经过仿射后的坐标为(xcos2a+ysin2a,xsin2a-ycos2a).④投影变换:保持空间目标投影性质的变换.其基本思想是在一个灯光源上将一幅图投影到一个屏幕上.经过投影,一个圆可能变成一个椭圆.⑤拓扑变换:保留空间对象的拓扑特征不变的变换.3.拓扑空间拓扑空间是另一种理解和描述物理空间的数学方法,也是GIS中常用的重要数学空间.欧式空间擅长平面二维空间目标的空间方位,规模的表达,而拓扑空间则是描述空间目标宏观分布或目标之间相互关系的有效方法.拓扑一词源于希腊文,原意为形状的研究.拓扑学是几何学的一个分支,研究图形在拓扑变化时不变的性质,对GIS处理的几何对象及空间关系给出了严格的数学描述,为GIS中空间点,线,面之间的包含,覆盖,分离和连接等空间关系的描述提供了直接的理论依据.拓扑(Topological)空间是距离空间的拓展.从更广泛的意义来看,拓扑空间是一组任意要素集,是一个连续的概念,并在位置关系基础上进行定义.区域,边界,连通等几何对象以及几何对象的空间关系在拓扑空间中均有定义.在拓扑空间中,欧氏平面可以想象成由理想弹性模型做成的平面,它可以任意延伸和收缩,但不允许折叠和撕裂.若空间目标间的关联,相邻与连通等几何属性不随空间目标的平移,旋转,缩放等变换而改变,这些保持不变的性质称为拓扑属性,变化的称为非拓扑属性.如一个多边形及多边形内的一点,无论怎样延伸或收缩,该点仍会在多边形内,而多边形的面积发生变化,这里点的内置是拓扑属性,面积则为非拓扑属性.拓扑关系(TopologicalRelation)是不考虑距离和方向的空间目标之间的关系,包括相邻(Adjacent),邻接(Connection),关联(Conjunction)和包含(Inclusion)等.GIS中利用拓扑可以有效减少数据存贮量.在空间分析中利用拓扑可以高效管理要素间的共同边界,定义并维护数据的一致性法则,进行空间特征的检索查询,叠加,缓冲等分析.在数据处理中有效协助数据空间和属性的重新组织等.拓扑关系也可以用于检测数据质量或生成新数据集.2.1.2地理空间地球表面上的一切地理现象,地理事件,地理效应,地理过程统统都发生在以地理空间为背景基础之上.在地理学中,地理空间(GeographicSpace)是指物质,能量,信息的存&&&&23&&&&&&&&在形式在形态,结构,过程,功能关系上的分布方式,格局及其在时间上的延续.它是上至大气电离层,下至地幔莫霍面的区域内物质与能量发生转化的时空载体,是宇宙过程对地球影响最大的区域,它被定义为具有空间参考信息的地理实体或地理现象发生的时空位置集(Worboys,1995).地理空间十分复杂,其各组成部分之间存在内在联系,形成一个不可分割的统一整体.而且地理空间具有等级差别,同等级地理空间之间亦存在差异.GIS中的地理空间(Geo-spatial)是指经过投影变换后,在笛卡尔坐标系中的地球表层特征空间.它是地理空间的抽象表达,是信息世界层面的地理空间.地理空间由地理空间定位框架及其所连接的地理空间特征实体组成.其中地理空间定位框架即大地测量控制,为建立所有地理数据的坐标位置提供通用参考系统,将所有地理要素同平面及高程坐标系连接.地理空间特征实体则为具有形状,属性和时序性的空间对象.地理空间的数学描述可以表达为:S={,R},其中设E1,E2,…,En为n个不同类的地理空间实体,R表示地理空间实体间的相互联系,相互制约关系,={E1,E2,…,En}表示地理空间中各组成部分的集合.也就是说,可以简单地将地理空间理解为一个空间目标组合排列集,其每个目标都有具体位置,属性和时间信息以及与其他对象的拓扑关系和语义关系.GIS中地理空间一般被定义为绝对空间和相对空间两种形式.绝对空间是具有属性描述的空间几何位置的集合,由一系列不同位置的空间坐标组成;相对空间是具有空间属性特征的实体集合,由不同实体之间的空间关系构成.具体来说,绝对空间来源于地理位置的惟一性,有其欧氏空间基础,即相对于地球坐标系的绝对位置;相对空间则是实体之间的空间关系及其推理机制定义的.通过地理空间和欧氏空间的统一,将地理现象的相对特性(宏观的空间关系)和绝对特性(空间位置的精确特征)紧密有机地联系在一起.地理空间是多维的.长期以来,主要考虑二维地理空间的问题,将地理空间简化为二维投影的概念模型一直是二维制图和GIS中的普遍做法.随着应用的深入和实践的需要,二维简化空间的缺陷越来越明显,需要加强研究地理空间的三维本质特征及在三维空间概念模型下的一系列处理方法.从三维GIS的角度,地理空间应具有不同于二维空间的三维特征:①几何坐标上增加第三维信息(垂向坐标信息);②垂向坐标信息的增加导致空间拓扑关系的复杂化,无论0维,1维,2维还是3维对象,在垂向上都具有复杂的空间拓扑关系;③二维拓扑关系是在平面上呈圆状发散伸展,而三维拓扑关系则是在三维空间中呈球状向无穷维方向伸展;④三维地理空间中的三维对象具有丰富的内部信息(包括属性分布,结构形式等).地理空间具有可分性(Divisibility).任何一个空间域都可以分成若干个子区域,这些分割可以是镶嵌分割(Tesselations)或循环分割(RecursiveSubdivision).其中前者有著名的泰森多边形(Thiessenpolygons)和Delaunay三角形,而后者是GIS中数据模型TIN的原型,常用的一个循环分割法有四叉树,这种以正方形为基础的循环划分方法可以推广到以点,矩形和三角形为基础的划分方法.地理空间具有尺度特征.从理论上讲,地理空间是无限可分的,但对于地理空间的描述必须建立在一定的尺度基础上,在地理学上尺度一般都表述为比例尺.同一对象在不同尺度空间的描述是不同的,如在大比例尺地图上一条河流为面状对象,而在小比例尺地图上该对象可能是一线状对象.在研究地理空间时,尺度性必须加以考虑.2.1.3地理空间的抽象地理信息系统是一种数字式描述现实世界的简化方式,本质上是对客观地理世界的近似模拟.它以计算机内部的二进制数字世界作为存储载体,采用高度抽象的方法将空间地物或现象抽象成几种基本类型——点,线,面和复合对象,而空间地物间的关系采用空间拓扑关系来描述,根据一定的方案建立数据模型对现实世界的数据进行组织.用GIS语言对现实&&&&24&&&&&&&&地理世界的表达要求尽可能真实地模拟现实世界,易于理解,并便于在计算机上实现,这是一个从现实世界—概念世界—数字世界的认知,描述和转换过程的复杂,可以理解为地理空间的多级抽象.概念化描述纷繁复杂的现实世界是人类认识现实世界,建立数字化地理空间的第一步.所谓概念是人们对现实世界的认知与理解,主要是使用自然语言表达空间信息.通过建立地理空间概念模型形成概念世界,是GIS将现实世界采用数据进行表达和分析的桥梁.概念模型是从现实世界到人的大脑世界的映射,是地理空间中实体与现象的抽象概念集,也可以看作地理数据的语义解释.它不依赖于具体的计算机硬件和软件,是人们对客观地理空间世界的第一次抽象组织和表达.将概念模型形式化,实现地理空间从概念世界到数字世界的表达是对地理空间的再次抽象,最终使客观世界能够存储在计算机中并可以进行一系列相应的处理,操作,管理,分析和模拟.从抽象层次而言,需要依次构建逻辑数据模型(LogicalDataModel)和物理数据模型(PhysicalDataModel).逻辑数据模型是GIS对地理数据表达的逻辑结构,由概念模型转换而来,是用户通过GIS看到的现实地理空间世界,也是用户从GIS数据库所看到的数据模型.它是系统抽象的中间层,既面向用户建模,也面向系统建模.建立逻辑数据模型既要考虑用户易于理解,又要考虑便于物理实现,易于转换成物理数据模型.物理数据模型面向具体的GIS数据库和硬件,是计算机内部具体的存储形式和操作机制,与具体的数据库,操作系统和硬件有关,是系统抽象的最底层.&&&&2.2&&&&地理空间参考系统&&&&地理实体空间位置,分布,形态,空间关系(距离,方位,拓扑,相关场)等基本特征的精确描述依赖于空间参考系统,空间参考系统定义了地理空间三维表面的空间坐标系统及各坐标系统间的数学关系.所有的地理要素只有按经纬度或者特有的空间坐标系统进行严格的空间定位,才能使具有时序性,多维性,区域性特征的空间要素进行复合和分解,将其中隐含的信息变为显示表达,形成空间和时间上连续分布的综合信息基础,支持空间问题的分析,处理与决策.可见,地理空间参考系统是对地理空间的精准表达并成为数字模拟的基础.2.2.1地理空间坐标系统地理空间坐标系统是空间位置的度量衡,是确定空间位置,空间距离,空间方位,空间关系等信息必需的工具,是空间数据分析的基础和前提.1.地球椭球体(1)参考椭球体地球表面自然地形高低起伏,极不规则.为了用数学方法描述和表达地球表面,需要选择一个与地球形状,大小接近的球体来近似代替.一般假定当海水处于完全静止的平衡状态时,从海平面延伸到大陆之下形成包围整个地球的,与地球重力方向处处正交的一个连续,闭合的水准面,称为大地水准面.大地水准面所包围的球体称为大地球体或大地体.在大地水准面的基础上,使用水准仪可以测量地球自然表面上任意一点的高程.大地水准面包围的地球形体比较接近真实的地球形状,但仍是一个有100m起伏幅度的复杂曲面,不能用简单的数学方程表示,更难在此面上进行简单而又精密的坐标和几何计算.为此,以一个接近地球整体形状的旋转椭球代替真实的地球形体,这个旋转椭球为参考椭球,称之为地球椭球体,简称椭球体.地球椭球体表面是一个规则的数学表面.椭球体的大小用长半径a和短半径b来表示,或由一个半径和扁率α来决定.扁率为椭球的扁平程度,扁率α=(a-b)/b.&&&&25&&&&&&&&由于地球上不同地区地形起伏差异很大,难以用单一的地球椭球体很好的吻合所有地区的地表状况.一个多世纪以来,不同国家,地区先后采用了逼近本国或本地区地球表面的椭球体,引入了源于不同方法,适合不同地区,来自不同年代的地球椭球体,如美国的海福特椭球体(Hayford),英国的克拉克椭球体(Clarke),白塞尔椭球体(Bassel)和原苏联的克拉索夫斯基椭球体等(表2.1).我国1952年以前采用海福特椭球体,1953年开始采用克拉索夫斯基椭球体建立北京1954坐标系,1978年采用1975年国际大地测量和地球物理学联合会(IUGG)推荐的地球椭球体建立新的西安1980大地坐标系.&&&&表2.1&&&&椭球体名称白塞尔(德国,Bessel)克拉克II(英国,Clarke)克拉克I(英国,Clarke)海福特(美国,Hayford)克拉索夫斯基(原Krassovsky)苏联,1975年国际椭球(IUGG)埃维尔斯特(Everest)年代&&&&各种椭球体模型数据&&&&扁率1:299.151:293.471:295.0主要的使用国家波兰,罗马尼亚,捷克,斯洛伐克,瑞士,瑞典,智利,葡萄牙,日本越南,罗马尼亚,法国,南非埃及,加拿大,美国,墨西哥,法国意大利,比利时,葡萄牙,保加利亚,罗马尼亚,丹麦,土耳其,芬兰,阿根廷,埃及,中国(1952年前)原苏联,保加利亚,波兰,罗马尼亚,匈牙利,捷克,斯洛伐克,德国,中国1975年国际第三个推荐值&&&&长半径(m)短半径(m)&&&&1910&&&&6378388&&&&6356912&&&&1:297.0&&&&&&&&&&&&&&&&1:298.31:298.751:300.8&&&&(2)椭球定向和椭球定位建立椭球体后,需要进行椭球定向.椭球定向是指确定椭球旋转轴的方向,即旋转椭球体需要套在地球的一个适当的位置上,这个位置就是大地原点,是这一地理坐标系的坐标原点,所有大地坐标均以大地原点作为坐标计算的起算点.椭球定位是指确定椭球中心的位置,可分为局部定位和地心定位两类.局部定位要求在一定范围内椭球面与大地水准面有最佳的吻合,对椭球的中心位置无特殊要求;地心定位要求在全球范围内椭球面与大地水准面有最佳的吻合,同时要求椭球中心与地球质心一致或最为接近.不论是局部定位还是地心定位,都应满足两个平行条件:椭球短轴平行于地球自转轴;大地起始子午面平行于天文起始子午面.这两个平行条件是人为规定的,目的在于简化大地坐标,大地方位角与天文坐标,天文方位角之间的换算.2.坐标系统由物理学可知,要定量描述质点的位置和位置随时间的变化,必须选定一个参照系,并在参照系上建立一个坐标系统,统一的地理坐标系统是建立GIS的基础.根据不同的测量方法,应用目标和计算方法,坐标系统可以分为很多类型,常用的大地坐标系就有150余个,不同国家所采用的坐标系统往往不同.另外,坐标系统的建立和发展具有一定的历史特性,即使在同一个国家,不同的历史时期由于习惯的改变或经济的发展变化也会采用不同的坐标系统.从几何学角度看,由原点位置,三个坐标轴的指向和尺度等要素可以定义一个坐标系统,通过坐标平移,旋转和尺度转换,可以将一个坐标系统变换到另一个坐标系统.测量中一般采用两类坐标系:天球坐标系和地球坐标系.(1)天球坐标系天球坐标系是惯性坐标系,其坐标原点及各坐标轴指向在空间保持不变,用于描述天体,卫星位置和状态.在天球坐标系中,天体S的空间位置可用天球空间直角坐标系或天球球面&&&&26&&&&&&&&坐标系两种方式来描述(图2.2).在天球空间直角坐标系中,地球质心M为坐标系原点,Z轴指向天球北极Pn,X轴指向春分点Γ,Y轴垂直于XMZ平面,与X轴和Z轴构成右手坐标系,在此坐标系下天体S的位置由坐标(X,Y,Z)来描述.天球球面坐标系的定义是:地球质心M为系统原点,含天轴MPn与春分点轴MΓ的天球子午面即基准子午面与过天体S的天球子午面的夹角α称为赤经;天体S与原点M的连线相对于天球赤道平面的夹角δ称为赤纬;原点M到天体S的径向长度γ称为天体S的向径.天体S的位置在天球球面坐标系下的表述为(γ,α,δ).上述坐标系统的建立是基于假设地球为均质的球体,且没有其他天体摄动力影响的理想情况.实际上,由于日月引力和其他天体引力对地球隆起部分的作用而引起的北天极绕黄北极的运动(即岁差现象)和瞬时北天极绕平北天极顺时针转动(即章动现象),瞬时天球坐标系的坐标轴指向在不断变化.为了建立一个与惯性坐标系相近的坐标系,人们通常选择某一时刻作为标准历元,并将此刻地球的瞬时自转轴(指向北极)和地心至瞬时春分点的方向,经该瞬时的岁差和章动改正后,分别作为z轴和x轴的指向.由此所构成的空间固定坐标系称为所取标准历元t0时刻的平天球坐标系,或协议天球坐标系,也称协议惯性坐标系(ConventionalInertialSystem,CIS),天体的星历通常是在该系统中表示的.&&&&ZzPnhp&&&&SγM春分点ΓXδEYxφOλy&&&&α天球赤道&&&&图2.2&&&&天球空间直角坐标系与天球球面坐标系&&&&图2.3&&&&地心空间直角坐标系和地心大地坐标系&&&&(2)地球坐标系地球坐标系是为了描述地面点的位置建立的一个与地球相关联的坐标系.常用的地球坐标系有:①地心坐标系通常把满足地心定位和双平行定向条件,椭球参数在全球范围内与大地体最密合的地球椭球称为总地球椭球,与之相应的坐标系称为地心坐标系.地心坐标系通常分为地心空间直角坐标系(X,Y,Z)和地心大地坐标系(B,L,H)两种.地心空间直角坐标系定义为:它的原点位于地球的质心,Z轴指向国际协议原点CIO,X轴指向国际时间局BIH定义的格林尼治平均天文台子午面和CIO赤道的交点,Y轴与Z轴,X轴构成一个右手坐标系(图2.3).由于这种坐标系采用年间瞬时地极的平均位置——平极,即CIO作为Z轴的方向,所以它是一种平地心坐标系,通常称为国际协议地球坐标系或CIO-BIH坐标系.总地球椭球的中心与地球质心O重合,椭球的短轴与地球自转轴重合,指向定义的地极,通常指向CIO,并定义起始大地子午面和起始天文子午面重合.P点的大地纬度B为过该点的椭球法线与椭球赤道面的夹角φ,大地经度L为该点所在的椭球子午面与格林尼治平大地子午面之间的夹角λ,P点的高度H为P点沿椭球法线至椭球面的距离h(图2.3).&&&&27&&&&&&&&②站心坐标系测量工作中以测站为原点构成的坐标系称为测站中心坐标系,简称站心坐标系.站心坐标系有两种形式:站心直角坐标系和站心极坐标系.站心直角坐标系以测站的椭球法线方向为zГ轴,以测站子午线北端与大地地平面的交线为xГ轴,大地平行圈(东方向)与大地地平面zГ(北)hsSφszxΓ的交线为yГ轴,构成左手坐标系.(东)yГ站心极坐标系是以测站的铅垂线为准,某点在极OГ,其中坐标系中的坐标为(ρs,φs,hs)ρs:卫星S到测站Or的距离;φφs:卫星S在极坐标系中的方位角;yOhs:卫星S在极坐标系中的高度角(图2.4).λ③参心坐标系x具有—定参数,经过局部定位和定向,同某一地区大地水准面最佳密合的地球椭球,称做参图2.4站心直角坐标系和站心极坐标系考椭球.参考椭球上的坐标系叫做参心坐标系.参心坐标系通过—定的参考椭球和一定的大地原点上的大地起算数据(LK,BK)及大地原点至某一点的大地方位角AK,确定一定的坐标系,作为一个参心大地坐标系建成的标志.参心坐标主要运用于经典大地测量中,和测量某一地区的控制网等,故参心坐标又称局部坐标.参心坐标系的地球椭球仅经过局部定位和定向,只要求同某一地区大地水准面最佳拟合,适合于局地应用.参心坐标系也分为参心直角坐标系和参心大地坐标系.④极移现象与协议地球坐标系地球自转轴相对地球体的位置不是一成不变的,存在着位置上的变动.地极的位置在地极平面坐标系中是一个连续的变量,其瞬时坐标(Xp,Yp)由国际时间局定期向用户公布.在某一观测瞬间,地球北极所在的位置称为瞬时极,某段时间内地极的平均位置称为平极.为了使用方便,国际天文联合会(IAU)和国际大地测量与地球物理联合会(IUGG)经过协商,建议采用国际上5个纬度服务(ILS)站以年的平均纬度所确定的平极作为基准点,建立协议地极(ConventionalTerrestrialPole,CTP),通常称为国际协议原点(ConventionalInternationalOrigin,CIO).以协议地极为指向点的地球坐标系就称为协议地球坐标系(ConventionalTerrestrialSystem,CTS),以瞬时极为指向点的地球坐标系则称为瞬时地球坐标系.在大地测量中通常所采用的地心坐标系以协议地极为指向点,如果不特别说明,地心坐标系就是协议地球坐标系.(3)常用椭球面上的坐标系统①国家大地坐标系目前我国常用的国家大地坐标系(1954年北京坐标系和1980年西安坐标系)均为参心坐标系.1954年北京坐标系(简称54坐标系)建立于我国建国初期.由于当时缺乏椭球定位的必要资料,我国将东北呼玛,吉拉林,东宁基线网与原苏联远东的大地网相连接,以原苏联1942年普尔科沃坐标系的坐标为起算数据,并平差我国大地网的一等}

我要回帖

更多关于 我的梦想作文500字大全 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信