点击上方 “蓝色字” 可关注我们! 【作者】何莲娜、黄晓春、程辉、崔真真、王蓓 【摘要】就业人口信息是重要的国情资料,它对城乡规划、行政管理、人口研究、了解市场供求、制定社会 和经济发展计划等都具有重要意义。随着城乡规划编制与管理精细化、层次化、指标化要求的不断提高, 中宏观大尺度的就业人口信息已不能满足当下的需求。由于国民经济与城乡规划两套工作体系长期存在割裂,造成“经”与“规”信息在微观尺度上对话困难的问题变得无法回避。《城乡规划法》第五条规定“城 市总体规划、镇总体规划以及乡规划和村庄规划的编制,应当依据国民经济和社会发展规划,并与土地利 用总体规划相衔接”。但如何依据、如何衔接,对于实操层面的城乡规划专业技术人员来说一直是十分棘手 的问题,究其原因主要在于“经”“规”二者在工作目标、空间范畴、研究体系、技术标准、运作机制等方 面存在交叉和矛盾。本文的关注点在于在大数据时代,如何利用有效的数据挖掘技术,将国民经济统计的 大尺度就业人口信息科学合理地分解到城乡规划领域的用地尺度上,进而实现其在任意空间范围内的定量 分布,为精细化规划编制和管理提供客观的技术方法和数据保障,是研究就业人口空间分布规律和实现空 间模拟的一种尝试。 【关键词】经规合一、大数据挖掘、数学迭代、微观尺度、就业人口、空间模拟 1.引言 就业人口信息是重要的国情资料,它对城乡规划、行政管理、人口研究、了解市场供求、 制定社会和经济发展计划等都具有重要意义。目前就业人口信息的权威数据来源是统计局每 五年一次、以掌握国民经济二、三产发展规模、结构、效益为目的的经济普查,其数据公布 的空间承载单元是乡镇街道办。随着城乡规划编制与管理精细化、层次化、指标化要求的不 断提高,在面对规划分区(如新城、旧城、中心城)或规划功能区(如商务中心区、临空经 济区、高新产业区)等非行政区就业信息分析时,中宏观尺度的数据显然不能满足需求。传 统的以统计区域内平均就业人口密度进行推算的方法,忽略了不同类型就业用地承载就业人 口容量的差异,显然不能反映就业人口空间分布的真实情况。 1.1 经规合一的愿景 基于相同空间单元进行人口、用地、建筑、经济等核心基础数据统计的国家(如美国、 日本等)不存在上述问题。可以说我们之所以陷入经济数据难落地、“经”“规”难合一的困 局,归根结底在于国民经济与社会发展规划和城乡规划二者在工作目标、空间范畴、研究体 系、技术标准、运作机制等方面存在交叉和矛盾。然而在我国当前行政体制下,要真正实现 “经”“规”合一或者多“规”合一,或者一个规划一统天下并不现实,而且目前这种“分割”的规划体系在一定程度上、一定条件下还有其存在的必要性和合理性。机制上不能解决 的问题,技术上能否想办法解决呢? 1.2 大数据与大数据发掘技术 大数据和大数据挖掘技术为我们开启一盏明灯。我们已经从信息时代走到了数字时代和 智能时代,如果数据被赋予背景,它就成了信息;如果数据能够提炼出规律,它就是知识; 如果数据能够借助有效的分析手段,并在此基础上提出正确的决策意见,它就是资源。大数 据(big data),或称巨量资料,是指 所涉及的资料量规模巨大到无法透过目前主流软件工具, 在合理时间内达到撷取、管理、处理、并整理为可用资讯。数据挖掘(data mining)是从大 量的、不完全的、有噪声的、模糊的数据中,通过一定的数学方法提取隐含在其中的、人们 事先不知道的、但又是潜在有用的信息和知识的过程。 1.3 研究目的 本文研究目的在于利用以数学迭代为核心的大数据挖掘技术,实现将国民经济统计的大 尺度就业人口信息科学合理地分解到城乡规划领域的用地上,将两者在微观尺度上有机的统 一起来,创建为“人”服务、以“人”为研究对象的就业空间分布数据(图 1),为精细化 规划编制和管理提供客观的技术方法和数据保障,是研究就业人口空间分布规律和实现空间 模拟的一种尝试。 图 1 多尺度城乡规划空间数据层次分析图 2.研究范围和数据基础 基于城市劳动力市场存在统一性的考虑,本文以北京市六环以内(图 2)的空间区域作为研究范围,该区域符合城市经济学对城市的界定。所涉及到的基础数据包括用地数据、建 筑数据、就业人口分布数据。其中用地数据为 2010 年北京市六环内用地现状(以当年平原 区 0.5 米影像为基础,含有居住与就业的详细分类属性);建筑数据为北京市六环内的建筑 分布现状(含建设规模、建筑高度、建筑基底、建筑性质等属性);就业人口数据包括:1 街乡办尺度的 2009 年北京市第二次经济普查就业人口数据;2基于网络数据智能获取技术 抓取的 2010 年北京市企业黄页数据,含 52 万多个就业单位的空间位置、行业分类(依据国 民经济分类标准)、就业容量等信息。该数据是本文研究的核心主体,不是小数据时代的随 机样本,而是大数据时代 1200 万个就业人口全样本。所有的数据都是含有地理信息的 GIS 空间数据。 图 2 研究空间范围与数据分析尺度示意图 本文的研究尺度为北京市六环区域内边长为 1 公里的格网单元(图 2)。利用数据挖掘 的数学迭代方法,基于格网单元内不同用地类型就业用地规模、建筑规模和不同行业类型就 业人口数据间关系的数据剖析,建立国民经济行业类别与城乡规划用地类别的定量对话关系。 最终实现就业人口用地尺度上的定量分布。 3.研究思路与技术方法 3.1 研究思路 “经济规划难落地”是长期困扰城市规划编制和管理的难题,其主要原因除管理体制外, 技术支撑不到位也难辞其咎。主要体现在国民经济行业分类标准与城乡规划用地分类标准不一致,并且长期以来没有有效的技术手段使二者建立有效的对应关系。同一个行业对应多种 用地类型、同一用地类型对应多种行业类型的情况普遍存在。以汽车工业为例,其就业人口 可分解为来自于办公用地上的汽车设计业、工业用地上的汽车制造业、商业用地上的汽车零 售业,居住区公共服务设施配套用地上的汽车保养业等。 本文的研究思路,首先按照国民经济中各行业就业人口在不同用地类型上分布的规律, 将 98 个大类归纳成 14 个行业;同时以人均就业建筑面积作为共性依据,将城乡规划用地 的96个小类整合归纳为四大用地类。以1公里格网为数据承载单元,通过建立归纳后行业 类型与归纳后用地类型的关联关系,实现就业人口向微观尺度用地单元的分解。 3.1.1 整合行业类型 国民经济行业分类根据国标(GB/T 4754-2002)定义了 20 个门类,98 个大类,400 多个中类和近 1000 个小类。北京市投入产出表将其归纳为 41 个行业类型来研究城市经济活 动中各部门联系的平衡关系。 表 1 行业整合关系表 考虑到不同行业在就业人口在不同类型用地上分配比例关系存在一致性,同时为了简化 运算的难度,本文在投入产出表的行业分类基础上继续归并为 14 个行业作为研究对象(表 1),分别是:1)农业和采掘业;2)轻纺食品业;3)重化工(原料、能源、化工、冶炼加工); 4)冶炼加工业;5)设备通讯制造业;6)其他制造业;7)建筑业;8)交通仓储邮政信息 业;9)批发零售住宿餐饮业;10)服务业;11)文体娱乐业;12)金融房地产业;13)科 技教育业;14)公共管理社会组织。 3.1.2 整合用地类型 城乡规划用地分类根据国标(GBJ137-90)定义了 10 个大类,46 个中类,96 个小类。 考虑到与城市就业活动相关的用地类型在人均建筑面积上具备相似性,本文将其中与就业 相关的城市建设用地整合归并为四个用地类作为研究对象(表 2)。分别是:1)办公用地, 主要针对以写字楼为就业环境的用地类型;2)工业用地,主要针对以厂房为就业环境的用 地类型;3)商业用地,主要针对以零售为就业环境的用地类型;4)公共设施用地,主要 针对独立占地的医疗、教育、体育等公共服务设施和交通市政等基础设施用地类型。这四 种用地类型是发生城市经济活动最核心的空间载体。 表 2 用地整合关系表 3.1.3 建立行业与用地对应关系 假定行业类 1 的总就业人口为 P1,α11、α12、α13、α14 为其在四个用地类中的就业人 口百分比,则有α11+α12+α13+α14=1(图 3),该行业分解到四类用地的就业人口分别为: P1*α11、P1*α12、P1*α13、P1*α14。用地类 1 的总就业人口为:P1*α11 + P2*α21 + …… + P14* α141。确定 14 个行业类中每一类对应的这 4 个参数,即实现了就业人口在用地这个微观尺 度上的定量分布。本文目标若以定量的方式来解读,即为求解 14 组、共 56 个全局参数。 图 3 行业分类与用地分类对应关系分析示意图 3.2 技术方法 本文采用数学迭代法。数学迭代法是一种近似求解方程的方法,是不断用变量的旧值递 推新值的过程。采用迭代算法解决问题,需要做好三个方面工作。第一,确定迭代变量,至 少存在一个直接或间接地可不断由旧值推算新值的变量;第二,建立迭代关系式,指如何从 前一个值推导出下一个值的公式;第三,对迭代过程进行控制。迭代是个无限循环并无限逼 近目标值的过程,必须判断迭代过程的终止条件。通常这个条件为迭代达到一定的次数(如 1 万次,10 万次),或者迭代计算成果与心理预期值一致。 3.2.1 确定迭代变量及迭代关系方程 3.2.2 数学迭代求解实现方法 整个迭代计算求解是在 MatLAB 软件上开发实现的。非线性方程是多解方程,由于初始 值的选取存在随意性,计算所得的解可能是局部最优解,而不是全局最优解。通过选择不同 的初始值和增加迭代的次数来试图无限接近最优解。迭代终止条件通常设为是迭代次数上限, 或计算结果符合对城市规划和城市经济专业背景的认知。本文中这两类终止条件均得到采纳。 其迭代计算求解的过程如下(图 4)。 图 4 数学迭代计算方法示意图 4.研究成果及应用实践 4.1 研究成果及解读 本文基于 25000 次迭代,最终得到初步结果(表 3)。表中数值含义为:某类行业中的 就业人口,在办公用地、工业用地、商业用地、公共设施用地内的百分比。大体上符合预期。 其中农业挖掘业和建筑业百分比总量不足 100%,是由于从业人员就业地点在农田、矿区或 建筑工地,都不属于具有就业建筑空间的城市建设区。表中标红的为就业人口分布比例较大 的用地类型,可以看出轻纺食品业、重化工业等二产,就业人口主要分布在工业用地上;服 务业、金融房地产业从业人员主要分布在商业用地上;而交通、仓储、邮政业,属于用地需 求复合型的行业类型,其就业人口在各类型用地中分布差异较小。 表 3 各行业就业人口在各类用地上分解百分比分析表 4.2 实践应用与检验 4.2.1 案例一:实现中宏观尺度就业人口在微观尺度的空间分布模拟 基于本文的研究成果,在已知研究区域的用地结构和行业结构的前提下(对于经济普查、 统计年鉴等基于行政单元为研究对象的数据源适用性较高),可快速实现就业人口在用地尺 度上的空间分布模拟。以金融街街道办事处为例(图 5),根据二经普就业统计数据,其 2008 年的就业人口为 21.28 万,经过本方法的精细模拟,以人为研究尺度的分布情况一目了然(图 中每一点代表 50 个人)。社会数据传统的粗放平均空间分布产生的失真问题一定程度上得到 解决,为精细化的规划编制、规划研究和规划管理提供坚实的数据基础。 图 5 金融街办事处就业人口空间分布模拟示意图 为了校验研究成果的合理性,笔者空间模拟了全市域范围内以街道办为数据尺度的全部 二经普就业人口数据,共 820 万人,并分析就业人口的集聚度(图 6)。绝大部分就业还是 集中在中心城,外围新城也逐步形成就业集聚核,但其集聚程度远不如中心城。中心城内东 二三环间的区域,包括三里屯、CBD 等地区形成的就业集聚核强度最高,其次是金融街、中 关村和六里桥商务区。新城中顺义新城的就业集聚度最强,其次是通州和大兴,门头沟和昌 平新城较差。亦庄新城作为北京市就业向中心城外疏导的典范,没有产生集聚核很不合理, 是由于本文对混合用地类型考虑疏漏所致。 总体来说,基于本文的研究成果实现的微观就业分布比较符合预期。 图 6 北京市二经普就业人口集聚度分析图(基于本文算法模拟) 4.2.2 案例二:计算人均就业建筑面积及用地指标以便科学预测用地需求 基于本文的研究成果,可以得到不同用地类型人均建设用地指标及人均建筑面积指标分 析表(表 4)和不同行业类型人均建筑规模分析表(表 5)。从而可以科学的预测在就业增长 的前提下,城市建设用地是如何增长的。进而回答,在产业结构调整的大环境下,当某行业 就业情况发生变化时会相应带来城市建设用地空间结构上的哪些改变。为战略规划、总体规 划修编等宏观层面的决策提供技术支撑。 表 4 不同用地类型人均建设用地指标及人均建筑面积指标分析表 表 5 不同行业类型人均建筑规模分析表 5.研究结论与畅想 本论文是基于大数据挖掘技术解决现状城市就业人口空间分布问题的一种尝试,一定程 度上为国民经济与城乡规划在微观尺度上实现数据对接搭建了桥梁,进而为经济规划落空间, 城市建设用地需求预测等规划研究提供了定量分析的技术方法和崭新思路。 目前,支撑本文的研究课题还在继续深化中,下一步我们计划从以下几个方面来完善和 深化模型算法。第一是本文中涉及的用地和行业分类的归并与整合还略显粗放,需要考虑的 更细致,如居住区级的就业行业和用地类型需要纳入进来,混合用地需要重点对待;第二本 文没有分析就业人口与用地类型的对应关系在不同城市空间上的差异,如新城、旧城、中心 城、城南、城北、城市核心区、城市发展新区等是各具特异性,还是存在一致性,需要进一 步检验;第三本文的研究结论,尚缺乏典型案例调研数据的检验和支撑。 最后笔者想强调,数据只有被有效利用和合理共享才能实现其最大价值。由于数据在生 产部门、数据尺度、规范标准、共享格式、内容结构、解释含义等各方面千差万别,其可用 性偏低是全世界各行各业在开展各种各样研究工作时存在的普遍问题。数据的不足应该用创 造性的数据应用方法来弥补,这是每个规划人的责任。 【参考文献 】 [1] 丁成日.“经规”“土规”“城规”规划整合的理论与方法[A].规划管理,2009,(03):53-58. [2] 丁成日.城市土地需求分析[A].国外城市规划,2005,(20):19-25.[3] 黄叶君.体制改革与规划整合——对国内“三规合一”的观察与思考[A].现代城市研究,2012,(02):10-14. [4] 郭耀武,胡华颖.“三规合一”?还是“三规和谐”——对发展规划、城乡规划、土地规划的制度思考[J].广东经济,2010,(01):33-38. [5] 李和平,等.城市规划社会调查方法[M].北京:中国建筑工业出版社,2004.[6] 田莉,等.世界著名大都市规划建设与发展比较研究[M].上海:中国建筑工业出版社,2010. [7] 李新,等.数据同化——一种集成多源地理空间数据的新思路[J].科技导报,2004,12:13-16 [8] 陈楠,等.人口经济学中的GIS与定量分析方法[M].北京:科学出版社,2007.[9] 李成名,等.人口地理信息系统[M].北京:科学出版社,2005.[10] 叶嘉安,等.地理信息与规划支持系统[M].北京:科学出版社,2006.[11] 龙瀛.规划支持系统原理与应用[M].北京:化学工业出版社,2007.[12] 维克托·迈尔–舍恩伯格,等著,盛杨燕,等译.大数据时代[CIP].杭州:浙江人民出版社,2013.