近年来,中国经历了人类史无前例的城市化扩张征程。城市占地面积从1984年的8800平方公里上升到2010年的41000平方公里,而这仅仅是开始,2011-2013年间,中国混凝土使用量超过美国整个20世纪的使用量。
然而有一些楼房是被错置的。在中国的很多地方,开发商飞速地盖起诸多房屋,即使是在这个世界第一人口大国,也早已远远超过了市场需求。这个结果正是“鬼城”现象的成因——整个城市地区多多少少地被遗弃了。
2010年,《时代》杂志在内蒙古鄂尔多斯的康巴什地区拍了组图片,把这个当时人迹罕至、过度开发的新城区称为Ghost City,后来“鬼城”成了你在媒体上经常看到的词语。
《时代》在2010年拍摄的鄂尔多斯
这个热门词曾经一度受到争议,“鬼城”也成了颇有中国特色的现象。而做互联网搜索的百度,最近想用大数据更精确、更科学的说明“鬼城”到底是怎样一种状态。
▌ 百度的鬼城研究能让你看到什么?
中国有13.6亿人口,其中7亿已经注册成为百度用户,这使得百度的数据库极具规模。当然这些用户大多数是年轻人,所以这些数据无法代表整个中国社会。不过,它确实给出了有关城市密度的思考。
在2014和2015年,百度每天追踪用户位置,时长超过6个月,并使用了一个普遍的聚类算法来计算用户的标记位置。然后他们把这些位置信息和另一类已知的居住区域数据关联起来,得出他们的实际居住位置。最后计算出城市密度——即平均每100平方米内的居住人数。
打开百度鬼城项目的专题页面,你首先看到的是一张中国地图,其中红色区域就是百度用算法分析得到的高空置率区域,也就是所谓的“鬼城”了。你能放大来看具体某个城市的某个区域。
不过这20个城市并没有按照空置率的高低做出排名,百度大数据实验室研发工程师、也是鬼城项目的主导人吴海山告诉《好奇心日报》,他们实际上无法做出一个客观的“鬼城排行榜”:“按照规“鬼城”区域的面积吧,不同城市的面积大小不一样;按百分比吧,城市又分老城和新城之分,拿谁来计算呢?”
此外,他们还会计算出特定区域内的人口密度是否会因为季节推移而发生变化,从而判断这一区域是旅游城市还是真正的鬼城。
“这个结果并不代表整个城市是个’鬼城’,只是一些区域空置率较高,叫做Ghost Town可能更科学一些。”吴海山说。
根据计算,百度总结出的20个典型鬼城,单位最小到区县。这些城市包括威海乳山、鄂尔多斯东胜区、天津滨海新区、成都市双流县等等。
▌ 为了研究鬼城,百度调用了你使用手机的数据
这个看似庞大的项目实际上只花费了2个研究员4个月的时间来完成,它是第一个使用大数据这个相对客观的方法来研究鬼城的项目。
在这之前,对住房空置率的研究算得上是“原始级别”,比如在夜间清点某片区域的灯光数目,或者通过电话访问调查住户情况。
“这些研究大多从宏观层面说,没有说具体鬼城‘鬼’在哪里?到底哪些区域是空的。”吴海山认为,用大数据作为研究方法更为精确。
鬼城的计算过程大致分为两个部分。
研究人员首先通过搜索全网的数据和信息,来确定研究样本的范围。诸如安居客这样的房地产网站可以帮助吴海山的团队确定哪些地方是住宅区,写字楼、别墅区会被算法筛除。
确定居住区以后,下一步是确定每一片居住区的入住率。在这里,百度用了手机应用的数据。
也许你没有意识到,每一次当你打开那些能定位的应用,百度都会记录下你的搜索关键词和位置信息。这些数据构成了鬼城研究的基础,百度一共调用了6个月的用户信息。
这些信息不仅仅来自百度自家的百度地图应用,所有使用百度地图接口的第三方应用比如百度糯米,都被包含其中。
吴海山说你完全不必因此担心隐私问题:“定位数据本身在百度有很高的隐私级别,我们要使用的话是要经过非常严格的审批。能够识别出来用户,ID身份也全部是加密的。”
有了这些数据,百度用算法筛选出住宅区作为样本,在这些地方上划分出一个个最小的研究单位,如果某个单位内的人口数目如果小于一个既定值,即判断为空置区域。
这些区域会被标注,再经过一些列的校准比如和卫星图对比后,最终的宏观结果就是你所看到的一片片红色的方块。
吴海山告诉《好奇心日报》,利用这个算法得出的结果,实际上很难衡量准确度,而且产生数据的手机用户也大多是年轻人。不过他觉得目前的数据衡量是否是空城还是足够的:“国内大概六亿多移动用户,手机百度、百度地图这两个能够达到90%的覆盖率肯定是没问题的。”
实际上百度算出了50个“鬼城”,最终呈现了其中一部分
▌ 鬼城背后是百度的大数据实验室
鬼城是个偏向学术和公益性质的研究。吴海山和他所在的百度大数据实验室,同时也在进行着一些商业化项目,比如可以帮助商户科学选址的“百度慧选”。这是这间实验室80%的工作。
这个在今年8月上线的数据平台调用了用户的搜索数据。比如你打算在某个商业街开一家火锅店,百度会告诉你这个区域有多少人在搜索“火锅”这个词,从而帮你选定一个合适的开业地址。
“中国的中小型企业(做决策的方法)还是比较原始,我们要去帮助他们精细化的操作,大数据是非常能发挥功效的。”吴海山说,用大数据解决商业问题是个很大的市场。
信息来源:好奇心日报
题图来自海洛创意




