新浪微博作为社交媒体,其中蕴含的数据可以在城市研究中做哪些事情?来自中科院地理科学与资源研究所的王江浩博士,在BCL2015年会上阐述了社交媒体地理的概念,同时给我们带来了两个非常有趣的应用案例。作者演讲内容如下:
社交媒体地理的概念与框架
“社交媒体地理”,是一个新造的名词。对于做传统空间分析的人来说,常规的研究方法就是用遥感、统计数据、问卷等得到数据源,然后对他们进行空间化,在gis系统里进行空间数据建模。
这种方法有一个弊端,难以获取人的信息。
随着大数据时代的到来,海量的大数据,比如志愿者数据,提供了获取“人”的数据集的方法。
常规的社交媒体有微博、微信、QQ、……这些媒体的数据来源于个人,每个人都是数据的贡献者,或者说是利用者。
下面这张图是全世界范围内,从flickr上收集的,超过一亿多张照片合成的带有地理标签的照片分布。
社交媒体地理数据的核心分析包含三个信息:
1、空间信息:位置是在哪里
2、时间信息:什么时间发生
3、语义信息:具有什么含义
近年来我们从文献上发现,基于twitter的研究日益活跃了,每年发表的论文非常多,但作者的背景大多数从事计算机和信息行业,地球科学研究、社会科学研究和规划行业研究来说相对较少。
基于位置的Twitter研究
(Steiger, 2015, TGIS)
作者学科背景
这些研究的内容主要侧重三个方面:
1、事件检测 2、定位推断 3、社交网络
例如灾难的管理、传染病的情况、交通的研究,社交网络研究等。
但是绝大多数研究没有考虑到社交网络中的一个重要信息:时间信息。
有些学者在研究中提到地理位置的重要性;有些学者的论文提取了微博中的时空信息、语义的信息。
在国内由于数据的限制,我们很难拿到关于社交网络方面的数据。
我们通过努力,收集了中国范围内的微博数据,时间跨度为一年,形成了微博空间数据库。我们想做一些社交媒体尤其是微博中时空、语义的分析,分析的框架有以下几点:
1、城市活力研究
2、突发事件监测与预警
3、微观城市人口社会经济模拟
4、人群时空间行为研究
5、城市之间人口流动与相互作用机制
6、城市规划方案设计与优化
从技术上来说有以下几点:
1、数据获取(爬虫系统如python、java、php)
2、建立空间数据库(如PostgreSQL 、PostGIS、MYSQL、oracle spatial)
3、时空数据分析与挖掘(如OSGeo、R)
4、数据可视化(如JS、CartoCSS)
关于社交媒体数据,大家都会有一个疑问,即这些数据都是有偏差的,首先用户人群结构是有偏差的,例如facebook,中国的数据就很少。
为此我们采集了全国范围内超过一年的大约两亿多条带地理标签的微博数据,构建数据库,用这个数据来应对有偏性。
我们把这个数据与灯光遥感进行比对(灯光遥感数据直接反应经济水平和人的分布),结果发现这两个数据是非常相似的。
我们认为数据的代表性是比较强的,从中国的人口密度来看他也是直接能够反映,甚至他相对于传统调查数据,他能提供更精确、更精准的时空间密度的分布。
下面是针对这些数据做了一些科研方面的工作。
应用:人口流动、文化与城际联系
首先是基于社交媒体大数据,构建了城市间人口流动的数据,分析评价城市间的人口联系以及社会文化联系。
中国每十年做一次人口普查,人口普查中没有关于城市之间人口流动方面的统计。这个涉及到的工作量很大,到现在没有这方面的数据,而社交媒体数据提供了新的途径。
我们想了解人口流动背后的机制。
什么影响了人口的流动?我们尝试了和社会经济、文化进行关联,即和中国方言文化进行比较,分析人口流动的驱动力。
研究回顾:
以前城市间联系是一些交通流的数据、人流调查的数据,还有些基于LBS的方式(如百度迁徙)的数据,但尚无基于社交媒体的中国区域内城际联系研究。
我们用Twitter做过一些研究,但是在中国由于数据的局限各方面的研究也很局限。整个流程如下:
首先构建分布式的爬虫在网络上爬取一年内全国的社交媒体的带地理的数据,建立空间数据库。
然后通过注册地和发送微博的地点构建一个带有时空轨迹的数据库,即所谓的城市之间的关联矩阵。
我们得到了中国328个主要地级市之间的关系,然后进一步构建城市人口流动指标。
城市人口流动指标:
流入量:外地人口进入本城市发送的地理微博量
流出量:本地人口在其他城市发送的地理微博量
总流动量: sum = 流入量 + 流出量
本地人本地量:本地人口在本地发送的地理微博量
流入流出比:ratio = 流入量 / 流出量
Inflow
Outflow
Local in Local
Total flow
Ratio = Inflow / Outflow
从上面几张图可以看出哪些城市是净流入型,哪些城市是净流出型。这些数据都是可以从微博中做出来的。
国家唯一可参考的数据就是省际之间的流动人口数据,流动人口的定义是长期居住在一个地区六个月以上,所以两个数据没有直接可比性,但是两者相关系数达到84%。
如果我们将所有的城市投影到一个矩阵上面,红色和黄色的区域就是省际、省内之间的流动情况,他和其他所有城市的交互情况都可以通过微博数据来获取。
这里显示了到中国城市之间城市网络的空间结构。
比如说京津冀区域的空间结构、空间人口交互情况,用我们的分析方式发现人口流动服从大数据常见的power law的分布,也就是说前20个城市的人口流动占了中国总流动人口的40%。
Power law distribution
我们将这个数据和传统的交通调查数据进行比对,发现两者的一致性非常强。
我们进一步分析长三角区域城际联系和城市发展的问题。
长三角地理微博密度图
微博城际联系
交通城际联系
除了做时间序列上的分析,我们还去分析探索数据背后的驱动力。
比如说中国的方言文化(方言中的“我”,在各个地区都有不同的表达方式)。我们构建方言数据,收集了全国两次方言大调查的数据,通过方言数据来构建两个城市之间的指标,得到“城市对”之间方言的差异性,从而反映文化的多样性。
举一个北京的例子,从北京话和周围的相似程度对比,我们发现他确实和地理学第一定律相似,与南方相比有较大的差异。
上图是2010年的研究,下图是1960-1980年的研究
可以发现北京方言的地理分布特征是在不断变化的。我们利用人口流动、方言和其他的控制因子(城市间的距离、经济),发现人们喜欢到和自己文化差异比较大的地方去旅游或商务交流。
应用:华人足迹与人口估算研究
这个应用,充分利用了微博的弱点,即“有偏性”,来进行更为针对性的研究,即估算华人的分布。
这篇文章是我和BCL另一位成员刘行健做的工作,发表在EPA上面(题目是:The geographic of Weibo: Where are the Chinese?)。
由于只有华人才用微博,因此可以投影收集到的全球范围内的所有微博数据,直接体现华人在哪里。
2014年上半年世界范围内所有地理微博热点分布, 共计1.49亿
我们发现,英美这些国家确实有比较高的华人人口,同时美国地方政府也在用微博工具和华人进行交互。
我们用这些数据和美国的普查数据(美国的普查数据统计到每个人种的数量)进行比对,发现一致性非常高。也就是说我们可以通过这些数据直接推演美籍华人在哪里。
Chinese American
(Pew Research, based on 2010 Census)
Chinese American
(Estimated based on geotagged Weibo)
我们也发现,大数据虽然可以做一些推断,但是他在一些极值,比如说华人特别少的地方或华人特别多的地方,很难估计。我们需要采取一些其他的措施。
研究的一些心得和体会:
社交媒体空间大数据,具有一些缺陷,所以需要进行纠偏,这是大样本数据的代表性问题,即需要去伪存真。
另外,相比于轨迹数据,社交媒体数据的粒度高,信息量大。
总的来说,社交媒体地理数据为地理学、城市规划、经济学研究提供了一个新的研究视角。
未来我们需要鼓励学科交叉和合作。
END.
本文来自:BCL北京城市实验室 2015年会