城市数据派www.udparty.com推出【城市数据趴Online】,每月多次在实名制QQ群(点击文末“阅读原文”,获取QQ群号)举行2小时的在线沙龙。和派姐一起来趴一趴关于大数据干货背后的故事,趴一趴PPT里看不到的那些被隐藏的技术环节!
【往期回顾】
【城市数据趴Online1】+高颜值高智商华东院规划师叶锺楠告诉你:大数据时代我们这样认识城市
查看全景记录 http://mp.weixin.qq.com/s?__biz=MzA3OTU3ODgxNA==&mid=207248049&idx=2&sn=6715f99c3da979021347a54ecb8939ec#rd
【城市数据趴Online2】+技术咖李苗裔带你玩大数据:基于多源数据的城市、区域空间结构与功能探究
查看全景记录 http://www.udparty.com/topic/1461.html
【城市数据趴Online3】+交通大数据先锋丘建栋:大数据环境下新一代城市交通综合评估技术
查看全景记录 http://www.udparty.com/topic/1398.html
【城市数据趴Online4】+迟冬祥:教你用R+SAS+Tableau 玩转校园卡数据大挖掘
查看全景记录 http://www.udparty.com/topic/1446.html
【城市数据趴Online5】+空间句法专家盛强:大数据时代的数据化设计与空间句法
查看全景记录 http://www.udparty.com/topic/1537.html
【城市数据趴Online6】+热力图高手冷炳荣:职住研究—基于百度热力图的重庆探索
查看全景记录 http://www.udparty.com/topic/1568.html
【城市数据趴Online7】+TalkingData毕英杰:畅想移动大数据与城市未来!
查看全景记录 http://www.udparty.com/topic/1606.html
【城市数据趴Online8】+川昱裘炜毅:探索手机大数据与城市交通!
查看全景记录 http://www.udparty.com/topic/1618.html
【主持人】
派姐
【本期达人】
现就职于重庆市交通规划研究院交通信息中心,主要从事城市交通模型方面的研究与项目应用分析工作。分别在《武汉理工大学学报(交通科学与工程版)》、《交通信息与安全》、《交通运输工程与信息学报》、TRB年会、ICCTP年会、城市交通规划年会等国内期刊、国内外学术会议中发表学术论文多篇。
【本期交流主要内容】
城市交通模型的维护升级是一项长期工作,在大数据技术不断更新完善的背景下,有必要探索新的模型维护升级技术和方法。本报告基于长期的研究成果,重点阐述了重庆的手机数据、RFID数据、车辆GPS数据、公交IC卡数据以及开源数据等多种大数据类型在重庆交通模型维护升级中的应用。
【本期交流全景记录】
随着高新技术的发展,我们的数据量以指数级增长,到底什么是大数据,现实生活中各种设备,移动通讯产生的数据源,海量的交易和交互数据都构成了我们的大数据。今天我就我们交通行业应用到的,比较成熟的数据源做一些阐述。
大数据的4V特征大家应该比较清楚,一个是大体量,还有多样性,价值密度比较低,传输速度比较快。这些特点我就不细讲了。我主要针对我们各种交通技术多讲一下。
我们重庆交通大数据从2011年开始提速进行各种数据库的构建,特别是我们规划局和院里对这个比较支持,每年大量投入,所以我们能够坚持下来。第一期试点从2011年开始,现在基本建成了主城区的交通基础设施规划数据库,交通基础设施现状数据库,实现了主城区整合一张图。有了数据库之后,把相关的数据源放进去,然后通过跨部门协调,在多个部门的帮助下,实现了如流量监测、车辆GPS数据、手机信令数据、RFID数据、停车诱导数据等多个数据源放入这个数据库中,还有交通运营状态的数据库,特别是交通运行指数、车速等。这些数据库目前是为局里和单位内部进行服务的。
接下来讲讲我们大数据平台。这个平台的数据很多是来自于二级数据源共享得到的。数据源是不是都是来自二级平台?这么说,我们的静态设施数据、规划用地数据、道路网数据,都是我们单位自己采集构建的基础静态网络。有些动态数据源,就是规划局或交通院没有的数据源,比如GPS数据、卡口、线圈、IC卡,是我们没有的数据,就通过战略合作、项目合作、数据共享等方式获得,有些还是花费了一定费用收集的。
数据是很重要的,在国内收集也比较艰难,我们进行了4年,有些数据还在跟进的过程中,或者是在断断续续的收集。目前收集的数据主要是静态的设施数据,另外还有10多类动态数据。有了丰富的数据源之后,可以为我们平台和模型的构建以及项目应用提供有力支撑。
接下来我们重点阐述几块内容:按照数据的类型分类,一个是手机数据,包括在人口和用地、岗位方面的应用,如职住分析、出行分布、出行方式识别方面的探索;另一个是RFID数据,就是电子车牌的数据,可以用于出行分布特征分析;第三个是VDF函数的应用,有了大数据之后,可以将VDF函数种类划分更细,因为之前如果是根据调查数据来做的话,VDF函数很难做细,因为样本量少,而且花费的时间和费用是非常多的;第四个是公交大数据在公交线网中的应用,构建技术是简单的,复杂是因为涉及的线路特别多,要完整的维护和更新起来很费时费力;最后一个是利用公交IC卡、GPS数据以及轨道闸机数据反推出公交出行OD矩阵,在公交专项应用中比较重要。
首先介绍下手机数据是怎么接入进来的, 2011年我们刚开始要构建平台的时候,因为市局领导比较重视,在领导出面下,我们和移动、联通公司签订了一些战略协议,首先接入的是手机移动2G数据,12年底才把联通的数据接入。重庆的移动数据只包含了主城区以及周边19个区县,约2.7万平方千米,3万个基站,就是大都市区的范围。联通数据的检测范围覆盖了市域范围,面积是8.24万平方千米,有2.5万个基站。
因为两个数据源采集方式不同,造成很大区别,数据质量也有差别。我们后续正在逐渐接入4G数据。我们采集的数据类型移动和联通都差不多,就是经常讲的手机信令数据,主要包括通话信息,包括主叫被叫接发短信,还有正常位置更新、周期位置更新,最大比例的信令数据是位置更新,占了一半多比例。
手机数据记录了位置编号,特别是基站的编号,通过长期的手机数据训练,分析居住地和工作地。其中居住地一般晚上到达,持续时间比较长,所以比较容易跟踪。白天的工作地和工作性质有关,很多类似送快递的就不适用,所以我们说手机数据就是记录了通勤人员工作地,后面研究职住分析,也就是研究通勤的规律。这个图大家应该看到过,通过手机数据发现每日出行规律,来研究他的出行规律,是在ORACLE的数据库里进行长期的训练的,基本用1个月或者2个月的数据来进行跟踪,得到他的居住地和工作地,然后对应得到他的居住和岗位。
因为手机数据只是样本,后期更重要的是扩样,这个是比较难的,因为不太清楚它的绝对数,不过做有些相对关系时倒不是特别影响,特别是研究职住分析,可以清晰的发现夜间人口居住密度分布图和白天岗位密度分布图还是比较靠谱的。我们可以发现岗位密度较高的区域都是在内环以内的,所以可以说对大范围分析还是比较有作用的。另外就是职住比,因为重庆市组团特征非常明显,所以职住平衡还是比较好的,除了最中心区的渝中组团职住比非常高,一些周边商圈的职住比就比较好。另外因为我们掌握了通勤特征,所以就可以研究职住错位现象,因为职住比只是静态的数据,反映有多少人有多少岗位,职住错位是可以反映交通情况,比如我在这住,我不在这工作,有可能职住比很好,但有明显的职住错位,像人和、礼嘉等区域的职住错位现象就非常明显,说明外出就业、就学的比例非常高。
另外一个就是总结各个组团的通勤出行特征,因为我们之前的居民出行调查也发现重庆出行特征是相邻组团和跨组团的出行特别的多,现在通过手机数据也发现了这种特征,这也验证了手机数据分析结果的可信性,特别是在组团级别。
此外,我们利用手机数据分析了几个重要的对外枢纽和重要商圈的出行分布特征,在这个分析过程中做出了一些结果,但是总的来说效果不是特别好,因为重要枢纽和周边居民区没有明显边界,本身手机边界比较模糊,所以这块一直没找到很好的办法,只能大致分析。其次因为重庆联通数据跨市域范围,所以我们也研究了市域跨区的交换量,可以看到哪些地区的交换是最密切最频繁的。
最后就是手机数据在出行轨迹一些方面的识别,因为传统2G数据定位精度低,数据量比较少,现在4G数据存在微站定位,甚至可以定位到建筑内部的房间,定位就比较精确。同时因为现在网络发达,大家上网比短信、电话业务多,所以引起了我们注意,由于数据比较丰富,减少了扩样带来的误差,所以在轨迹跟踪、出行方式识别等方面发挥比较重要的作用。利用4G数据之后可以比较清晰的知道一个用户大概什么时刻出发,什么时刻到达工作地,能够比较清晰的找到出行时间点,可以大概知道本次出行对应的时耗是多久,对比百度地图中对应出行方式的出行时耗,发现是比较一致的,这也为我们出行方式的识别提供了很大帮助,是很好的参考,可以推测出这个人的出行是通过公交还是开车。
第二大部分是RFID数据在出行分布特征方面的应用。因为重庆建立了交通信息卡系统,覆盖了重庆主城几乎所有车辆和驾驶员,电子车牌也建立了较多的监测点,这个识别率非常高,在一些项目应用中比较好。目前重庆运营的路面采集点有852个,覆盖了内环以内的大部分道路,未来还会进一步扩大它的覆盖规模,甚至可以到各个停车场,到小区的门禁。它采集的数据包括了车辆ID,通过监测点时间,车辆的类型等等。我们通过车辆ID与相关检测点联系起来,特别是连续的几个断面,就可以分析某一个关键断面到各个检测断面有多少比例,可以分析得到出行的车辆构成,到底准不准,这个怎么验证比较困难,通过人工调查很难实现。所以说RFID为我们在项目中的应用起到了一个很好的参考。像在鹅公岩大桥改造项目中就应用到了RFID数据,最开始大家对于鹅公岩大桥的功能有些分歧,不知道是长距离跨组团出行比较多,还是短距离的相互联系比较多。通过模型分析,再做RFID断面分析,发现和模型分析误差很小,这样为我们领导决策提供了很好的参考。
接下来是关于大数据在VDF函数标定方面的应用。因为重庆建立了道路车速采集系统,所以为VDF函数标定提供了一个重要参数,另外一个就是通行能力,主要通过视频还有RFID点统计的车辆或线圈统计的车辆来分析数据。
首先讲下车速采集系统,现在主城有1.4万台出租车装有车载GPS数据,每5分钟传输一批数据记录。我们现在建立的车速监控平台是从12年就开始了,主要运用的是出租车的数据,现在数据源在逐步接入,比如公交车也装载了GPS,下一步就是不断充实数据源,保证精度会越来越高,在算法改进的工作中。现在重庆路段流量数据源来自三个方面:RFID点,可以统计对应断面的车流量,线圈检测,大概有200多个,内环以内比较密集,还分布在外围发展的拓展区,另外就是一些卡口的数据。有了一些数据源之后,就可以精确统计出流密速曲线。
这个图就是我们利用机场高速段RFID数据来做的车速和流量的拟合图。可以清晰的发现类似一个抛物线,同一个流量值对应不同的车速,同一个车速值对应一个比较大跨度的流量。如果用交通调查的数据由于数据源少是很难做出这个图的。
下面这个是密度和流量图,随着密度增大,流量不断增长,后期逐步达到稳定值,就是我们认为的通行能力比较饱和的时候,就趋于了稳定。这个图就是利用单车道通行能力的密度和车速的拟合图,来推算我们单车道的通行能力。然后我们也做了个测试,通过模型公式所拟合得出的通行能力,跟我们观测高峰时段通行能力是差不多的。通过模型计算出的通行能力在1699左右。后面这个图是我们利用了一天的流量和速度分布,我们分别找了11月6日和10日这两天的流量速度,一个是工作日一个是双休日,来看通行能力的情况。
通过看8点左右早高峰,还有晚上5点到6点左右晚高峰,可以看出速度是有个明显的下降,流量有个明显上升,基本在一个稳定区间,与我们拟合的值基本对的上。这样我们就对机场路的VDF函数的标定分了三段:畅通流,压缩流,饱和流。分段做之后,比较明显看出达到饱和的时候VDF函数值敏感程度较高。因为很多时候在做交通流量分配时,一方面VDF函数分类比较少,另外还有就是VDF函数通过调查数据做标定,在饱和度超过1的时候不敏感,我们利用大数据做分段VDF函数,可以达到精度更高,敏感性更好。
下面来讲下公交大数据在公交线网构建中的应用。因为传统公交线网就是手动来画线路和站点,耗费很大人力财力,而且一般公交公司不太重视这一块,没有公交线网的资源,所以只能一条线一条线画出来,要花费几个月的时间。后来我们利用车载GPS数据来构建公交线路和站点,一种方式是利用车辆运行中,在公交点上下车时速度为零,这一块就可以找到公交站点,但是这种方式很容易造成精度不高,因为有时堵车或在交叉口的速度也是零,就要花比较长时间来获取公交站点。另一种方法是进行公交站点的调查,然后用手持GPS来调查得到具体的公交站点经纬度,然后再根据他的轨迹来形成公交线路和线网。
另外还有些方法大家在尝试,就是利用开源数据,如百度地图,来抓取公交线路,导入本地公交网络中,来构建公交线网。我们发现百度公交线网准确率能达到80%到90%吧,也有一些线路是没有更新出来的,需要自己人工查找和构建,其实已经解决了我们的大部分问题。下面这个图就是利用抓取百度数据来构建的重庆公交线网,我们将抓取的公交线网导入emme软件。自己编一些程序进行线路抓取,抓取的信息量还是很丰富,包括了具体线路和站点,然后导入到我们的模型中,会自动形成一套路网和公交线网。但是它本身存在一些坐标上的偏差,需要进行一些坐标转换,然后再导入,在这个过程中可能会在比较绕的节点或立交方面有些偏差,需要进行核查。我们重庆就是利用上面这两种方式结合来构建公交线网,目前我们有公交线路约560条。重庆每年的公交线路也在几十上百条的增加,这个方法感觉还是很实用的。
最后一部分就是讲下IC卡和GPS数据来反推公交OD矩阵,我们最初的时候因为是一个公交公司的项目,所以比较容易就拿到了公交IC卡和GPS数据。目前我们公交持卡率都很高,到14年底达到81%,刷卡数据量达到540万多,GPS数据是4200万。比较关键的字段是卡号,刷卡时间,还有公交或轨道线路号,公交车辆号,轨道进出站时间。另外GPS数据有公交线路号,车辆号,定位时间,定位经纬度,速度等等都是可以应用的。因为我们传统做公交模型,就是利用居民出行调查数据,但是现在有公交IC卡数据和GPS数据,而且刷卡率很高,基本代表绝大多数的用户,公交IC卡和GPS数据的很多字段是相互对应的,所以我们能够得到比较完整的矩阵。
首先说下上车站点的推导,这一部分主要用到IC卡数据和GPS数据,另外用到了线路站点信息,就是首先构建好线网,然后得到线路号、站点次序、定位经纬度等。然后IC卡数据和GPS数据有共同的线路号和车辆号,将这两个数据进行相应匹配,就可以得到IC卡持卡人刷卡的时间所定位的经纬度,和线网中站点对应的线路站点经纬度来匹配,从而来推导出这个人的上车站点。
接下来就是公交下车站点的推导,我们做了个假设,认为这个乘客一天全是公交出行,是一个闭合的完整公交出行链,这样可以推出他的公交下车站点,如果他有长距离非公交出行,出行链会断掉,这就很难推导下车站点。看下面的图,首先看到他先在歇台子上车,然后在大庙附近上车,然后在重庆北站上车,这样假设他第一次出行下车站点就是第二次出行的上车站点,以此类推,最后一次出行的下车站点是要回到他第一次出行的上车站点,这样就可以得到公交上下车站点的矩阵。
下面就是2012年在一个公交网络项目中用到的公交现状模型,当时原始数据有330万条,成功推导出的出行数据有225万条,达到70%左右的成功率,相对来说成功率比较高。另外这部分数据存在一个扩样过程,一个是分别根据我们的样本量,就是IC卡总量比例关系进行扩样,还有一个就是根据线路持卡率进行一个扩样,这样就整体覆盖到公交出行人口,在这里就默认了投币出行这部分人和IC卡出行规律基本一致。
介绍完了我们这几部分内容,下面讲下研究的感受吧:
通过这段时间的研究,我们发现大数据会越来越广泛应用,在规划和交通模型中的作用会越来越大,特别是交通模型构建、维护和升级中。另外就是大数据尚不能代替传统居民出行调查,因为大数据在最初产生的过程中本身并不是为交通服务的,所以很难取代居民出行调查,但是在某个阶段或专项研究中,比如公交模型的构建,公交线网的优化等,都是很有用处的。最后就是我们有这么多数据,是要相互结合应用,比如我们出行方式识别,我们就用了4G数据,还结合了百度数据,来进行了对比分析,还是有可能来识别出行方式。
【提问环节】
1. 你们团队是专门做大数据这块吗?
回答:我们单位专门成立我们中心来专门负责交通信息平台,交通模型的构建和维护,还有各种项目的应用。
2. 那你们单位部门有多少成员,都是什么背景专业呢?
回答:想做大数据平台、模型这块,需要专业背景很多,我们这个部门接近20个人左右,专业背景很丰富,有学交通的,数学的,地理信息的,计算机的,通信的,专业还是比较多的,每个专业2-3个人,交通专业的多。
3. 重庆信息平台快5年了,花费是不是很大?钱主要来自哪里呢?
回答:需要有一定的投入,大部分来自政府部门投入,还有就是我们院里投入了部分。
4. 领导是否关注过性价比?
回答:关于性价比这一块,得看站在谁的角度来说,领导肯定认为这些成果在一些项目中发挥了作用,像前年我们市委书记还听取了我们单位关于平台和模型的汇报,还是对我们比较认可的。
5. 大家都知道数据很难获取,就有很多朋友关心到底要怎么和这些部门合作数据,像你们提到的二级平台,可以分类说下分别是什么合作模式吗?
回答:像我们局里下属的几个事业单位,相互之间的数据都是共享和交换的,另外我们和移动手机这一块有战略合作,另外就是项目合作这一块,还有很小一部分,像RFID这一块,是购买的。因为数据类型涉及的比较多,涉及部门也比较多,所以获取方式都比较多。
6. 和移动是战略合作,一般运营商只有重大项目才会和规划院合作,你们的战略合作的关键点是什么呢?
回答:首先是因为高层领导来推动,才促成了和这些大运营商合作,其次我们研究的成果对他们有些用处,因为他们也投入了一些人力来做相关研究。
7. 那这些运营商有么有什么具体要求,希望你们做出某一类成果,有没有这样的商业要求?
回答:目前没有。
8. 实时接入手机数据,你们是如何做到的呢,有什么技术手段呢?
回答:首先要有一定的软硬件准备,比如移动或联通的数据产生的字节、字段非常多,还涉及到非常敏感字段,需要在双方协商的情况下将敏感字节去掉或加密处理,有个专门软件是达到这样的功能,另外肯定需要有数据存储设备,接一条专线将数据接入进来。
9. 你们接入数据之后是一直保存在自己的平台上吗?
回答:是的。
10.有人说他们也想和运营商合作,但是运营商说没保存,您觉得这是什么情况呢?
回答:因为如果没有应用,这些运营商是可能不会存储这些数据,但是我们发现在交通中有些运用,所以就自己按照上面说的那种方法保存下来。
11.下面关于手机数据的研究成果吧,用户长期手机轨迹和训练,是什么概念?
回答:具体算法是由我们专门做手机的团队来做的,这部分因为手机数据有2G、4G,定位精度也不一样,在居住地和就业地有明显的漂移的现象,所以我们基本就是利用长期训练的方法来识别比较准确的位置,然后我们利用的数据至少1到两个月的数据源进行训练。
12. 那这部分最核心的是不是就是算法本身?
回答:就目前来说算法是最核心的。
13. 很多机构都有自己的算法,是不是这些算法都是不同的,还是说大家有一套参考标准呢?
回答:国内有很多公司在做手机数据这一块,算法大致理论应该是一致的,但是在技术方面肯定有些不同的改进和更新。
14. 你们保存下来的手机数据能不能提供给第三方呢?
回答:我们在签订战略协议,是有保密规定,原始数据、个体数据是没办法提供出去的,但是形成统计成果后,后期有些咨询或项目合作的,还有可能,像我们前期就和规划院有合作。
15. 关于坐标转换问题,坐标转换你们如何实现呢?
回答:坐标转换我研究不深,因为每个地方都有他自己的坐标系,也有比较公用的84坐标系,我目前遇到的坐标转换,像我们在利用百度抓取公交线路的时候,在导入到我们现在的软件中时,我们发现百度这个坐标系和84坐标系偏差不大,我们就利用了emme软件自带的坐标系转换的功能来调整的。
16. emme软件是开放软件,大家都可以下载的吗?
回答:不是,是商业软件,是专门做交通模型的软件,是要付费使用的。
17. 在第一个案例中讲到关于扩样问题,因为手机覆盖量很大,有人问到为什么不需要降噪,而是扩样?
回答:因为我们研究中手机数据样本量其实不太够,比如移动或者联通他只有自己那部分用户,和人口之间也有一定差距,同时在训练过程中会遗失掉很多数据,所以要对它进行扩样。
18. 降噪这部分有处理吗?
回答:降噪应该是我们手机处理的基本的预处理模块,非常重要。首先我们会针对原始数据进行字段过滤和不符合要求的原始数据降噪处理。
19. 对于手机数据处理大概有哪些步骤呢?
回答:主要看你模型是要分析什么指标,降噪肯定是基础的,然后就是轨迹的判断,停留的判断,还有最后就是一些参数判断等。
20. 在处理手机数据时主要用了什么工具呢?
回答:我们前期是使用关系数据库还有些程序进行数据挖掘,现在我们也正在建设一些平台,像hadoop分布式处理系统,来处理海量大数据
21. 在最后可视化阶段用了什么工具呢?
回答:传统的arcgis提供的一些控件,还有百度的一些信息图那样的控件也有尝试。
22. 您提到的数据库是不是用了SQL?
回答: 对,包括ORACLE,SQL SEVERER等
23. 职住比这一块很多房地产公司关注,你们有没有给房地产商服务呢?
回答:目前还没有这块业务,不过后续可能会有些洽谈合作。
24. 关于公交大数据有朋友问这些图是用什么软件做的
回答:就是刚刚提到的emme软件。
25. 关于公交刷卡数据,是用什么软件分析的呢?
回答:IC卡或者GPS数据,是和数据量有关的,如果数据量比较小,可以用excel的宏,常用的是SQL,matlab,主要看大家懂什么语言的。
26. 有没有专门团队在做呢?
回答:我们现正在建设,系统在建设,人员配置都在建设。
27. 你们的hadoop进展如何呢?
回答:到今年年底应该会基本完成吧。
28. 专门做hadoop有几个人?
回答:3、4个人吧。
29. 你们部门有盈利了吗?
回答:我们的项目应用肯定还是有一定盈利,但是政府支持肯定是很大一部分。
30. 关于平台你们是怎么建立的呢?
回答:我们大数据平台是有个合作团队在一起做,毕竟硬件部署,软件部署不是我们专业,有和外面的公司合作建设平台,但是核心算法和研究都是我们自己的。
31. 关于多源数据融合的分析及应用,现在有做的吗?
回答:这个多源融合,像我刚才提到的手机数据与出行方式识别这一块,我们就说道用了手机数据和百度开源数据相结合来识别,还有IC卡数据我们也是和GPS数据相结合的,我们目前还是进行了多源数据,两两之间的相融合。刚才也说道有些数据产生的时候不是为了交通服务的,所以数据格式存在异构性,所以我们在收集过程中数据类型和格式就是不同,所以如何找出相关联的部分,这是技术问题。另外关于根据多源数据如何掌握城市发展规律这是比较困难的,因为很多数据源获取到的不全面,只有某个时间段才有,很难持续跟踪。所以这个多源数据融合只能根据不同决策应用和所关心的问题,来逐步解决。
32. 关于大数据的准确性和黑箱问题,大家有很多疑惑,您觉得大数据是否提高了交通模型的准确性呢?有没有量化的比较呢?
回答:大家目前逐渐认识到大数据有好处也有不足,至于你说他的精度到底到了什么标准,这个也很难回答,但是像我刚才说的,因为居民出行调查不可能每一年都去做去更新,但是大数据的收集是可以持续收集更新的,所以在某一方面有比较好的应用。比如我们公交IC卡有80%多持卡率,我们认为这个精度已经很高了,相对于居民出行调查,我们认为这个IC卡数据精度是更高的。但是像手机数据可能在比较小范围的应用可能不太好,但是扩大一个层面,到组团层面,像我们计算的岗位密度和居住密度,和我们做的居民出行调查匹配度还是很高的。另外,我觉得有些调查像交通流量调查就可以通过RFID数据,线圈数据就可以收集到了,但是有些他发挥不了作用的地方,就还要用原有的技术来做。
33. 你们做了这么多新的工作,传统的工作还需要做吗?另外,你们的部门和院里其他所还有部门合作呢?
回答:首先因为我们每年都要做交通发展年度报告,所以我们每年的调查,一方面RFID,线圈收集数据,另一方面还是要做少量流量调查,还有我们要做些模型的维护和更新。还有居民出行调查肯定也是要开展的,然后来构建和升级我们的模型。至于我们中心如何和院里其他所合作,之前我们也认为比较难解决,现在就是通过具体项目来合作。
34. 有没有什么成熟的项目合作模式给大家介绍下呢?
回答:我们现在合作,就比如有一个项目,如果需要交通流量定量方面支持,或者出行特征分析的内容,这部分就由我们部门来做。
35. 是不是说一个项目里一个专题拿给你们中心来做呢?
回答:差不多是这个意思。
36. 还有人问到有没有利用手机数据来跟踪轨道乘客换乘路径的研究呢?
回答:目前我们还没有做到这么细的地步,我们之前有讨论过,因为目前重庆轨道有地上和地下的,地下的比较好跟踪,但是地上的有居民区,比较难跟踪。
37. RFID的数据详细应用,就是除了出行分布特征,还有没有其他方面的应用呢?
回答:其实RFID最初功能就是一个流量的统计,然后用于分析出行分布特征,因为现在RFID采集点比较多,这样我们就可以分析某一个关键采集点的车到底从哪里来,到哪些地方去,另外一个我们还没做,在想的,我们有了RFID采集点,如果采集点更多一点的话,他就可以作为一个产生源或者吸引源,然后进行一些模型路径的分析,这也只是我们研究的一个方向,还没做实际研究。
38. 这个信息平台的可视化是基于什么软件平台来做的呢?
回答:都是基于arcgis的一套控件库来开发的
39. 是完全自己根据需求来开发提升的吗?
回答:对。
40. 在做二次开发是用了什么程序语言呢?
回答:都有应用的,包括网络语言,代码其实不是很重要。
41. 根据经验,哪种语言更好呢?
回答:每个代码都有自己的特点,主要看你需要吧。比如想更好适用浏览器,java更好,比如桌面软件,C#就更好,主要还是看你需求和技术积累吧
42. 在大量访问方面是怎么满足呢?是用SQL?
回答:arcgis sever我们主要是做些及时发布,我们有专业服务器,通过带宽设置,还可以通过并发量的设置,可以满足大量访问。
43. 刚才您同事提到自己被吸引过来的,大家也知道在发展大数据时要招技术人才,如何吸引这部分技术人才过来是很多人关心的,我想问下到底什么原因这部分技术人才愿意来到你们中心呢?
回答:其实最重要的是和院里的发展目标有关的,首先自己要喜欢这分工作,然后单位又有需求,觉得发展前景不错,这样就比较容易形成合作。
44. 不同专业背景的人要如何更好沟通交流,来形成合作呢?
回答:其实这是一个很现实的问题,因为专业背景,思考角度肯定不同,不过大家肯定共同做一个事情时,要考虑到这个事情或者项目最终目的是什么,时间长了,大家的思路也会慢慢统一,是一个磨合过程,在逐步工作交流中达成默契的。
45. 关于大数据在交通行业,未来还有多大发展空间呢?
回答:未来发展空间有多大这谁也不敢预言,但是就我来看,不论从高层领导,还是技术人员,以前做什么项目都是定性判断,现在都是定量分析占更多主导作用,我觉得后续大数据发挥的作用会越来越多。
46.大家会怀疑大数据结论的可信度的问题,存在一个黑箱当中,你们是如何看待和回应?
回答:可以这么说吧,在汇报项目中你不可能每个具体细节都要汇报,我们要把这个数据的来源给他介绍清楚,领导自己也会去判断他的精度如何。不同数据源对应的精度,肯定有不同的大致判断。像人工调查数据发挥作用大,还是大数据发挥作用大,是很难评判。例如做交通模型的预测,某些分析只要量级是准确的,我们就可以接受了,就是没有绝对性,也就是个相对性。
46. 这几年BAT发展很迅速,你们如何看待BAT这类公司的交通产品对交通院的冲击呢?
回答:这些BAT公司是从市场角度去考虑,怎么讲呢,我们所面对的客户是有一定区别,单纯从技术实力上来拼的话,他们对于互联网技术掌握肯定比我们好,但是从交通知识掌握我们肯定要比他们好些,目前我们还没有看到他们对我们实际业务的冲击,未来对于这种更技术性的东西,可能会对我们有冲击,但是也可能有合作,所以不一定是负面影响,更有利于推动交通行业的发展。
47. 在手机数据处理后,有没有校核呢?
回答:我们现在做的校核呢,基本就是和居民出行调查数据来看相对关系,从比较大范围来看,精度还是比较高的,但是没有办法去算他的绝对误差,只能从比较大范围来看,这个还是可以起到他的作用的。
48. 在2016年你们信息中心有什么发展计划吗?
回答:我不敢说大数据平台因为是另一个团队做嘛,不过我刚才同事也说了在逐步推进中,我们希望数据能实时接入,能不断跟踪出行规律。至于我们模型这块,就是看我们数据平台做出的成果如何更好的用于我们的模型中。还有我们前面所讲的几个数据库都要维护,这些数据库之间的融合问题,为了减少重复工作量,如何达到维护一个数据库,就把我们中心全部数据库的基础共同维护起来,这是我们接下来要发展的重点吧。