数据精英夏季特训营开车啦!
同时报名还可享更多优惠:
任选2套同报,再减200元!
任选3套同报,再减360元!
任选4套同报,再减520元!
任选5套同报,再减700元!
任选6套同报,再减900元!
(以上优惠不包括营5和营14)


项目名称:基于多任务协同的群智感知机理与方法
项目负责人:王亚沙
依托单位:北京大学
项目参与人:
王乐业 香港科技大学
王江涛 北京大学
何远舵 北京大学
马钧轶 北京大学
马连韬 北京大学
李晟洁 北京大学
王一博 北京大学
杨宗睿 北京大学
张凯云 北京大学
群智感知是指参与者使用个人计算和感知终端,通过互联网或移动互联网协作,最终完成复杂社会感知或计算任务的新型感知和计算模式。然而,随着智慧城市建设的深入,群智感知任务呈现出新的变化,具体包括三个方面:
一是任务快速增多,任务间相互制约与促进,各个任务单独优化的方法无法实现多任务整体效用的最优化;
二是感知对象从最初感知物理空间特征,发展到对物理空间、社会空间和网络空间的全面感知,感知终端从以智能手机为主,拓展到物联网设备、社交媒体等多种形态,需要提升终端感知能力以完成复杂的感知任务;
三是任务间感知数据相互关联,且存在缺失、噪声等数据质量问题,需要建立高效的数据分析技术,实现感知数据的补全和质量控制。
在此背景下,本项目围绕多任务群智感知的终端感知能力建模与能力提升技术、面向全局效用优化的任务分配方法、多任务群智感知数据分析方法等展开了研究,形成了一系列成果。
在终端感知能力提升技术方面,提出了基于电能分解的家用电器用电感知技术、基于智能手机多传感器的食物体积测量技术、基于智能手机的用户心理健康状态感知技术;在面向全局效用优化的任务分配方法方面,提出了融合多任务和参与者特征的群智任务分配方法、基于参与者评价的群智感知任务推荐方法;在多任务群智感知数据分析方法方面,提出了基于少量样本的多任务感知数据补全方法、面向时间序列的频繁/稀有子序列的发现方法。
项目面向智慧城市多源数据融合的需求,基于上述研究成果,研制了面向智慧城市多源数据模式匹配的群智感知原型系统,并通过与企业合作,将成果推广到了全国13个城市的智慧城市平台中。
本项目共发表高水平学术论文11篇(其中,CCF A类国际期刊1篇,中文期刊1篇,CCF A类国际会议5篇,B类会议1篇,C类会议3篇)。申请专利2项。共培养4名博士生、5名硕士生,5名本科生。项目执行期间,项目负责人王亚沙入选了教育部长江学者,项目参与者王乐业入选了国家级青年人才计划。
项目结题成果报告
以下研究成果内容摘自项目结题成果报告。该项目报告共计30页,关注城市数据派微信公众号,在微信公众号对话框中输入 24715 ,即可获得报告全文PDF的下载方式:
(1)主要研究内容
1)终端感知能力建模与能力提升技术
群智感知是指普通用户(或称:参与者)使用个人计算和感知终端设备,通过互联网或移动互联网协作,最终完成大规模、复杂社会感知或计算任务的新型感知和计算模式。无论感知目标如何复杂,最原始的感知数据都是通过普通用户通过执行简单的微任务采集的,这个过程被称为终端感知。而终端感知能力与用户所处情境、个人技能和偏好、感知设备能力等相关。随着群智感知技术和应用的发展,感知目标不断丰富,终端感知的对象从最初感知物理空间特征(如:音、空气质量、交通拥堵程度等),发展到对物理空间、社会空间(如:个人身体和心理状态、人际关系等)和网络空间(如:电子商务网站的评论、社交媒体动态等)的全面感知;感知设备从以智能移动终端(如:智能手机、平板电脑)为主,拓展到个人控制的物联网设备、个人电脑等多种计算和感知终端;而感知方式,从设备自动感知为主,发展为人与设备协同感知的混合模式。
在上述背景下,本项目围绕多种感知任务、多个感知场景下,终端感知能力建模和感知能力提升的目标开展了一系列技术研究。首先,在感知能力建模方面将以智能手机为主的终端设备感知能力模型,拓展到综合参与者和终端设备两个方面的综合能力。在参与者能力方面,考虑了参与者的情、技能和偏好;而在终端设备方面,则主要将感知终端能力的描述模型从以智能手机为主,拓展到包括物联网设备、个人电脑等更加丰富的终端设备。其次,本项目重点,将人工智能技术应用到终端感知中,研究了一系列提升终端感知能力的技术,如:基于电能分解的家用电器用电感知技术、基于智能手机多传感器的食物体积测量技术基于智能手机的用户心理健康状态感知技术等。
2)面向全局效用优化的任务分配方法
在群智感知中,需要将对一个复杂对象的感知目标,拆解成一系列微任务并分配一批参与者执行。其中,任务分配算法对群智感知任务的质量和成本至关重要。现有的研究工作,大多在以下两个方面存在不足:一是仅针对单一任务单一场景设计任务分配方案,未区分不同任务在感知数据采集总量、密度上的差异;二是主要从任务发布者的视角考虑问题,未从任务参与者的角度考虑,导致分配给参与者的微任务可能与偏好、能力不匹配,或者因其终端设备电量不足而无法完成任务等。
针对上述问题,本项目面向典型的群智感知任务需求,针对多任务、多场景环境下,研究了面向全局效用优化的群智感知任务分配方法。该方法避免了对群智感知执行环境的过度简化,与实际执行环境更加契合,可行性更佳;另外,因为综合任务发布者、参与者等不同角色的视角,并且考虑不同性质任务的需求,能够实现人物之间的平衡,整体效用也更好;第三,本项目不仅从项目发布者的视角分配任务,还考虑从参与者对任务评价的视角,为参与者推荐任务,提高了参与者完成任务的积极性和任务与参与者能力和偏好的匹配度。
3)多任务群智感知数据分析方法
考虑到多任务群智感知环境下,不同任务采集到的数据存在以下两方面的问题。问题 1:数据缺失与补全问题。导致这一问题存在两个方面的主要原因。首先,受限于参与者的情境、技能等因素,在一些感知任务中无法对所有的感知对象都采集的足够的感知数据。例如,在城市噪声监控的任务中,某些城市时空单元可能无法找到合适的参与者,因此导致这些单元的数据缺失。其次,在本项目研究的多任务群智感知环境设定下,不同任务的感知数据存在相关性,因此可以利用一个任务的数据训练机器学习模型,对另一个任务的部分数据进行补全和推理,从而降低所有任务整体的微任务总数,从而降低成本。为此一些群智感知任务将故意不将部分微任务分配出去,从而形成数据的缺失,需要补全。问题2:数据的噪声与质量问题。因为群智感知是由大量的参与者共同采集获取数据,一些参与者受到技能、设备质量的限制,导致部分数据存在错误,需要校对和纠正。本项目针对上述问题,开展了面向多任务的群智感知数据分析方法研究。主要包括以下两个方面:一是基于少量样本的多任务感知数据补全方法,使得在部分感知数据缺失的条件下,利用不同任务之间的相关性,实现高质量分析的目标:二是面向时间序列的频繁/稀有子序列的发现,在数据存在噪声的情况下,聚焦较高的鲁棒性。
(2)取得的主要研究进展、重要结果、关键数据等及其科学意义或应用前景。
围绕终端感知能力建模与能力提升技术、面向全局效用优化的任务分配方法多任务群智感知数据分析方法等三方面研究内容,以及多任务群智感知在智慧城市中的应用需求,本项目形成了以下几个方面的研究进展并获得相关研究结果。
1)群智终端感知能力提升技术
基于电能分解的家用电器用电感知技术.
感知家庭常见电器的用电模式对于节能减碳、用电调度等有重要意义,是智慧城市建设的重要需求。在群智感知中,参与者可以将各自控制的智能电表的数据按需上传,从而实现城市范围内家庭用电的大范围感知。然而,一般一个家庭仅安装一个智能电表,并仅记录家庭用电总量。为了更细粒度的感知家庭中不同常用电器的用电情况,需要提升群智终端(智能电表)的感知能力。在此背景下,本项目研究了电能分解技术。此项技术基于的观察在于:不同用电设备(如:冰箱、电视、微波炉、空调等)的用电模式不同,体现为随时间变化的用电曲线存在差异,而用电总量实际上是多个用电设备用电曲线的叠加。本项目的研究思路是,首先收集各类典型用电器单独使用时的用电数据,并学习其用电模式,之后再根据用电总量,学习将用电总量分解为各类用电器叠加且还原度最高的优化模刑。
本项工作的特色在于建立用电器的工作模式、用电消耗与其所处的情境的关联。用电器所处的情境,包括:室内外温度、室内是否有人、当前时间等,其数据同样可以通过群智感知的方式采集。采集各个家庭各个用电器的使用数据,以及温度、湿度、家里是否有人等情境数据。然后通过数据分析,建立各用电器耗能模式与家庭情境之间的概率模型,回答这样一个问题–对于本家庭而言,在什么情境下,各电器处于各模式的概率如何。然后,应用这个概率模型,优化电能分析过程。实验结果如表1所示,基于两个最常使用的开放数据集ECO 和 REDD的实验,本项目研究提出的情境感知的电能分解方法性能优于其他 baseline 方法。
-
基于智能手机多传感器的食物体积测量技术
准确的饮食记录对于慢性病管理具有重要意义。例如,对于肾病、糖尿病通风等慢性病患者而言,对日常饮食都有很强的要求。本项目尝试通过群智感知的方式,采集一定时空范围内,居民的饮食情况,从而为分析城市中人口慢性病的规律提供依据,并辅助制定膳食指南、制定公共卫生管理政策。然而在研究过程中,我们发现参与者记录膳食类别(即,所食用食材的种类)一般比较准确,但是对食物的体量却很难准确估计,感知数据存在大量因估计不准确而导致的误差。
在此背景下,我们设计并实现了一种基于智能手机,综合图像、声音多种传感器数据的食物体积测量算法。本文算法根据食物检测任务设计了形状匹配和颜色匹配算法来实现食物容器与食物的检测、定位,并根据中国菜式的特点提出了基于碟、碗的两种食物体积计算模型。此外,本文还设计了一种拥有高精度的基于手机的声波回声测距算法,用于计算食物的实际体积。
实验结果如表2所示。实验显示本项目方法在体积测量精度上较之其他研究者提出的基线方法准确度更高,较之现在群智感知中应用最多的人工估计方法精度提高 10%,较之有参照物的图片分析方法,精度提高5%。
-
基于智能手机的用户心理健康状态感知技术
较大的心理压力对大学生的心理和生理均会产生危害。心理压力往往在前期容易被人忽视,从而导致严重的问题。因此,有必要通过群智感知的方式,采集大学生的心理压力数据,并对其发展规律和发生模式进行研究,以期较早发现心理压力,并进行合理干预,促进大学生的身心健康。为了了解一个学校中所有学生的整体心理压力,传统心理压力检测方法需要通过采样,向被调查的学生发放大量的问卷并借助专业设备实现评估。这种方法存在成本较高,且对被评估对象侵扰较大等不足。为此本项目提出群智感知的模式,感知校园学生群体的心理压力状况,但是如何评估参与者个体的心理压力成为最大的挑战。在此背景下,本项目提出基于智能手机中内置的位置、声音、加速度等多种传感器数据,感知和评估参与者的心理压力的方法。然而,感知的原始数据并不能直接表征手机用户的心理压力情况,为此我们研究并提出了一种基于手机原始感知数据推理用户心理压力情况的方法。首先,从原始的手机感知数据(如:加速度传感器数据、环境声音采样数据、GPS 记录、环境光度采样数据、蓝牙扫描记录、手机充电时间记录等)提取出与心理压力相关的特征,包括:用户在使用手机的过程中活动用户在每个地点停留的时间,用户与他人交流的活跃度等。其次,为了获得用户心理压力的真值,还通过手机,基于心理学标准问卷采集了用户的EMA(Ecological Momentary Assessment,即时生理状态评估)数据。第三,我们将心理压力评估转化为分类问题,并使用半监督学习方法构造分类模型;最后,在开放数据集StudentLife 上对上述模型进行实验验证。
实现结果表明本文方法在心理压力检测精确度和召回率等方面均优于基线方法,如图1所示。另外,从实验中可以观察到,智能手机传感器采集到的各类情境相关的特征(例如:睡眠时长、蓝牙扫描到的设备数量、POI分布熵、手机通话时长、行走步数等),对于感知参与者的心理压力具有明显的提升作用,如图2所示。
2)面向全局效用优化的任务分配方法
-
融合多任务和参与者特征的群智任务分配方法
任务分配是群智感知的核心任务之一。此项研究较之已有工作,主要有两方面特色。首先,考虑到不同任务在对任务分配效用的度量上存在差异。这些差异包括两个方面:一是对采集感知数据总量上的差异。为保障感知数据的鲁棒性,往往要求群智感知数据采集存在一定的几余。但是不同任务的特点,使得其对几余数量的要求存在差异。例如:感知城市噪音等级的任务比感知城市空气质量的任务要求有更多的几余数据。这是因为城市中噪音比空气质量存在更大的差异性二是,对于同一个任务在不同时空单元,需要采集数据的时空密度也存在差异。例如,对于感知城市交通拥堵程度的应用,在城市中心地区因为拥堵程度地域差异较为明显,需要将空间划分为更加细密的小区,并对每个小区采集数据;而对于郊区则小区划分可以更加粗粒度一些。同样,在上下班高峰时间,对数据采集的频率要求较高,而夜晚则可以频率更低一些。第二个特色体现在不仅从任务发布者的视角(如:任务总体激励成本)考虑了任务分配方法的效用,而且从参与者的视角考察了任务分配的效用问题。参与者视角相关考量包括三个方面:一是参与者手机的流量余量,当其流量余量充裕时,参与者将更乐于参与任务,反之则可能拒绝参与;二是参与者参与任务的意愿,从隐私保护方面考虑,很多参与者可能不愿意参与某些敏感地区(如:工作单位、家庭住址附近)的任务;三是手机上的传感器配置,一些感知任务需要手机中的一些传感器参与,而只有参与者手机中配有这些传感器时,才能完成这些任务。
现有研究工作对上述两方面考虑较少,此项工作综合上述两方面因素,将多任务群智感知任务分配形成为一个多目标优化问题。希望综合考虑任务和参与者的因素,最大化任务的效用。考虑到这个优化问题是一个NP 难问题,我们提出了一种基于二部图的近似求解方案。并基于真实城市中的人员移动数据,对多个群智感知任务的效用进行了仿真实验,对多任务的整体效用优化优于现有方法,如图3所示。
图3.本项目方法较之其他基线方法在多任务整体效用上的优势
-
基于参与者评价的群智感知任务推荐方法
在群智感知中,为任务推荐合适的参与者,或者为参与者推荐合适的任务一直是研究者关心的核心技术问题。推荐是基于参与者对象与任务对象之间的交互实现的。但是现有的工作主要利用的仅是交互的网络结构信息,即只利用了某人完成某任务,以及完成任务的质量(评价打分)信息。实际上,在群智众包平台中可利用的信息更加丰富,不仅包含评分信息,还包含参与者对任务的评价文本,以及任务组织者对参与者工作质量的评价文本。如何利用文本做出更好的推荐是一个有意义的研究问题。另外,我们还注意到,参与者对不同类型任务的评价是随时间推移变化的,可能在不同的时间段中,对任务有不同的偏好,现有工作也没有注意到这个问题。
针对上述情况,我们提出了一种名为 Set-Sequence-Graph(SSG)的多视图方法,通过引入两个利用评论的其他视图来增强现有的单视图(即集合的视图)方法:序列和图。特别是,通过分别以集合,序列和图的形式组织评论,我们设计了一种三向编码器体系结构,可以共同捕获用户的长期(集合),短期(序列)和协作(图)特征和推荐项目。对于序列编码器,我们提出了一个短期优先注意网络,该网络明确考虑了评论的顺序和个性化时间间隔。对于图编码器,我们设计了一个新颖的可感知评论的图注意力网络,以对参与者-任务图中的高阶多方面关系进行建模。为了消除捕获功能中的潜在几余,我们的融合模块采用了跨视图解相关机制,以鼓励从多个视图进行多种表示以进行集成。考虑到众包平台中相关数据较少,我们用电子商务平台中的公共数据集对研究对象进行了模拟。模拟中,将商品类比于任务,将用户类比于群智感知中的参与者。实验证明,SSG明显优于最新方法,如表5所示。
3)多任务群智感知数据分析方法
-
基于少量样本的多任务感知数据补全方法
群智感知中存在一些成本较高或参与者较少的任务。比如,为了获得一个地区人群的人口统计学数据、运动的数据、体检数据和罹患慢性病的数据,通过汇集大量数据,可以感知一个地区整体人口的健康状态,并建立生活习惯、人口统计学特征与健康风险之间的关联关系,对于公共卫生管理具有重要意义。由于每个参与者需要完成的微任务较为复杂,很多参与者不能提供完整的数据,因此需要对缺失的数据进行补全。多个与健康相关的群智感知任务之间,因为健康特征之间的相关性,可以构造跨任务的数据补全任务。
为了完成数据补全任务,可以将采集到的数据项作为特征,缺失的数据项作为标签,训练分类模型。但是因为缺失标签的数据较多,如果完全采用有监督学习,则上述分类任务的准确性较低。为此本项目采用了一种半监督框架,如图4所示。该方法首先利用无标签数据建立无监督的自编码器,将高维原始数据降维成低维致密的表示向量,滤除了数据表示中的冗余信息:然后将上述表示分解为无关的两部分,其中一部分与数据补全任务相关,另一部分不相关,而相关的部分则使用有标签数据进行监督,从而滤除数据表示中与任务无关的部分。通过两次降维,减少了对有标签数据的需求,进而提高模型性能。如表3所示,较之基线方法,本项目方法可以显著提升数据补全的精度。
表3.本项目方法与基线方法在分类任务上的性能差异
在半监督模型的基础上,为了进一步提高模型性能,本项目还提出了基于少量训练样本的度量学习模型,旨在样本较少的情况下,构造有利于分类的样本间距离度量机制,使相似的示例比有关度量的不相似示例更近。深度神经网络最近的成功激发了许多 DML 损失,这些损失鼓励了类内部的紧凑性和类间的可分离性。类间紧凑性和类间可分离性之间的权衡通过确定要保留原始输入的信息量来塑造 DML表示空间。在本项目中,我们提出了一种具有联合表示多样化(JRD)的距离度量学习,它可以在类内部的紧凑性和类间的可分离性之间实现更好的平衡。具体来说,我们提出了一种联合表示相似度正则化器,该正则化器可捕获不变特征的不同抽象级别,并使表示的联合分布在多个层次上多样化。在三个深层DML基准数据集上进行的实验证明了该方法的有效性。
-
面向时间序列的频繁/稀有子序列的发现方法
群智感知中很多的感知任务通过用户手持的智能移动终端传感器采集,这些按照采样时间先后形成序列,是典型的时间序列数据。作为时间序列数据两个最基本的数据挖掘任务,频繁/稀有子序列的发现已在文献中进行了广泛的研究。具体来说,频繁(或稀有)子序列被定义为最小(或最大)1-最近邻距离的子序列,也被称为 motif(或 discord)。但是,当 discord 在时间序列中多次出现时,一般的算法将无法识别为稀有子序列,这就是著名的“twin freak”问题。由于对子序列频繁或稀有的定义是基于 1-最近邻距离做出的,所以在时间序列挖掘中弓发了一系列问题,上述 twin freak 问题只是“冰山一角”。针对上述问题,我们首次对基于 1-最近邻的子序列分析方法进行了理论分析,将其归结为子序列的非参数密度估计问题。特别是,我们专注于最近在此领域中最新提出的matrixprofile框架,该框架在同一计算模型下统一了对 motif 和 discord 的发现。此后,我们指出了导致 matrix profile 方法效率和子序列分析结果质量低的三个问题:低质量的密度估计,重力定义行为(gravitydefiant behavior)和缺乏可重用的模型。
为了克服这些问题,我们建议使用邻居配置文件,通过将最近的邻居装袋以发现频繁/稀有子序列,从而对子序列密度进行稳健建模。具体来说,我们利用多个子样本并使用调整后的最近邻居距离对子样本的密度估计求平均值,这不仅增强了估计的鲁棒性,而且实现了可重复使用的高效学习模型。我们在合成数据上检查邻居配置文件的完整性,并在实际数据集上对其进行进一步评估。实验结果表明,邻居档案可以正确地模拟不同密度的子序列,并在实际心律失常数据集上显示出优于矩阵档案的出色性能。此外,它表明,邻域轮对于海量数据集是有效的。
4)原型系统
-
面向智慧城市多源数据模式匹配的群智感知原型系统
在智慧城市中,存在大量大量数据存储在不同信息系统的关系数据库中。为了实现多源数据融合分析,需要实现不同表格之间的模式的匹配(SchemaMatching)。这一匹配工作可以通过群智感知的方式来实现,即,将需要匹配的多个数据库表和字段,拆解成一列两两匹配的微任务,并将微任务分发给大量的参与者,让参与者给出匹配的结果。再汇集这些匹配结果来实现两个数据库中复杂的多表格模式匹配与转换。
此项原型系统的功能包括以下几个方面。一是群智任务分发与反馈融合模块:管理员发布群智任务,并按照一定规则将任务分发给群智工作者,在工作者完成任务后,收集用户反馈;二是面向多平台群智任务自动生成模块:提供供参与者操作的 U 界面,并提供针对各类群智任务的接口,实现了更好地分发群智任务并收集反馈;三是多机制驱动的激励模型:为了激励更多用户参与数据的采集和共享,通过支付费用、积分奖励和等级奖励等一系列激励机制,提升群智系统用户的参与活跃度;四是多目标联合优化的群智任务分配算法:通过多目标联合优化的群智任务分配算法,对群智任务的质量和成本进行量化和优化,在一定的成本和时间范围内,尽可能地收集到质量较高的群智任务数据。
图5是面向智慧城市多源数据模式匹配的群智感知原型系统的执行流程;图6 是参与者完成任务所使用的智能手机端界面:图7是任务发布者使用的管理界面;图8是参与者设置自己偏好,并管理自己参与多个任务时使用的管理界面。
……
还有更多成果内容,详见项目结题成果报告。该项目报告共计30页,关注城市数据派微信公众号,在微信公众号对话框中输入24715,即可获得报告全文PDF的下载方式。
原文始发于微信公众号(城市数据派):基于多任务协同的群智感知机理与方法丨城市数据派