规划问道

如何理解大数据有偏性?众包大数据偏见在旅游领域中的解释丨城市数据派

如何理解大数据有偏性?众包大数据偏见在旅游领域中的解释丨城市数据派


如何理解大数据有偏性?众包大数据偏见在旅游领域中的解释丨城市数据派


年终数据技能大冲刺开车啦!

同时报名还可享更多优惠:

任选2套同报,钜惠价再减200元!

任选3套同报,钜惠价再减360元!

任选4套同报,钜惠价再减520元!

任选5套同报,钜惠价再减650元!

(多套同报优惠到1月30日截止,

以上优惠不包括营13)

如何理解大数据有偏性?众包大数据偏见在旅游领域中的解释丨城市数据派

加我获取每套课程详细介绍
加我咨询和报名课程
如何理解大数据有偏性?众包大数据偏见在旅游领域中的解释丨城市数据派



近年来,“大数据”已在医疗、金融、教育等领域获得了广泛应用,并逐渐成为一个极为热门的研究话题。然而,大数据的引入也带来了诸多争议,最具代表性的就是“大数据偏见/有偏性”问题,其通常以“选择性偏差(Selection Bias)”等术语被提及。在学术研究中,选择性偏差被概括为因样本选择的非随机性而导致得到偏斜结论的现象,可简要理解为因样本缺乏代表性所导致的系列问题。团队最近的一项工作以旅游领域为例,对众包方式采集的大数据选择性偏差进行了聚焦研究,旨在帮助研究者对众包旅游大数据偏见有一个更形象与更透彻的理解。为此,论文按照人文社科领域的流行研究思路,提出了一个解释框架(Interpretive Framework),并收集了来自六个网站的案例数据,展示了选择性偏差是如何出现并影响旅游研究的。值得一提的是,论文在最后也为未来的众包大数据研究提出了一些建议,并呼吁研究者针对众包大数据的选择性偏差保持中立态度:“批判”与“宽恕”共存,并推动研究数据的背景透明化。限于篇幅,本推文提供的是论文全文的简要中文导读。


1 引言(Introduction)

如何理解大数据有偏性?众包大数据偏见在旅游领域中的解释丨城市数据派

本节主要是关于研究背景的介绍。大数据现已根植于人类生活的各个方面,开启了属于数据科学的新时代。在旅游领域,大数据应用技术的发展同样极为迅速,推动了新的研究热潮。在Web2.0时代,众包被认为是收集旅游大数据的一种流行方法。众包数据通常被定义为个人通过ICT集成设备和Web2.0技术自愿提供和贡献的数据类型。在旅游研究背景下,可访问的众包数据通常相比传统调查数据更便于收集,尤其是在大范围区域研究中。尽管如此,众包数据仍不能“免疫”大数据的常见缺陷。最具争议的是众包贡献者的代表性。由于并非所有众包平台都有庞大的用户群,众包数据集中的“贡献者(即平台用户)”,通常只代表现实世界中实际游客的一小部分。换言之,众包旅游大数据很可能存在选择性偏差问题。这种现象极有可能归因于齐普夫最小努力定律的影响。即,大多数人不生成内容,他们只是观看他人生成的内容。在目前,众包数据仍被认为不足以替代稳健的调查数据,尤其是在对样本覆盖程度要求较高的研究中。


然而,众包大数据的选择性偏差作为旅游领域的一个重要研究课题并没有得到太多的关注。在相关文献中,此内容往往只是作为一种研究局限性在论文末尾被提及,目前仍然缺少对这一问题提供直接见解的文献。鉴于此,论文提出了一个解释框架,用于解析应用于旅游研究的众包大数据中的选择性偏差,并基于此构建了若干个说明案例以支持对框架的理解。研究内容集中在众包大数据中的选择性偏差是如何出现的,以及它们对旅游领域分析的显著影响,并基于此为旅游研究者和利益相关者提供建议。


2 背景(Backgrounds)

如何理解大数据有偏性?众包大数据偏见在旅游领域中的解释丨城市数据派

本节主要提供了关于“大数据相关的公共问题(2.1)”、“大数据中的选择性偏差(2.2)”、“旅游研究中的众包大数据(2.3)”三个方面的文献综述。


在大数据相关的公共问题方面,伦理问题受到了最广泛的关注。而大数据技术的普及也有加剧现有不平等的风险,相关的一个著名问题是“数字鸿沟”。大数据技术的发展也带来了监管和法律方面的挑战。在大数据中的选择性偏差方面,评估和校正是两种常见的方法性研究。研究者们做出了许多努力来探索和评估大数据集中的选择性偏差特征,同时也试图采用加权或重抽样的方法对大数据的选择性偏差进行纠正,多依赖于利用小数据源(如官方统计数据、问卷调查、访谈)作为对照。在应用研究方面,已有诸多领域(如医学、犯罪学)的研究者指出了领域大数据的选择性偏差。然而,尽管被广泛“发现”,关联于特定领域的大数据选择性偏差很少被作为重点研究主题探讨,这在旅游领域中同样较为突出。


在旅游研究中的众包大数据方面,评论和博客(传统博客+微博)是两种最常见的类型,其文本与非文本信息(如地理位置、图像)均引起了广泛关注。另外,随着信息与通信技术(ICT)的快速发展,旅游研究中出现了各种“新颖”类型的众包大数据,如共享照片以及众包GPS轨迹。然而,随着众包大数据在旅游领域的广泛应用,虽然越来越多的研究者指出了其选择性偏差缺陷,但更多仅作为学术论文末尾的局限性进行讨论。


3 方法论(Methodology)

如何理解大数据有偏性?众包大数据偏见在旅游领域中的解释丨城市数据派

本节主要提供了对解释框架以及研究数据的介绍。在人文社科领域的研究中,解释框架被定义为一种通过观察来了解特定主题的方法。受医疗领域术语的启发,本文提供的框架使用“外在表征(External Manifestations,病症)”和“内在诱因(Internal Causes,病因)”来描述众包旅游大数据中的选择性偏差(图1)。一方面,“外在表征”主要概括了选择性偏差对旅游领域分析所造成的显著影响,反映在时间、空间和内容上。另一方面,“内在诱因”主要关注于内在样本信息的偏斜(如性别、年龄、客源地等)。另有“潜在影响因素”,这些因素不被归类为“外在表征”和“内在诱因”,因为它们的信息通常无法从众包数据集中明确提取(即不与“数据集”直接相关)。


如何理解大数据有偏性?众包大数据偏见在旅游领域中的解释丨城市数据派

图1. 解释框架:众包旅游大数据的选择性偏差


为更好地理解提出的框架,论文提供了若干个说明性案例。鉴于相关文献中照片、博客、微博和评论数据是旅游研究中常见的众包大数据类型(见综述部分),因此本研究的案例数据集也基于这几种数据类型,以使研究更具典型性和代表性。研究选择了六个网站作为数据收集来源,这些网站都在全球或在中国(全球最大的出境旅游市场)较为知名,并在旅游研究中已得到了广泛应用。研究还收集了官方旅游统计和调查作为比较数据,以及官方人口统计作为辅助数据。


4 外在表征(External Manifestations)

如何理解大数据有偏性?众包大数据偏见在旅游领域中的解释丨城市数据派

本节介绍了与选择性偏差的外在表征有关的说明性案例。


在时间方面,论文收集了携程、去哪儿以及穷游三个旅游网站在2012至2019年关于青岛、苏州、丽江以及西安四个城市的旅行博客数据,将逐年的数据量与官方旅游统计人数进行比较,发现携程及去哪儿网的数据波动较大,且很有可能受到了2015年两企合并的影响。之后构建了一个相关性分析(图2),发现穷游与官方统计数据的相关系数最高,而携程和去哪儿的数据相关系数值较低。以上时间视角的案例引发了若干思考。例如对于基于众包数据的时间分析而言,预先评估平台用户群的时间稳定性至关重要。作为平台受欢迎程度的衡量标准,用户数量在很大程度上取决于平台的营销和运营管理。众包平台的管理者需要加强对数据变化的监控,因为该变化能够为运营质量改进提供有价值的见解。


如何理解大数据有偏性?众包大数据偏见在旅游领域中的解释丨城市数据派图2. 官方游客统计数据与三个网站旅行博客数据的时间相关性分析


在空间方面,论文首先基于伦敦地区的Flickr数据构建了一个小尺度案例,发现在英国国家美术馆附近,数据热点主要集中在馆前而不是馆内,造成这种分布的原因很可能来源于平台的应用场景特性(即拍照)以及国家美术馆的观光限制(即2014年前禁止拍照)。之后,论文构建了一个稍大尺度的案例,基于云南省16个地级旅游目的地的携程、去哪儿和穷游网旅行博客数据(2014-2018),绘制空间分布图(图3),发现三家旅游网站数据的空间分布较为相似,而官方统计数据的空间分布与之有较明显的差异,后续的讨论与分析指出官方统计口径和目的地经济水平可能是导致这种差异的主要原因。


如何理解大数据有偏性?众包大数据偏见在旅游领域中的解释丨城市数据派图3. 云南省旅行博客和官方游客统计数据空间分布


在内容方面,论文收集了携程、去哪儿和TripAdvisor三个网站关于四个典型景点(两个开放景点+两个非开放景点)的点评数据(2011-2018)。通过评论词云(图4)可以看出,虽然不同数据源对同一景点的词云比较相似,但部分细节仍存在一定差异。最值得注意的差异来自于苏州博物馆和丽江束河古镇,携程和去哪儿的用户在评论中提及“预订”和“门票”的频率明显高于TripAdvisor的用户。造成这种差异的原因很可能是携程和去哪儿在其网站和APP提供预订服务,而TripAdvisor在中国地区对此并不支持。本案例重点强调了平台应用场景对众包数据内容的影响。

如何理解大数据有偏性?众包大数据偏见在旅游领域中的解释丨城市数据派

图4. 四个景点在三个众包平台的评论字云



5 内在诱因(Internal Causes)

如何理解大数据有偏性?众包大数据偏见在旅游领域中的解释丨城市数据派

本节介绍了与选择性偏差的内在诱因有关的说明性案例。良好的抽样是决定研究是否能够提供正确的含义与知识的关键。然而,目前使用众包数据的旅游文献往往缺乏对众包受访者社会背景的描述,影响了基于此类研究派生的政策和发展建议的合理性。本节主要使用来自新浪微博的签到数据,选择苏州作为案例区域。为了进行比较,论文获取了官方游客调查数据,并对微博数据进行处理以对调查过程进行模拟。基于此,对官方游客调查以及微博数据的游客受访者背景进行比较,主要基于性别、年龄、以及客源地三个视角。


在性别方面,论文计算了微博数据集中男性和女性游客的比例,并与穷游和携程网用户以及户籍人口数据进行了比较(图5)。虽然苏州官方未披露实际游客群体的性别信息,但通过人口数据以及一个全国尺度的旅游调查可以初步推断,社交媒体平台获得的样本在性别代表性方面很可能是存在偏斜的。一个可能原因是女性在社交媒体上比男性更为活跃,这在中国以及世界范围内都是一个有趣的现象(题外话:感兴趣的读者可以搜索【王思聪抽奖】)。由于社交媒体是常见的众包数据采集来源,由性别差异产生的偏见需要在未来被给予更多关注。


如何理解大数据有偏性?众包大数据偏见在旅游领域中的解释丨城市数据派

图5. 众包平台游客用户的性别分布以及与官方人口统计数据的比较


在年龄方面,论文使用微博用户的出生日期计算了他们发博时的年龄,并与官方调查数据进行了比较。此外,论文还收集了国家统计局提供的全国人口抽样调查数据来为分析提供额外支持,如表1所示。可以看出,微博数据集中的游客平均年龄明显低于官方调查。具体来说,微博数据集中25岁及以下游客的比例比官方调查高出23.79%。根据微博官方的用户报告,90后占总用户数的53%。相比之下,同时期中国总人口中90后仅占14%左右,年轻人似乎比年长者更容易接受数字技术和社交媒体。


表1. 三个数据源样本的年龄结构比较

如何理解大数据有偏性?众包大数据偏见在旅游领域中的解释丨城市数据派


在客源地方面,论文绘制了微博数据集中游客来源地的地理分布图,然后将结果与官方调查数据进行比较(图6)。可以看出,官方调查数据中游客来源地的空间分布呈现出由苏州向外均匀递减的态势,即具有距离衰减规律。微博数据集也有类似的现象,但在地图上出现了几个“异常”地区,如广东和四川。这可以用中国微博用户的地理分布来解释,例如广东是微博用户活跃度最高的地区,这无疑会增加从广东访问苏州的用户绝对数量。之后,论文使用三个常见的距离衰减函数来对微博和官方调查两个数据集进行拟合,并使用人口变量进行归一化尝试改进拟合,指出由于选择性偏差的存在,众包的数据集很有可能会影响距离衰减现象的具体呈现。


如何理解大数据有偏性?众包大数据偏见在旅游领域中的解释丨城市数据派

图6. 苏州游客的客源地分布




6 讨论(Discussions)

如何理解大数据有偏性?众包大数据偏见在旅游领域中的解释丨城市数据派

本节主要结合框架以及案例分析结果讨论了与众包旅游大数据选择性偏差相关的四个重要研究话题。


(1)选择性偏差和旅游业利益相关者

众包数据的出现无疑推动了旅游领域的发展,但旅游业利益相关者必须理解众包数据中存在的选择性偏差对他们具体事务的影响。例如,旅行者经常依赖他人生成的在线内容(UGC)来帮助他们做出决策。然而,由于Zipf最小努力原则的影响,UGC通常不会准确记录大多数用户的体验,意味着旅行者在观看他人生成的内容时需要谨慎。在线内容的评估对于景点和酒店的营销也很重要,营销工作需要考虑众包平台用户的背景,可能在性别、年龄等方面存在偏差。乐观地说,这种偏差反而可以用来增强精准营销。对于旅游众包平台而言,了解选择性偏差有助于改进其营销策略,如可以利用对选择性偏差的“内在诱因”分析来确定平台未能成功吸引的用户群。此外,选择性偏差的“外在表征”可用来揭示潜在的运营缺陷。对于目的地营销组织(DMO)而言,应彻底检查基于众包数据集的报告,它们可能因选择性偏差而存在偏见。DMO可能还需要重新评估其与众包平台或在线旅行社的合作关系,因为这些平台的广告受众是有局限的。


(2)多源同类数据利用和选择性偏差

诸多研究者认为,使用多个来源的的同类型数据(如同时采集携程、去哪儿和穷游的旅游博客作为研究数据集)可以有效地减轻选择性偏差。但本文认为,应增加几个先决条件:1)应预先调查数据源平台的应用场景。前文案例表明,即使数据类型相同,平台应用场景的细微差异(例如是否提供预订和售票服务)也可能对分析结果产生关键影响;2)如果要将多个来源的数据融合到一个单一的分析数据集中,需要提前仔细检查每个来源的样本细节。旨在改善选择性偏差的数据融合的一个重要前提是数据源间具有良好的用户群体互补性。如果不能满足这一条件,“鲁莽”的数据融合很可能会带来更严重的偏差;3)相似类型的数据源应更多地用于比较目的,这一讨论与社会科学中的“三角互证(Triangulation)”概念相关,该概念主要指使用不同的信息源来研究同一现象,以能够从各种数据来源了解受访者群体的特征差异,从而提高结果可解释性。


(3)选择性偏差:批判与妥协

在大多数文献中,选择性偏差往往作为一种“常见但不可避免”的局限性出现在文章末尾。一个广受争议的数据科学问题正在旅游研究中出现:选择性偏差应该受到批评还是接受?首先,建立选择性偏差的评估标准可能会引起争议。如果过于严格的标准被建立,大量已发表的文章和众包数据源将被视为不可使用的,这会阻碍包括旅游研究在内的多个领域的发展。其次,出于隐私保护目的许多平台并不会披露用户的社会背景,给选择性偏差的评估带来了不确定性。例如去哪儿网并不要求用户在注册时填写过多背景信息,在推特上获取用户的人口统计信息(如年龄和性别)往往依赖于假设而不是具体事实。最后,虽然已有研究者试图纠正大数据中的选择性偏差,但一些研究者也认为选择性偏差是无法得到充分评估和纠正的,因为纠正方法本身也总是有偏差的,研究者只能通过特定有限的目的处理数据集。更重要的是,在一些研究方向(如旅行者的情感和景观偏好)中,并没有被普遍接受的“真值”,导致纠正是几乎不可能完成的。


毫无疑问,众包数据提供了丰富的知识,而这些知识是无法通过基于调查的方法有效获得的。例如,与问卷调查和访谈相比,在线评论数据可以更容易地帮助收集大量游客的真实负面情绪。旅游业利益相关者可以建设性地利用负面评价来改善其业务。此外,虽然样本的结构性特征(如用户的性别和年龄)在众包数据中可能被扭曲,但现实世界中普遍模式的存在可能并不会受到十分显著的影响。因此,在旅游研究中,对众包数据中的选择性偏差的批判性审查和接受态度应该被允许共存,后文将讨论更详细的建议。


(4)研究建议

众包已经成为旅游研究中一种新颖的大数据收集方法。然而,“房间里的大象”(即众包数据中的固有选择性偏差)不容被忽视。如前文所述,围绕是否批评或接受这些偏差已成为一个关键讨论。总的来说,两种观点的和谐共存不仅是合理的,而且对该领域的发展至关重要。对选择性偏差的批判性检查并非徒劳无获,研究者有责任透明地描述他们所采集数据的来源,阐明偏差的性质,并全面了解其潜在影响。正如基于调查的研究要求对样本的人口统计学背景进行详细描述一样,众包数据的使用或许也需要彻底说明任何固有的局限性。对于学术研究来说,选择性偏差不应只是随口一提,在描述方法和结果以及在根据数据分析得出结论时,应充分承认选择性偏差造成的任何不确定性。此外,由于隐私问题和平台政策的驱动,背景信息的缺乏不应被视为一种不可避免的局限,研究者可以通过讨论或创新方法在一定程度上解决此问题。最重要的是,选择性偏差不应被全盘否定,因为在获得细致入微解释的情况下有偏的数据集同样能够获得可靠的结果。当然,在至关重要的领域,如精准营销和游客流量预测,严格检查数据的选择性偏差仍然是十分重要的。而对于专注于理解更宽泛的趋势和模式的研究来说,对偏差的一定程度容忍或许是可以接受的。


在批评和接受之间取得平衡绝非易事。尽管过于严格的评估标准可能会扼杀领域研究,但放任的方法有可能会损害该领域的可信度。非旅游领域的见解可以提供一些参考。例如,在医疗保健领域,研究者被建议构建“数据同理心”,即应该在一定程度上容忍数据偏见,但对数据来源、如何收集或由谁收集有深入了解。同样,在犯罪学领域,人们承认完全消除大数据中的偏差几乎是不可能的,但研究者被鼓励不断理解和解决数据偏差。教育领域与此类似,研究重点从完全消除偏差转向承认偏差,并积极加强数据收集和分析模型以减轻影响。旅游领域与上述领域在了解人类行为和偏好方面有相似之处。然而,与医学和犯罪学等领域相比,旅游领域的偏差可能有更大的宽恕空间,因为这些领域与人类健康和安全等关键问题的联系比旅游领域更直接明显。因此,旅游研究者也应保持中间立场。在评估选择性偏差时保持警惕至关重要,但也要知道完美的数据集往往也难以捉摸。在大力推行纠正方法的同时,也应认识到其可能带来的额外局限性和偏差。通过透明的报告、中立的批判或谨慎的纠正,研究者们可以最大程度利用众包大数据的力量,同时维护他们研究结果的完整性以及在领域中的可信度。



7 结论(Conclusion)

如何理解大数据有偏性?众包大数据偏见在旅游领域中的解释丨城市数据派

论文提出了一个解释框架,为如何在旅游研究背景下描述和理解众包大数据中的选择性偏差提供了及时的数据科学见解。根据框架,旅游业利益相关者和研究人员应仔细重新评估众包大数据的价值和可用性。框架的支撑说明性案例也得出了若干重要规律,如表2。此外,还可以从案例中获得面向众包服务和营销的改进建议。例如,借助众包数据进行营销时,应充分考虑平台用户的背景。由于存在选择性偏差,DMO应仔细审查任何基于众包数据集的报告,并重新评估其与众包平台的可能合作关系。

表2. 从说明性案例中获得的重要规律

如何理解大数据有偏性?众包大数据偏见在旅游领域中的解释丨城市数据派

对于学术界来说,相关人员在执行和解释大数据分析时需要更加谨慎。根据医疗保健和犯罪学等不同领域的见解,鼓励旅游研究者在对待大数据偏见时采取中间立场。虽然众包大数据中的选择性偏差在一定程度上是可以容忍的,因为它们确实很难完全消除,但仍然不建议缺少对数据来源、样本背景和潜在影响的详细检查。旅游研究者被敦促使他们的大数据分析更具可执行性、说服力和可解释性。为了增强本研究的可推广性,或许需要开展进一步的工作,如根据不同的数据类型(如评论、旅游博客和地理标记照片)对框架进行细分,这将有助于区分特定类型的众包数据在选择性偏差方面的异同。此外,论文并没有涉及大众对众包平台提出普遍批评,如存在出于商业目的雇佣的写手或机器人发布的虚假内容。未来纳入这些缺陷将进一步提高本研究的学术价值。

相关文献
Yunhao Zheng, Yi Zhang, Naixia Mou, Teemu Makkonen, Mimi Li, & Yu Liu. (2024). Selection biases in crowdsourced big data applied to tourism research: An interpretive framework. Tourism Management, 102, 104874.
https://doi.org/10.1016/j.tourman.2023.104874

本文转载自:未名时空

最近有朋友问我们:为什么没有及时看到推文?因为微信改了推送规则,没有点“赞”在看,没有把我们“星标”,都有可能出现这种状况。
“星标”,不迷路!看完文章顺手点点“赞”在看,就可以准时与我们见面了~


原文始发于微信公众号(城市数据派):如何理解大数据有偏性?众包大数据偏见在旅游领域中的解释丨城市数据派

赞(0)