文献阅读笔记

何梦文献阅读笔记

一、文献信息：

Edmond Awad et al.(2020).Drivers are blamed more than their automated cars when both make mistakes.Nature Human Behaviour, 4(2), pp.134-143.论文摘要：

当一辆自动驾驶汽车伤害了某个人，听到这件事的人会责怪谁?在这项研究中，我们要求人类参与者考虑一个假设的情况，即一个行人被一辆由主司机和副司机共同控制的汽车杀死，并让参与者指出应该如何分配责任。我们发现，当只有一个司机犯错时，该司机受到的指责更多，无论该司机是机器还是人。然而，在人机共享车辆的情况下，当两名司机都出现错误时，归咎于机器的责任就会减少。这一发现预示着公众对自动汽车出现的故障人工智能部件反应不足，因此具有直接的政策含义：允许共享控制车辆的实际标准建立在法庭陪审团制度上可能无法正确地调节这些车辆的安全;相反，这可能需要一个自上而下的方案(通过联邦法律)。

论文关键内容：

研究的核心问题是:当一辆自动驾驶汽车发生事故并伤害了某人时，听说这起事故的人如何在人类和机器司机中去分配事故责任?在这篇文章中，研究者使用了一个行人被一辆由主司机和副司机共同控制的汽车撞死的小插图，并让参与者根据因果责任指标去评估事故。研究中使用的案例是假设的(只要受访者知道它们实际上没有发生)，但不是不现实的，因为它们被设计为包含可能实际发生的事件的相关元素。研究中考虑了几种可能出现的控制机制，分别是：

一、只有人类驾驶。这是一辆单独驾驶的汽车，其中一个人是司机。也被称为普通汽车。

二、只有机器驾驶。这是一辆单独驾驶的汽车，里面的司机是机器。也被称为全自动汽车。

三、双驾驶车辆。这辆车有一个主要驾驶员，他的工作是驾驶这辆车，还有一个次要驾驶员，他的工作是监视第一个驾驶员的动作，并在第一个驾驶员出错时进行干预(也称为共享控制汽车)。双驾驶车辆使用了四个版本，分别是：

①人-机。这是一辆双驾驶员汽车，其中一个人是主要驾驶员，一个机器是次要驾驶员。

②机-人。这是一辆双驾驶汽车，其中机器是主要驾驶员，人类是次要驾驶员(也称为自动驾驶)。

③人-人。这是一辆双驾驶员车，其中一个人是主要驾驶员，另一个人是次要驾驶员。

④机机。这是一辆双驾驶员车，其中一台机器是主要驾驶员，另一台机器是次要驾驶员。

但是两种主要的情况是共享控制实例（双驾驶）。研究中考虑了一个简化的场景空间，包括两种情景假设：其中(1)主驱动做出正确的选择，而副驱动错误地进行干预(不良干预)，(2)主驱动出错，而副驱动没有进行干预(错过干预)。这两种情况都以撞死行人发生事故作为结局。研究者要求参与者对人类用户和机器的一个代表做出评价，机器的代表要么是汽车本身，要么是设计汽车的公司。

在不良干预的情况下，主要驾驶员(无论是人还是机器)做出了正确的决定，使汽车保持在路线上，这将避免撞到行人，但是副驾驶决定将车转向，撞向行人，做了错误的决定。在这种情况下，结果表明无论司机是人还是机器，副司机不必要的干预导致行人死亡的责任要比按正确路线行驶的主司机更大。而且这种情况下研究人员没有检测到驾驶员类型(人or机器)对责任分配的可靠影响。

在错过干预的情况下，两个司机都犯了错误。这些案例的主要发现是，司机类型——无论司机是人还是机器——都对责任分配有着重大影响。具体来说，在这些人类和机器都犯了错误的共享控制场景中，机器驾驶员受到的指责总是少于人类驾驶员。

阅读体会：

这项研究主要研究的是在自动驾驶汽车事故发生时怎样在人和机器之间分配责任，力求摸清公众对自动驾驶汽车事故的具体道德态度，从而推动自动驾驶汽车的早日普及，但是这项研究比较特别的一点是，它并不是像以前的一些研究一样单独去假设完全由机器驾驶的汽车的场景，这项研究考虑到了在人类司机驾驶和自动驾驶汽车之间有一个过渡期，而这个过渡期是由人类和机器共享控制汽车实现的，所以了解清楚公众对人类和机器犯错误时的态度是很有必要的。这可以帮助明确自动汽车制造商在自动撞车事故中应该如何以及何时承担责任。研究者也巧妙的设定了六种汽车控制条件以及两种事故发生的情境（单个司机犯错和两个司机都犯错），从而可以严谨且充分地比较参与者对人类司机和机器司机的态度。后续做的其他几个研究也排除了可能出现的误差还将实验结果推广到了更生态更真实的场景中。这项研究的主要发现是：在假设的情况下，如果一个人和一个机器共同控制汽车，当这两个司机都犯了错误时，归咎于机器的责任就会减少，把责任从机器身上转移开而移到人类身上。

二、文献信息

张湘一,邓磊,喻寒兵,陈锡友 & 丁道群.(2021).得失不对称：跨期选择中自我-他人决策差异.心理科学(03),667-673.doi:10.16719/j.cnki.1671-6981.20210321.论文摘要

采用跨期选择任务范式，考察得失情境下自我-他人决策差异。结果发现：（1）为自己决策比为他人决策更偏好于选择即刻选项；（2）损失情境比获益情境下更偏好于选择即刻选项；（3）获益情境下为自己决策与为他人决策在选择即刻选项上不存在显著差异，而损失情境下为自己决策比为他人决策更偏好于选择即刻选项，表明得失情境下自我-他人决策差异存在不对称性。

论文关键内容

自我决策与为他人决策是社会决策的重要组成部分，日常生活中个体不仅需要为自我决策，也频繁地为他人做决策，虽然为他人决策不能带给决策者以直接的收益，但对其维系人际关系至关重要。正因为如此，自我 – 他人决策差异问题引起了研究者的广泛关注。跨期选择中自我 – 他人决策差异的现有研究存在相悖的结果，有的研究发现为自己决策比为他人决策更偏好于选择即刻的小额回报，然而也有研究发现为自己决策比为他人决策更偏好于选择延迟的大额回报。而且，现实生活中人类的决策绕不开获益与损失。前景理论认为获益和损失情境下个体具有不同的风险偏好：获益情境下个体倾向于风险规避，损失情境下个体倾向于风险寻求。而且，获益情境下个体为自我决策比为他人决策时更倾向于风险规避，损失情境下个体为自我决策比为他人决策时更倾向于风险寻求。因此，本研究不仅关注跨期选择中获益情境下的自我 – 他人决策差异，而且关注跨期选择中损失情境下的自我 – 他人决策差异。根据责任规避假说，当决策仅涉及负性结果或可能产生负性结果（例如，金钱损失）时，为了逃避他人的指责，个体为他人做决策时往往表现出责任规避倾向，减弱自己与负性决策结果之间的因果关联。而且，责任规避可能导致了风险决策中在损失情境下个体为他人选择不确定的（或风险）选项，因为选择了不确定的（风险）选项之后，即使他人遭受损失，自己只需要承担一部分责任，还有一部分责任应归于概率或运气。责任规避可能导致了跨期选择中在损失情境下个体为他人选择延迟的选项，因为延迟选项为个体提供了暂时规避责任的机会，选择了延迟选项之后，即使他人遭受了更大的损失，自己也可将部分责任归为

延迟时间。然而，当决策仅仅涉及正性结果（例如，金钱收益）时，个体为他人做决策时常常无需规避责任甚至偏好于承担责任，因为获益情境下为他人决策虽不能直接带来经济收益，然而个体可以收获社会回报（如他人的赞赏、感恩、尊敬），本研究假设：损失情境下个体为自我决策比为他人决策更倾向于选择即刻选项，而获益情境下为自我决策和为他人决策在选择即刻选项上可能不存在显著差异。

本研究采用2（决策对象：自己vs.他人）× 2（决策情境：获益 vs.损失）的被试内实验设计。因变量为被试选择即刻选项的比率。本实验采用 Huang 等人(2017)的跨期选择任

务范式。在该任务中，获益情境下被试需要在一个即刻的小额回报和一个延迟的大额回报之间进行选择。即刻的小额回报是 10 元，在本实验的所有获益试次中保持固定不变。延迟的大额回报由不同的回报大小和延迟时间组合而成。具体来说，回报大小从 10.5 元至 30 元，以比即刻的小额回报大5%，15%，25%，35%，50%，70%，85%，95%，125%，150%，180% 和 200% 这 12 个级别变化。延迟时间为 7 天，14 天或者 30 天。因此，组成了 36个不同的延迟大额回报，每个延迟的大额回报与这个固定的即刻小额回报组成 36 个配对的选择项。损失情境下被试则需要在一个即刻的小额损失和一个延迟的大额损失之间进行选择。即刻的小额损失也是 10 元，在本实验的所有损失试次中保持固定不变。延迟的大额损失在值的大小和延迟时间上均与获益情境下保持一致。因此，损失情境下延迟的大额损失与固定的即刻小额损失也组成了 36 个配对的选择项。

本研究采用一个具体的名字“郑立”指代他人，并告知被试“郑立”是从另一个实验中随机选择的一名被试。因此，“郑立”是一个陌生人，被试与“郑立”从未见面。为排除预期互惠，即被试认为“郑立”也可能为自己做决策）对被试选择偏好的影响，被试被明确告知陌

生人“郑立”将不会为他（她）们作决策。实验开始前主试给予被试 30 元初始禀赋（损失

情境下可能最大的损失金额），并告知被试在实验结束后计算机将从为自己决策的所有试次中随机选择一个试次，并根据这个试次的真实结果给予实验报酬。如果选择的是一个损失试次，30 元初始禀赋扣除这个损失试次的结果所剩余的金额则为被试的真实收益；如果选择的是一个获益试次，30 元初始禀赋加上这个获益试次的结果则为被试的真实收益。对于这

个被选择的试次，如果被试选择的是即刻的小额选项，在实验结束后即刻支付被试在实验过程中的真实收益；如果被试选择的是延迟的大额选项，在相应的延迟时间点以微信红包的形式将实验过程中的真实收益发送给被试。此外，每名被试都获得 10 元基本被试费，基本被试费在实验结束后立即给予。

结果发现，获益情境下个体为自己决策和为他人决策时选择即刻选项的比率不存在显

著差异；然而，损失情境下个体为自己决策时选择即刻选项的比率显著高于为他人决策时选择即刻选项的比率。

阅读体会

此项研究的结果拓展了跨期选择理论对于个体决策偏好的解读。研究发现，获益情境下不存在自我-他人选择偏好差异，然而损失情境下个体为自我决策比为他人决策时更偏好于选择即刻选项，表明损失情境下即刻效应可能受到决策对象与自我的社会距离的调节：决策对象与自我的社会距离越远，个体在损失情境下可能表现出越小的即刻效应。因此，跨期选择绝不仅仅是围绕得失大小或延迟时间而展开的纯粹的价值计算，而是有决策者更深层愿望和动机的投射。在某种程度上说，跨期选择中个体不得不在得与失、现在与未来（即刻的得失和延迟的得失）、我和他（自我的得失和他人的得失）三者之间进行复杂的权衡。本研究的发现填补了跨期选择中自我 – 他人决策差异领域目前在损失情境下所存在的空白之处，有助于形成解释力较强的整合理论模型；而且有助于深化对人类经济决策与高级社会决策相互作用规律的认识。此外，本研究的发现也具有实际应用价值。基于本研究的结果，经济决策中损失情境下更易出现自我–他人决策差异。如果能充分认识到自我–他人决策差异，客户就不会将损失归咎于经纪人的责任规避。如此，不仅可以大大降低双方发生冲突的可能性，还有助于自己站在对方的视角更全面的思考，从而做出更优化的决策。

三、文献信息：

陈海贤 & 何贵兵.(2014).心理距离对跨期选择和风险选择的影响.心理学报(05),677-690.doi:

论文摘要：

通过考察时间距离、社会距离和概率距离对跨期选择和风险选择的影响, 探究跨期选择和风险选择心理过程的相似性, 并检验不同心理距离影响决策的相似性。结果发现, 无论是时间距离(实验1)、社会距离(实验2)、还是概率距离(实验3), 心理距离越远, 被试在跨期选择中越倾向于延迟选项, 在风险选择中越倾向于风险选项。研究认为, 在跨期选择和风险选择中, 选项的表征结构和选项整体评价时不同选项特征的相对权重具有相似性。随着心理距离增加, 与高识解相联系的金额特征的相对权重增加, 与低识解相联系的时间和概率特征的相对权重降低, 这使得被试更倾向于选择金额较大的延迟和风险选项。同时, 研究发现三类心理距离对两类决策有相似影响, 进一步验证了不同心理距离的本质相似性。

论文关键内容：

本研究通过考察时间距离、社会距离和概率距离对跨期选择和风险选择的影响, 着重探讨跨期选择和风险选择是否包含相似的心理加工过程, 并检验不同心理距离影响决策的相似性。

由于3 类距离对选项表征和选项特征的权重有相似影响, 因此研究中假设这3 类心理距离对决策选择的影响也相似。同时, 由于人们对跨期选项和和风险选项的识解和表征结构是相似的, 即价值属高水平识解, 延迟时间和概率属低水平识解, 因此研究也假设两类决策任务受心理距离影响的方式也相似。

整个研究被分为了三个分实验，分别对应研究时间距离、社会距离和概率距离，而每个分实验又由ab两个实验组成，分别对应研究跨期选择和风险选择这两种决策任务。

本研究的具体假设如下：

假设1a：较之近期的跨期选择, 人们在为远期的跨期选择做决定时更倾向于延迟选项;

假设1b：较之近期的风险选择, 人们在为远期的风险选择做决定时更倾向于风险选项;

假设2a：较之为自己做跨期选择, 人们在为他人做跨期选择时更倾向于延迟选项;

假设2b：较之为自己做风险选择, 人们在为他人做风险选择时更倾向于风险选项;

假设3a：较之大概率的跨期选择, 人们在为小概率的跨期选择做决定时更倾向于延迟选项;假设3b：较之大概率的风险选择, 人们在为小概率的风险选择做决定时更倾向于风险选项。

实验1的结果表明, 时间距离对跨期选择和风险选择有相似的影响。相比于时间距离近时, 时间距离越远, 被试越倾向于选择金额较大的延迟选项和风险选项。

实验2的结果表明, 时间距离对跨期选择和风险选择有相似的影响。相比于给自己做选择时, 被试给他人做选择时, 被试越倾向于选择金额较大的延迟选项和风险选项。

实验3 表明, 同时间距离和社会距离一样, 概率距离对跨期选择和风险选择的影响也相似。概率距离越远, 被试越倾向于选择金额更大的延迟选项或风险选项。

将以上6 项实验的结果汇总并直观呈现如图1、图2。根据之前各项实验中的统计分析可以看出, 3类心理距离对决策的影响相似, 两类决策受心理距离的影响也相似。心理距离较远时, 被试更倾向于风险选项和延迟选项。

阅读体会

跨期选择和风险选择是两种最基本、最普遍的决策形式。跨期选择和风险选择之间的相似性和联

系一直是备受关注的重要问题。通过考察跨期选择和风险选择受心理距离影响的相似性, 能够间接推测两者可能包含的共同的心理加工过程。另一方面,时间距离、社会距离和概率距离是3 种不同类型的心理距离。以往研究已经发现, 3 种心理距离对事物表征有相似的影响。但在跨期选择和风险选择情境中, 3 种心理距离是否有相似效应, 尚待研究证实。因此本研究采用较为逼真的决策任务在6 种决策情境下考察了3 类心理距离对两类决策的影响。研究发现, 心理距离越远, 被试越倾向于在跨期选择中选择金额更大的延迟选项, 在风险选择中选择金额更大的风险选项。且无论是时间距离、社会距离还是概率距离, 不同类型心理距离对每种选择分别有相似的影响。

四、文献信息

Kriegeskorte N, Storrs KR.Grid Cells for Conceptual Spaces? Neuron.2016 Oct 19;92(2):280-284.doi: 10.1016/j.neuron.2016.10.006.PMID: 27764662.论文摘要

语言和艺术充满了物理空间和概念空间之间的类比——我们可以 ‘feel down,’ ‘take

someone through an argument,’ or ‘rise in another’s estimation.’。“这些空间隐喻可能有神经元表征的基础。Constantinescu等人(2016)报告的证据表明，大脑在抽象概念空间中表示方向时，使用与在物理空间中表示方向相同的编码原则。

论文关键信息

①二维物理空间的网格代码

物理空间是如何在大脑中表示的已经被研究了40多年。当老鼠自由地探索它的环境时，记录单个海马细胞的电活动揭示了“位置细胞”，这种细胞只在动物处于特定位置时才会可靠地发光。更令人吃惊的是在邻近的内嗅皮层(ERH)中发现的“网格细胞”，当老鼠穿越环境时，它会反复发光。在环境地图上，发射点集中在规则等边三角形网格的顶点。不同的网格单元将给定环境中的网格随机偏移。网格也具有不同的空间尺度，每个单元的顶点之间具有不同的距离。然而，网格角度是在单元格之间对齐的。因此，对于两个不同的网格单元，两个三角形网格的大小可能不同，可以在二维平面上移动，但不会相互旋转。这些发现为约翰·奥基夫(John O Keefe)、梅-布里特·莫泽(May-Britt Moser)和爱德华·莫泽(edward Moser)赢得了2014年诺贝尔生理学奖。在ERH中也发现了“连接网格细胞”，它们进一步特殊化，只在大鼠朝着特定方向穿过网格顶点时才会发射。单个单元格的方向偏好倾向于与六个主网格轴中的一个重合(即由假设的三角形瓦片的边缘形成的六个方向)。人们认为，当动物在环境中导航时，网格细胞的活动可以精确地编码动物的位置、方向和速度。

Doeller等人(2010)认为，结合网格细胞的特性可以通过fMRI获得的群体平均神经活动的体积测量来检测它们。看到为什么是这种情况,可以考虑的一个子集的人口连接网格细胞形成网格的一个空间尺度(因为在不同尺度的网格取向是一致的,任何影响的方向大部分人口活动出席一个规模仍将出现在考虑所有尺度)。假设网格之间是随机偏移的，使得顶点在二维环境中的总体分布是均匀的。如果网格细胞不是定向选择的(或以相同的概率选择所有方向)，那么当动物从一个随机起点向任何方向移动时，人们可以预期总体上发射大致相同数量的峰值。因此，我们预计平均fMRI信号作为航向的函数没有变化。然而，对于六个主要网格轴中的一个，合取网格单元格往往是有选择性的(图1C描述了六个这样的单元格的总体，每个单元格对不同的轴都有选择性)。

如果方向选择调节相对较窄，那么当动物沿着与这些轴对齐的轴(其中一些细胞将被强烈激活)移动时，整个种群的总神经活动应该比错位(没有细胞将被强烈激活;图1 d)。因此，Doeller等人预测，如果人类的ERH像大鼠一样包含空间网格细胞，那么ERH的平均fMRI信号在绘制为方向函数时应显示出6倍调制。这个预测在一个优雅的实验中得到了证实。在这个实验中，当参与者在虚拟环境中向不同方向导航时，记录了他们的大脑活动(Doeller et al.，2010)。后来发现，在阿尔茨海默氏症(一种通常伴有空间定向障碍的疾病)风险人群中，6倍调制减弱(Kunz et al.，2015)。

②二维概念空间的网格代码

在一个富有想象力的飞跃中，Constantinescu等人(2016)调整了这种逻辑和实验设计，以询问大脑是否可能使用网格细胞去编码除了物理以外的概念性的2D空间。在这个实验中，他们创造了一个新颖的鸟类形状的2D空间。这两个维度是一只鸟的腿和脖子的长度。这个空间中的一个点对应于某只鸟的图像，一个方向对应于颈长变化与腿长变化的比值。如果这个二维形状空间在大脑中由轴线对齐的方向选择网格细胞来表示，那么当参与者在形状空间内“移动”不同方向时，包含网格细胞区域的大脑活动将呈现6倍调制。在fMRI扫描之前，参与者已经对这只鸟有了潜在的熟悉空间，而不显示它的2D描绘。空间中的六个地点与任意的圣诞主题符号相关联。当参与者在训练期间到达其中一个地点时，相应的符号就会显示出来。训练包括三个任务，参与者自由探索空间，尝试匹配给定目标鸟的腿和脖子的长度，并尝试导航到已知的圣诞符号的位置。

在fMRI扫描仪中，参与者在每次试验中看到一只随机的鸟，它们在1秒内随机向一个方向变形(图2B)。参与者被要求想象这只鸟在接下来的4秒里继续沿着同样的轨迹变形。想象阶段旨在鼓励参与者积极编码形状空间内的行进方向。在每次试验结束时，参与者报告鸟类形状的轨迹是否通过了六个圣诞符号中的任何一个。

Constantinescu等人(2016)假设“概念网格细胞”存在于ERH和内侧前额叶皮层，在这些区域，人类网格细胞的活动在空间任务中被直接记录下来，但希望在确切位置上有一定的灵活性。为了适应这一点，他们首先进行了全脑体素选择分析，以发现在试验中表现出6倍调制的体素簇(图2C)，这些体素簇使用上述的正弦和余弦预测因子对进行预测。重要的是，这个过程不是循环的，因为在体素选择分析中，对每组fMRI数据分别使用了一对正弦和余弦预测因子。如果将这种分析应用于随机数据，它将选择在每组数据中表现出6倍调制的体素，但不会选择在每组数据之间表现出一致相位调制的体素。调制相位(栅角)的一致性不能用偏置选择来解释。该程序识别了7个体素簇，与doeller等人(2010)的报告重叠，包括两个假设区域(vmPFC和ERH)的簇，这是后续一致性分析的重点。在这两个被选择包含6倍调制的簇中，该调制的相位被发现是一致的。不出所料，考虑到分析集中在选择6倍调制的区域，这些区域显示在其他频率(4倍、5倍、7倍或8倍)没有相位一致的调制。由于实验的某些特性存在周期性波动(例如，任务难度的调制为4倍，因为只有颈部或腿部发生变化时，推断轨迹更简单)，我们可能会认为其他区域也存在其他频率的调制。

③神经群体代码的大量fMRI特征

Constantinescu等人(2016)报道了在二维复杂视觉形状空间中，vmPFC和ERH的平均活动作为变形方向的函数具有一致的6倍调节。这一发现与具有狭窄方向调节和方向偏好的神经元群在六个等间距角度聚集一致。一个合理的解释是，这些区域的神经元编码形状空间，就像大鼠大脑中的连接网格细胞编码动物的环境一样。

阅读体会

之前研究中发现的“网格细胞”通过定期重复感受野来编码动物在二维物理环境中的位置和运动方向。本研究报告了用于二维概念空间的网格单元的第一个证据。这项工作对心理表征具有激动人心的意义，并展示了详细的神经编码假说如何能用大量人口活动测量进行测试。

本研究证明了功能磁共振成像(fMRI)揭示整个人类大脑假想的神经编码的能力，并提出了一种令人兴奋的可能性，即单一编码原则支撑着任意二维空间的表示，而这个二维空间无论是物理的还是抽象的都可以满足。

五、文献信息

Memory and decision making interact to shape the value of unchosen options.Nature Communications.论文摘要

深思熟虑的目的是区分不同的选择，以便我们能够致力于选择一种，而把另一种抛在脑后。然而，矛盾的是，深思熟虑也会在记忆中形成选择的选项与未选择的选项之间的联系。在这里，我们考虑这种可能性，并检查：选择的结果不仅影响我们选择的那个选项的价值，而且通过关联，会影响到我们没有选择的那个选项的价值。在5个实验中(总数为612)，包括一个预先登记的实验(n=235)，我们发现分配给未选择选项的价值与被选择选项的价值成反比。此外，这种反向关系与参与者对他们所选择的一对选项的记忆有关。我们的研究结果表明，在选项之间做出决定并不能结束它们之间的竞争。深思熟虑会将选择捆绑在记忆中，这样一个选项的学习价值就可以影响另一个选项的推断价值。

论文关键信息

本研究旨在探讨深思熟虑的这种行为是否会在两个选择之间产生记忆关联，并探讨这种关联对日后选项价值学习的影响。

1.研究假设：

对选择结果的了解会导致记忆中未选择的选项的重新激活，而这反过来又会导致未选择选项的价值发生变化。

不像以前的研究显示关联项目之间的直接价值转移，选择的选项是在被试深思熟虑的背景下关联的，这涉及到选项之间的对比。因此，此项研究的研究者预期价值会向相反的方向转移。也就是说，如果选择的项目被明确地奖励(或未奖励)，期望未选择的项目被推断为未奖励(或已奖励)，（选了A被奖励，未被选择的B的价值会降低，选了A被惩罚，未被选择的B的价值会升高）研究者将这种行为倾向称为价值反向推理。因此，我们假设深思熟虑可能有某种矛盾的作用:虽然它意味着分离选择选项，但深思熟虑将它们束缚在我们的记忆中。当这种联系被重新激活以实现价值更新时，它将继续服务于将期权价值分割开来的深思熟虑的目标。

2.研究方法：

一个多阶段的行为实验，在这个实验中，参与者在选择之间进行深思熟虑，然后了解他们的选择的价值。

①第一阶段，深思熟虑行为的发生首先，研究者要求参与者在两幅画之间进行讨论，并决定哪幅画在即将到来的拍卖中更有利可图;（选中的物品表示为Schosen未选中的物品表示为Sunchosen）。重要的是，研究者既没有要求参与者记住这些画，也没有说明每对画的结果之间有任何依赖关系。研究者试图通过要求参与者写下选择其中一个选项而不是另一个选项的原因来验证深思熟虑是否发生了。同样地，采用多次重复审议试验去验证记忆是否足够牢固，并让参与者在做出选择之前有机会练习自己的决定。

②第二阶段，结果学习这一阶段参与者了解了他们每个选择的结果。因为研究者想要评估联想记忆对价值更新的影响，因此没有在每个决定后立即提供反馈。相反，在所有决定都做出后，研究者只展示了选中的画作和它们的拍卖结果，而被试不知道他们未选中的画作的拍卖结果。

③第三阶段,最终决定这一阶段研究者试图去衡量被试对结果的了解是否能引起无论是被选择的选项还是未被选择的选项的任何价值更新。研究者要求参与者在两幅画之间做出一系列新的决定，在每对画中选择最有价值的一幅。在这个阶段的每一次试验都呈现出两个先前选择的刺激(在拍卖中有奖励的和没有奖励的，分别表示为Schosen+和Schosen0，被试知道选择结果，+代表有奖励的，0代表没有奖励）或两个之前未选择的刺激分别表示为Sunchosen+和Sunchosen0，（意思是在阶段一中和其配对的那个被选择的画作得到了奖励+，未得到奖励0，被试实际上是不知道这个未被选择的画作到底得到奖励与否的)。参与者被鼓励选择更有价值的画，以便根据他们的表现获得额外的奖金。

④第四阶段，惊喜记忆测试为了评估审议记忆如何影响选择，在最后的决策阶段后，对审议对进行惊喜记忆测试。在实验1中，为了评估未选择刺激的显式价值推断，在实验结束时，研究者告诉参与者所有的画都将拍卖，包括他们之前未选择的画，并让他们估计哪些画在拍卖中获得了奖励(最后阶段，结果估计)。此外，为了控制参与者对任何一幅画的内在偏好，在开始主要实验之前，研究者要求参与者对每幅画单独打分，这样就可以选择主观价值相对中性的项目。

具体来说，如果参与者成功地学习了所选项目的新价值，那么他们应该选择schosen+而不是Schosen0。然而，关键问题与他们在使用未选择的物品进行试验时的行为有关，因为他们从未收到任何直接反馈（不知道未选择的画作是有奖励的还是没有奖励的）。如前所述，我们预测了未选择项的值的逆推断。在最终决策阶段，参与者被要求选择利润最高的项目，这将导致选择Sunchosen0而不是Sunchosen+的趋势。（选择在阶段一中与没有得到奖励的选择的画作相配对的那个未被选择的画作）最后，我们假设，当参与者更好地记住哪些选项对同时出现时，这种逆向决策偏差应该更大。即逆向决策偏差与联想记忆的强度呈正相关。

3.研究结果：

在这里，研究者将结果学习后选择的选项的价值称为“学习价值”，因为它来自于参与者对其选择结果的经验。相比之下，对于没有收到明确反馈的未选择选项，我们使用术语“推断价值”。

研究结果表明存在反向的价值推断:在被选择的配对中，参与者倾向于选择S+项目，而在未被选择的配对中，他们倾向于选择S0项目，而且这种倾向伴随着更快的反应时间。上述的逆向决策偏差也会扩展到选择选项价值的显性变化。最后，对数据的分析显示在最终决策阶段观察到的逆向决策偏差与参与者在结果估计阶段的显性报告有关。记忆也与决策偏差相关，因此更好的记忆与参与者更强的逆向决策偏差相关。

阅读体会

在这五个实验中，研究者研究了被选择选项的结果如何调节其未被选择选项的价值。结果发现，在结果被揭示之后，未选择选项的赋值与选择选项的学习结果成反比。这种反向偏差在选择行为和外显价值估计中都表现出来，它与参与者对他们刚开始考虑的选项的记忆有关。此研究结果对价值更新理论有重要的启示。与强化学习模型一致，这表明结果改变了分配给选择选项的价值。关于未选择的选项，先前的研究表明，对假设结果的直接反馈会导致价值和随后行为的变化。研究发现，对经过深思熟虑的选项的记忆越强，被选择的选项和未选择的选项之间的价值差异就越大。这个结果表明，在选项之间做出选择会留下记忆痕迹。从定义上讲，深思熟虑意味着在做出决定的过程中梳理出竞争性选项的价值;研究结果表明，深思熟虑和选择也会在记忆中绑定成对的选择选项。因此，在做出决定后，未选择的选项不会从记忆中消失，而是通过与已选择选项的链接继续存在。

参与者使用选择选项之间的关联来推断未选择选项的价值。这一发现补充和扩展了之前的研究，报告了价值在关联物品之间以相同的方向转移。用学习术语来说，当选择的选项被证明是成功的，参与者在任务中的选择反映了对未选择选项的回避，而不是接近。

六、文献信息

Bigman, Y.E., & Gray, K.(2020).Life and death decisions of autonomous vehicles.Nature, 579(7797), E1–E2.https://doi.org/10.1038/s41586-020-1987-4

论文摘要

当人类的生命危在旦夕时，自动驾驶汽车应该如何做出决定?道德机器实验1(MME)表明，人们希望自动驾驶汽车不平等地对待不同的人的生命，优先杀死一些人(例如，男人、老人和穷人)，而不是其他一些人(例如，妇女、年轻人和富人)。我们的研究结果挑战了这一观点，揭示了这种明显的不平等偏好是由MME所使用的特定“电车型”范式驱动的。而采用了修正范式的多项研究表明，绝大多数人都希望自动驾驶汽车在生与死的情况下平等地对待不同的人的生命，而忽略性别、年龄和地位——这一偏好与普遍的平等愿望一致。

论文关键信息

Bigman and Grey做的这一系列研究是在E.Awad等人做的一个规模较大的实验研究MME的基础上展开的，目的是为了补充MME这个实验存在的一些不足。MME试图揭示人们在这些情况下的偏好，而这些偏好中有很多已经被揭示了，比如“拯救更多的人而不是更少的人”和“不作为导致死亡而不是行动导致死亡”都与之前的研究记录一致。然而，MME也得出结论，人们希望自动驾驶汽车根据个人特征来决定杀谁，包括身体状况、年龄、地位和性别(例如，拯救女性和杀死男性)。这一结论与有充分证据证明的在不同人口特征和身份之间渴望平等对待的道德偏好相矛盾。Bigman and Grey认为，MME之所以发现了跨生命的不平等偏好，是因为它的方法对平等偏好相对不敏感。MME使用电车类型的困境，迫使人们在杀死一个人(或一群人)和杀死另一个人(或另一群人)之间做出选择。因为这个范式假设了不平等，它很难揭示人们是否更喜欢平等。所以Bigman and Grey想要让被试用一种修正后的范式来表达他们的道德偏好，即允许自动驾驶汽车去平等地对待不同的人，在这种情况下再看被试的选择是否会和MME实验中不同。

Bigman和Grey的实验分为了三个研究。

研究一：在研究1中，人们被随机分配到“强制不平等”或“允许平等”的条件下。强制不平等条件是对MME的简化复制，测试参与者是否认为自动驾驶汽车应该(1)杀死A组(如老年人)来拯救B组(如儿童)，还是(2)杀死B组(如儿童)来拯救A组。就像在MME中一样，研究者检查了驾驶情况下的个人特征(例如，杀死男人还是女人)和结构特征(例如，杀死多数人还是少数人)。

允许平等的条件与强制不平等的条件类似，但是增加了第三种选择，(3)平等对待A组和B组的生命(例如，平等对待儿童和老人的生命)。

如图所示，在强迫不平等条件下得到的结果与MME的全局效应非常吻合。超越了复制的一般价值（在没有复制全部MME条件的情况下），这验证了我们的范式:尽管我们使用了不同的样本和更简单的方法，但实验结果仍然获得了与MME相同的结果。

而在允许平等条件下，当这个选项可用时，绝大多数人选择了这个选项，这说明他们希望自动驾驶汽车能够平等地对待人们。例如，当被迫在男性和女性之间做出选择时，87.7%的人选择拯救女性，但97.9%的人实际上更愿意平等对待两组人。

研究二：

关于实验数据的一个问题是，参与者更喜欢“平等对待”选项，是否仅仅是因为它没有提到杀戮呢。研究2通过复制允许平等的条件排除了这种担忧，在研究2中修改了第三个选项:自动驾驶汽车应该在不考虑个人特征的情况下决定是救谁还是杀谁。与研究1一致的是，人们对自动驾驶汽车应该忽略个人特征而平等地对待他人表现出了强烈的偏好。例如，人们更喜欢自动驾驶汽车不考虑性别(92.6%)、健康(88.8%)和地位(84.7%)。唯一与研究1有实质性出入的是守法性:53.1%的人更愿意放过守法的人而不是违法者。研究2实际上是排除了人们做出更喜欢自动驾驶汽车平等对待人们即忽视人的个人特征的选择仅仅是因为这个选择中没有出现杀戮的这一干扰因素。

研究三：在研究3中，参与者选择两辆自动驾驶汽车中哪一辆应该允许上路:一辆车根据地是MME揭示的结构特征(例如，拯救更多的人而不是更少的人，不作为导致死亡而不是行动导致死亡)，另一辆车是基于结构特征和个人特征(例如，根据年龄、性别和地位来选择救哪种人)。与我们的预测一致，89.9%的参与者选择了只具有结构特征的汽车，再次表达了希望自动驾驶汽车在道德困境中能够忽视个人特征的的愿望。研究3通过比较仅仅根据结构特质做出道德抉择和既根据结构又根据个人特质做出道德抉择的两辆自动驾驶汽车来进一步强调证明了人们对忽略个人特质追求平等的偏好。

阅读体会

这篇文献为研究自动驾驶汽车提供了新思路，站在前人研究的基础上去做研究证明前人研究的不足，也为我以后的论文书写提供了新路径，要多读文献，不管是看到别人研究的不足也好还是优点也好，都可以从中找到自己研究的思路。自动驾驶汽车的大规模应用带来了道德挑战，因为自动驾驶汽车有时可能不得不在杀人和救人之间做出选择。在这种情况下，自动驾驶汽车不能拯救每个人，但仍然可以决定拯救某一群道路使用者。自动驾驶汽车的死亡事故是不可避免的，但那些在道德上冒犯公众并使行业脱轨的死亡事故并非不可避免。因此，尽可能准确地预测公众对我们植入这些车辆的道德决策的实际感受就变得很重要。

七、文献信息

Bonnefon, J.F., Shariff, A., & Rahwan, I.(2016).The social dilemma of autonomous vehicles.Science(New York, N.Y.), 352(6293), 1573–1576.https://doi.org/10.1126/science.aaf2654

论文摘要

自动驾驶汽车(AVs)应该可以减少交通事故，但有时它们不得不在两种情况之间做出选择，比如辗过行人，或者牺牲自己和乘客来拯救行人。定义能够帮助自动驾驶汽车做出这些道德决定的算法是一项艰巨的挑战。我们发现，在6项关于自动驾驶汽车的研究中，参与者都支持功利主义的自动驾驶汽车(即为了更大的利益而牺牲乘客的自动驾驶汽车)，并希望其他人购买它们，但他们自己更喜欢乘坐能够不惜一切代价保护乘客的自动驾驶汽车。这项研究的参与者不赞成对自动驾驶汽车执行功利主义的规定，也不太愿意购买这样的汽车。因此，对功利主义算法的监管可能会因为推迟采用更安全的技术而自相矛盾地增加伤亡。

论文关键内容

在研究一(n = 182名参与者)中，76%的参与者认为自动驾驶汽车牺牲一名乘客比杀死10名行人更道德。然后让这些被试去评估哪一种方式是自动驾驶汽车最道德的编程方式，从0(不惜一切代价保护乘客)到100(尽量去减少伤亡人数)。他们中绝大多数人都表达了对功利主义汽车的道德偏好，以尽量减少伤亡人数。不过在这个研究中参与者不太确定自动驾驶汽车会以这种功利主义的方式编程，只是简单的判断。

在研究二(n = 451名参与者)中，参与者面临着不同的困境，可以挽救的行人数量从1到100人不等。结果显示参与者认为当自动驾驶汽车只有一个行人可以拯救时不应该牺牲自己的乘客,但是他们的道德认同随着可以挽救的生命数量的增加而增加,最终与研究一中观察到的76%一致。

在研究三(n = 259名参与者)中调查了参与者对一种社会困境的反应。参与者对乘客牺牲的认可度与他们想象自己和另一个人（特别是一个家庭成员）一同在自动驾驶汽车中有着很高的相关性，即是一种关于乘客的身份问题，与单独想象自己在自动驾驶汽车中相比，想象自己的家庭成员在自动驾驶汽车中会对牺牲的道德感产生负面影响，这是一种典型的道德困境。但即使在这种受强烈负面影响的情况下，这种牺牲的道德程度还是高于量表的中点。除此以外，研究三还调查了参与者的购买意愿，在1到100的范围内，参与者被要求说明他们有多大可能去购买一款以减少伤亡为目的的自动驾驶汽车(在这种情况下，会牺牲他们自己和他们的共同乘客的家人)，以及一款始终把保护自己的乘客放在第一位的自动驾驶汽车（即使意味着要杀死10-20个行人）。最终的报告显示参与者购买两种自动驾驶汽车的可能性都很低，即使是无条件保护乘客的那一种自动驾驶汽车。参与者表示，当他们想象自己和家人会为了更大的利益而牺牲时，购买自动驾驶汽车的可能性也会显著降低。换句话说，尽管参与者仍然认为功利主义的自动驾驶汽车是最道德的，但他们更喜欢自我保护模式。

研究四(n=267名参与者)为这一现象提供了另一个证明。参加者被要求去在三个指导语下分别评分,去表明(i)这个自动驾驶汽车的道德编程有多道德，(ii)希不希望别人拥有这样的自动驾驶汽车/允许这样的车上路吗，以及(iii)参与者购买这种编程的自动驾驶汽车的可能性有多大（自己希不希望拥有）。研究者假设自动驾驶汽车在要碾过路上的人时总是会突然转向，分别给被试呈现三种植入自动驾驶汽车的道德程序:(i)当它转向到牺牲一个行人为了拯救10人,(ii)当它牺牲自己的乘客去拯救10人,和(iii)忽然转到一个行人的路上只是为了拯救另一个行人。结果显示转向1个行人去拯救10个人的这一程序总是得分很高，而转向1个行人去拯救1个行人的程序总是得分很低。为了拯救10名行人而牺牲1名乘客的这一程序则呈现了一种混合模式。和拥有很高分数的那个程序一样，它在道德方面（即指导语1）得到了很高的评价，并被认为是其他人可以拥有的一个好程序（即指导语2：别人可以拥有使用这种程序的自动驾驶汽车）。但是就购买意向而言（即自己希不希望拥有这种程序的自动驾驶汽车）它得到的分数明显少于最高分的那个程序，而且实际上更接近最低分的那个程序。人们似乎又一次从道德上认可了功利主义即具有自我牺牲精神的自动驾驶汽车，并且欢迎它们上路，但是实际上人们却并不想为自己买一辆。这是社会困境的典型特征，在这种困境中，人们都知道这样做对大家有着最高收益，但是自己却不愿意做出牺牲。

面对上述社会困境，一个典型的解决方案是由监管机构强制执行具有最佳全局结果的行为。但是，人们会赞成政府将功利主义程序算法植入到自动驾驶汽车吗?人们会更有可能在这样的规定下购买自动驾驶汽车吗？

在研究五（n=376名参与者)中，我们询问了参与者对法律强制功利主义牺牲的态度。参与者考虑了人类驾驶员或者一个智能程序有机会去控制牺牲自己去拯救1-10个行人的场景。通常，人们对这种牺牲的道德感是很高的，而且无论是在人类驾驶员还是智能程序的控制下人们做出的牺牲都是一样的。当我们询问参与者是否同意看到这种道德牺牲被法律强制执行时，他们对智能程序的同意程度要高于人类司机。但在每个场景中，参与者的平均同意程度仍然低于50%，表明了人们对法律强制功利主义牺牲的明显不偏好。

在研究六(n = 393名参与者)中，我们特别询问参与者购买驾驶程序被政府控制的自动驾驶汽车的可能性。研究人员向参与者展示了他们独自驾驶、与未指明的家庭成员一起驾驶或者与孩子一起驾驶的场景。在之前的研究中，这些场景描述了一种情况，在这种情况下，控制自动驾驶汽车的程序可能会牺牲乘客，以减少道路上的伤亡。研究人员让参与者评定(i)政府是否有责任执行尽量减少伤亡的规定，(ii)他们会否考虑根据该规定购买自动驾驶汽车，以及(iii)他们会否考虑在没有该规定的情况下购买自动驾驶汽车。结果显示人们不愿意接受政府对功利型自动驾驶汽车的强制规定。即使在最有利的条件下，当参与者想象只有他们自己被牺牲去拯救10名行人时，人们对政府强制执行这种牺牲的认可度也只有36%到48%。

阅读体会

上述研究结果表明，对自动驾驶汽车的监管可能是必要的，但也会适得其反。自动驾驶汽车的道德程序造成了一个社会困境。虽然人们倾向于认可如果自动驾驶汽车保持功利主义(尽可能的减少伤亡人数）的话，那么所有人的利益都会得到最大化,他们也愿意功利主义自动驾驶汽车被允许出现在市场上,但是几乎没有人愿意乘坐功利主义自动驾驶汽车,即使他们希望别人这样做。监管可能为这个问题提供解决方案，但监管机构将面临两个困难:首先，大多数人似乎不赞成执行功利主义的自动驾驶汽车的监管。第二，也是一个更严重的问题，我们的结果表明，这样的监管可能会大大延迟广泛推行自动驾驶汽车的时间，这也就意味着自动驾驶汽车相比人类驾驶员具有的多种优点让它所能挽救的生命，可能超过了因推迟采用而造成的死亡人数。因此，汽车制造商和监管机构都应该考虑解决这些障碍的办法，加快推进自动驾驶汽车的普及。

自动驾驶汽车的道德算法实际上需要处理比上述调查中更复杂的决策。例如，上述研究中没有关于决策结果的任何不确定性，但是一个决策结果需要包含预期风险、预期价值和责任分配的概念。鉴于自动驾驶汽车乘客的生还机率比电动车驾驶者的生还机率大，因此自动驾驶汽车是否可接受以撞墙的方式避开电动车?自动驾驶车辆是否应考虑乘客及行人的年龄或性别？如果一个制造商提供了其道德算法的不同版本，而买方在清楚了解的情况下选择了其中一个，那么买方是否应该为他选择的那个算法决策的有害后果负责呢?这种责任分配的考虑将需要伴随现有的关于监管的讨论。如何建造合乎道德的自主机器是当今人工智能领域最棘手的挑战之一。在即将为数百万辆汽车赋予自主权之际，人们对算法道德的认真考虑从未像现在这样紧迫。就目前而言，似乎还没有一种简单的方法可以设计出调和道德价值观和个人私利的算法，就更不用说考虑不同文化和不同道德态度对生活权衡的影响了，科学家在这个问题上要走的路还有很长。但随着研究的深入和与外界的沟通，公众舆论和社会压力很可能会改变。

八、文献信息

Strombach Tina，Weber Bernd，Hangebrauk Zsofia,...& Kalenscher Tobias.(2015).Social discounting involves modulation of neural value signals by temporoparietal junction..Proceedings of the National Academy of Sciences of the United States of America(5), doi:10.1073/pnas.1414715112.论文摘要

大多数人都很慷慨，但并不是对每个人都一样：慷慨通常会随着个人之间的社会距离而减少，这种现象被称为社会折扣。尽管社会折扣普遍存在，但在经济理论和神经科学研究中，行为者之间的社会距离却被令人惊讶地忽视了。我们使用功能磁共振成像(fMRI)来研究这一过程的神经基础，以理解社会决策的神经基础。参与者在自私和慷慨的选择中进行选择，要么单独为参与者获得较大的奖励，要么在特定的社会距离下为参与者和另一个人获得较小的奖励。我们发现，慷慨的选择涉及到颞顶叶交界处(TPJ)。特别是，TPJ的活动被扩展到亲社会选择过程中自私和慷慨动机之间的社会距离依赖冲突，这与TPJ通过促进克服利己主义偏见来促进慷慨的观点一致。基于功能耦合数据，我们提出并提供了一个生物学上可信的神经模型的证据。

论文关键内容

本研究的第一个目的是研究社会距离依赖的慷慨水平对神经激活的系统影响。这是通过一个适用于功能磁共振成像(fMRI)环境的社会折扣实验进行研究的。研究者测量了血氧水平依赖(BOLD)反应，而受试者在慷慨和自私之间做出选择。

然后，研究者询问了哪些大脑区域显示出与其他效用和自我效用之间的差异相关的活动。本实验范式设计使得慷慨程度作为社会距离的函数系统地变化，而客观的经济结果参数——自己和他人的回报——保持不变。这使研究者能够识别出独立于客观回报的社会距离依赖的其他相关偏好的神经关联。

实验程序：参与者依次收到与任务相关的信息。首先，社交距离信息由101个图标组成（100个图标代表100个社交距离级别，加上一个图标，左端用紫色表示，代表参与者本人）。一个特定试验的社交距离信息用一个黄色图标表示，此外，还用黄色图标顶部的数字表示（这里：社交距离10）。参与者在自私(这里：V125只针对自己)和慷慨的选择(这里：V75针对参与者，V75和V75针对特定的社交距离)之间进行选择。慷慨和自私的选择是按顺序和随机的顺序呈现。所有ISIs的平均持续时间为4秒(被±1s抖动)。参与者在6秒的最长时间内表示他们的偏好。请注意，该图已为了说明的目的而进行了调整；刺激物的大小和屏幕格式不能与功能磁共振成像扫描过程中使用的呈现尺寸相符。此外，该图中只显示了21个图标，而不是在扫描过程中显示的101个图标，以便于感知。

研究假设自己的奖励价值体现在大脑的评估系统中，特别是在腹内侧前额叶皮层(VMPFC)中。此外，其他相关价值的变化将招募与心理理论和利他主义选择相关的区域，如颞顶叶连接(TPJ)。如果是这样的话，这将表明社会距离确实被系统地整合到决策过程的神经基础中。

我们的第二个目的是更详细地研究TPJ在亲社会行为中的作用。为此，研究者测试了两个相互竞争的想法的预测，在亲社会选择中，TPJ的作用，特别是社会的折扣。TPJ在亲社会选择、视角获取、移情和ToM方面的暗示表明，它在把自己放在别人的立场上。换句话说，TPJ可能会编码参与者对增加他人的福祉所附加的其他价值。个人更同情他们感觉更亲近的人，而不是同情更遥远的人。因此，如果这一假设正确的，TPJ激活应该与社会距离依赖的ORU正相关。这种关于TPJ作用的观点受到了最近研究的挑战，假设TPJ激活解决了慷慨和自私动机之间的冲突。根据这一假设，要做出一个慷慨的决定，需要克服对最大化自身回报的自然偏见。如果TPJ能够克服利己主义偏见，那么当自私的诱惑高（即大社会距离和/或大自私奖励）时，当自私和慷慨动机（即小社会距离和/或相对较小的自私奖励）之间几乎没有冲突时，激活应该很低。

研究结果证实了后一种假设，根据该假设，TPJ在克服最大化自身利润的默认反应中发挥作用，从而表现得自私，而不是代表有关他人的价值。实验者还询问了大脑是如何执行慷慨的决定的。具体来说，研究者提出TPJ通过调节VMPFC中的基本奖励信号，将与其他相关的偏好信号纳入一个唯一的自身奖励价值表征中，从而计算社会奖励的主观价值。因此，当需要克服自私的诱惑时，TPJ通过在VMPFC中塑造神经价值信号来支持亲社会选择；自私的诱惑越强，TPJ就越上调VMPFC活动，有利于慷慨的选择。

一个整合这些数据的机制模型做出了两个预测，研究者为此提供了实证支持：首先，在慷慨的决策中，VMPFC活动应该高于自私的决策。第二，TPJ和VMPFC之间的连通性在慷慨决策时应该比在自私决策时更强。总之，实验者的研究结果表明，亲社会决策来自于VMPFC和TPJ之间的精细化相互作用。特别是，VMPFC中的价值信号是由TPJ根据决策者和慷慨决策的接受者之间的社会距离来协调的。

阅读体会

为了在我们的社会中发挥良好的作用，与他人分享资源是很重要的。我们的互动伙伴离我们越近，我们就越有可能对他们慷慨大方。因此，做出决定的社会环境强烈地影响了信息的处理方式，使我们的大脑能够编码这些社会环境因素至关重要。神经经济理论迄今为止一直忽视了决策模型中的社会距离。本实验研究了社会折扣的神经相关性，旨在为社会距离依赖的慷慨决策的神经模型提供支持。慷慨需要克服自我主义的动机，而自私的诱惑随着自身奖励幅度的增加而增加，但也随着社会距离的增加而增加。我们能够证明，一个与ToM、社会认知和决策相关的区域，即TPJ，参与了这一过程（24）。然而，与第一个基于Tom的假设的预测相反，我们没有发现TPJ计算其他相关值的证据。相反，我们提出，TPJ通过将其他偏好整合到VMPFC中的基本价值表示中，促进克服自我动机，在慷慨决策中最大化自我回报。因此，依赖社会距离的自私诱惑越强，TPJ越参与，VMPFC值信号越上调，以促进慷慨的决策。

研究人员从行为数据和fMRI的数据入手，成功表征了TPJ的作用，并提出了一个亲社会选择的神经模型，本研究结果为社会决策提供了见解。研究者的数据确定了TPJ是克服利己主义偏见的核心组成部分。这一发现对神经经济理论有重大影响，该理论迄今为止忽视了社会距离对亲社会决策的影响。社会距离是个人决策过程的重要组成部分，它应该被纳入未来的决策模式。此外，利用社会折扣来了解社会因素的影响，以及在慷慨和其他行为方面的个体差异，为更详细地评估精神病理决策和反社会行为提供了新的机会。

九、文献信息

Tsvetomira Dumbalska,Vickie Li,Konstantinos Tsetsos & Christopher Summerfield.(2020).A map of decoy influence in human multialternative choice..论文摘要

人类的决定可能会因为不相关的信息而产生偏见。例如，在两个首选选项之间的选择可能会受到较差或不可用的第三个选项的影响。先前的研究已经确定了三个经典的偏差，即吸引力、相似性和妥协效应，它们是在由两个属性定义的经济选择之间的选择时产生的。然而，这三种偏差的可靠性、相互关系和计算来源一直存在争议。在这里，大量的人类参与者在价格和质量不同的资产中做出了与激励兼容的选择。我们没有关注这三种经典效应，而是在二维多属性空间中彻底采样诱饵刺激，并构建了诱饵对两个首选目标项目选择的完整影响地图。我们的分析表明，诱饵影响图是高度结构化的，甚至超出了三种经典的偏差。我们确定了一个非常简单的模型，它可以完全复制诱饵影响地图，并捕获其在个体参与者中的可变性。该模型揭示了，这三种诱饵效应并不是不同的现象，而是一个更一般的原理的特殊情况，通过该原理，属性值将远离竞争对手选项提供的上下文。该模型帮助我们理解为什么这些偏差在参与者之间是相关的，并允许我们验证关于他们的相互关系的预测。这项工作有助于澄清在人类决策中研究最广泛的三个偏见的起源。

论文关键内容

过往的文献集中在具有两个独立和同等加权属性的三元（三向）选择过程中可能产生的三种诱饵效应。这些现象如图所示。考虑一个消费者在三种具有质量和经济的维度（属性）特征的产品中进行选择。图中的轴的缩放可以使这些属性成为完美的替换，因为消费者将放弃一个属性的一个单位来代替另一个属性的一个单位。两个目标项A和B位于等偏好线上，垂直于标识线。换句话说，A比B更便宜，但质量更低，因此消费者应该对这些选项漠不关心。经验现象描述了偏好如何偏向于A或B，作为第三个“诱饵”项目D的函数，置于或等偏好线以下。一致的观点认为，对A的偏见可以由包含一个占主导地位的诱饵Da来引起，也就是说，其中A(但不是B)在两个维度上等价或优越（吸引效应）；在存在更极端的诱饵Dc的情况下，对A的偏差质量更好，但比A更贵，使A成为“妥协”选项（妥协效应）；对A的偏见)是由价格和质量上与B相似的诱饵D（相似效应）引起的。

研究方法：人类参与者(n=233)进行了一项在线房地产评估和选择游戏，他们在该游戏中决定了三家住宅物业中的哪一家以“最好的交易”，也就是说，考虑到它的质量，以最有吸引力的价格提供。在最初的（估价）阶段，参与者提供了他们对500套住宅物业的每月租金价值的最佳猜测(基于一张外部照片。我们假设这个报告的美元价值估计与该参与者主观估计的财产质量成正比。不一致的评级被丢弃，剩余的属性按估计值分成十分位数。这使得我们能够为后续的（决策）阶段构建选择集，包括三个已知质量的房屋(属性i)的房屋，这些房屋以独立变化的月成本(属性j)出租。利用估价阶段数据，抽样两个具有固定价格/质量比的目标项目：一个低质量/低成本项目（“低”项目A）和一个高质量/高成本项目（“高”项目B）。第三项(D)在10个质量×10经济箱的完整属性空间中被彻底采样。参与者指出了他们的第一选择，然后，从剩下的两个项目中，他们的第二个选择。以这种方式测量排名偏好，允许我们绘制所有诱饵，包括高级诱饵，对A和B的RCS的影响。为作出与最初估计一致的决定提供了财政奖励。在所有的分析中，我们只包括了他们的随机反应小于0.001的概率阅读体会。

传统的诱饵效应分析。

我们的第一个也是最普遍的观察是，尽管根据参与者估值阶段激励一致的回应，在仔细抽样目标匹配的价格/质量比上，参与者表现出偏向“高”项目B而非“低”项目A。尽管存在这种加性偏差，诱饵对选择仍有强大的影响，在预期方向上的显著影响具有明显的吸引力，以及排斥效应。平均而言，吸引、妥协或排斥诱饵的存在使偏好从A向B移动了约3-5%。然而，该数据集中的相似性效应并不显著(P=0.65)。尽管过去有一些强有力的证据表明相似效应，但我们并不是唯一发现这种诱饵弱效应的人。

一张关于诱饵效应的地图。

在这个项目中的主要目标是超越传统的方法，绘制诱饵影响RCSij在两个主要目标之间的选择的完整地图。目测结果表明，该地图具有比传统的诱饵位置更丰富的结构。对A和B的相对偏好似乎是由一种动态的吸引和排斥力所驱动的，这取决于诱饵相对于每个目标刺激的位置。强大的“吸引”效应(即由A转移偏好主导的诱饵的存在)反映在强烈的“排斥”效应中(即主导A的诱饵向B转移偏好)。这两个目标的吸引和排斥力都近似对称。研究者顺便注意到，从定性上说，研究的结果也证明了“诱饵距离效应”，即更多偏心的诱饵会产生更强的效应。使用详尽的诱饵位置范围，研究者可以使用降维方法来检查组成诱饵影响图的（潜在的不同的）因素。研究者使用奇异值分解(SVD)来识别影响A>B偏好图的因素，并计算这些因素所解释的方差。

阅读体会

研究结果承认测试的“静态”模型抽象了信息动态积累到决策界的过程。对决策过程进行建模的更完整的尝试将包括使用基于序列抽样框架的模型来拟合数据。这超出了当前项目的范围，特别是，因为任务涉及到一种不适合建模决策延迟的顺序排序方法。然而，快速和缓慢试验的诱饵影响模式没有定性变化，这表明，在数据集中，决策延迟并不表明随着时间的推移，信息获取和处理的不同轮廓。然而希望在未来的研究中，完整的诱饵影响图将有助于在上下文决策偏差的动态模型之间进行仲裁。这项工作解释了诱饵效应作为一种更广泛的现象的表现，即输入在空间和时间上被上下文压缩归一化。如上所述，这一原则先前已被提出用来解释各种现象，如感知信息序列抽样中的验证性偏差、低水平感知偏差、汇总统计感知中的集中趋势效应以及控制任务中的冲突效应。研究证明了由于远离语境预期，决定可能会产生上下文偏差。大脑可能已经进化出了这里提出的标准化方案，因为它促进了有效的神经编码。

十、文献信息

Ottink Loes,Hoogendonk Marit,Doeller Christian F,Van der Geest Thea M & Van Wezel Richard J A.(2021).Cognitive map formation through haptic and visual exploration of tactile city-like maps..Scientific reports(1), doi:10.1038/S41598-021-94778-1.论文摘要

在本研究中，我们比较了以视觉或触觉模式呈现的类似城市环境的小规模模型的认知地图形成。以前的研究通常只涉及有限数量的认知地图方面。我们想结合其中的几个方面来阐明一个更完整的观点。因此，我们评估了不同类型的空间信息，并考虑了自我中心和环境中心的观点。此外，我们还比较了触觉地图学习和视觉地图学习。总共有18名视力正常的参与者（9名处于触觉状态，9名处于视觉触觉状态）学习了三张类似城市环境的触觉地图。这些地图的复杂性有所不同，并且有与唯一项目相关联的五个标记位置。参与者估计项目对之间的距离，重建地图，回忆位置，并在学习每个地图后导航两条路线。所有参与者在空间任务上总体表现良好。有趣的是，只有在复杂的地图上，参与者在触觉条件下的表现比在视觉触觉条件下更差，这表明参与者在简单的地图上没有明显的视觉优势。这表明视觉在简单的地图上没有明显的优势。这些结果支持了空间的模态独立表示的思想。虽然在更复杂的地图上不太清楚，但我们的发现表明，只使用触觉或触觉和视觉信息的参与者都形成了一个相当准确的简单触觉城市地图的认知地图。

论文关键内容

这样的认知地图包括各种类型的空间信息，如位置之间的距离。它允许采用以异环境为中心（以环境为中心，类似地图）以及以自我为中心（以身体为中心，类似路线）的视角。因此，它支持特定路线的导航，但也可以推断出没有明确学习的信息，如弯路和欧氏距离。在目前的研究中，研究者希望对认知地图形成的相关知识做出贡献。研究目标是通过触觉地图探索来评估认知地图的形成，以及这如何与通过视觉学习获取地图进行比较。

此外，研究者还希望评估触觉地图学习与视觉地图学习的比较，特别是在地图复杂性增加的情况下。这可以对地图学习的多模态方面提供更多的见解，并允许调查视觉是有利的，或者来自两种模式的信息是否会导致相似的表示。视觉是对大多数人来说提供最详细信息的方式，也是形成视力正常者认知地图的主要感官输入。

简而言之，本研究的主要目的是研究通过导航和学习城市环境的触觉地图是否可以形成一个全面的认知地图，以及随着地图复杂性与视觉地图学习的比较。为此，参与者探索了三张具有不同复杂性的触觉城市地图。在地图上，五个位置被标记并与一个唯一的项目相关联。参与者在很短的学习期间探索了触觉地图，可能更适合用视觉来学习。我们想评估在这个相对较短的学习时间内，是否只使用触觉信息就能形成一个同样准确的认知地图。在探索每一幅地图后，参与者估计项目对之间的欧几里得距离和路径距离，重建地图，回忆项目的位置，并导航两条路线。在此，我们将调查人们是否准确地将街道布局、项目位置和位置之间的关系等信息整合到认知地图中。

所有的任务都在实验开始前解释过，所以参与者知道在每个部分之前会发生什么。H组的参与者在所有任务中都被窗帘遮挡，而VH组从未受到视力限制。两组人总是收到相同的指示。在实验结束时，参与者被问及他们的学习策略，以及他们是否觉得自己在上一张地图上表现得更好。他们还被问及在日常生活中不熟悉环境中的习惯：他们是事先计划路线并试图形成心理地图，是在环境中导航时使用导航应用程序，还是混合策略。

参与者从开始位置开始，通过使用他们的右索引手指进行免费导航和探索来学习每张地图。这个地图作为一个城市的街道地图被引入了。参与者是被指示导航，就好像他们实际上在指数地图上的位置上，就好像他们就这样穿过城市。他们被要求学习地点和相关的物品，他们可以用右手识别出来。最大学习时间为10min。如果参与者觉得自己知道地图，他们可以早点停下来。

距离估计任务参与者必须估计每个项目对之间的相对欧几里得距离和路径距离。这里，欧几里得距离是两个项目之间直线的距离，路径距离是两个项目之间最短路径的距离。在这项任务开始前，我们删除了参与者的地图。参与者必须在尺子上表示他们的估计。尺上的大多数位置表示项目在同一位置，最右边的位置表示项目在相应地图上的距离最远。其他的距离也被扩展到了这个地步。对于每一个估计，实验者将其中的两项交给参与者进行识别。首先询问项目对之间的欧几里德距离，然后是路径距离。所有成对都重复如此。两组的参与者都用他们的右索引手指指向尺上的一个位置来表示他们的估计。实验者确保VH参与者看不到尺子上的编号。

重建任务在重建任务中，参与者必须用乐高积木尽可能准确和完整地重建地图。因此，他们不得不在一个空的建筑板上修建小路。没有给出时间限制，他们可以使用不受限制的数量的砖。两组都在各自的视觉条件下执行这项任务，所以H组的参与者被窗帘遮挡，而VH组的参与者没有。

项目放置任务在项目放置任务中，参与者必须指出他们记住的项目位置。他们收到了原始的地图，但没有位置标记和物品。他们必须把位置标记放在他们记住的地方，并把相应的物品放在他们旁边。要求是连续放置，项目和位置标记保留在地图上，项目的顺序是随机的。两组人都在各自的视觉条件下执行了这项任务。

路由导航任务在路线导航任务中，参与者必须在两个预定的项目位置之间导航两条路线。他们收到了原始的地图，包括正确的位置标记，但没有项目。参与者被要求使用他们的右索引手指在两个不同的项目对之间导航，从而选择最短的路径。在这两条路线的开始时，实验者将参与者的正确索引手指放置在第一个项目的位置。选择了两条路线，使它们都是地图上最长的路线。路线的方向在所有参与者之间被平衡。关于VH组的这个任务的结果将不会提供信息，因为他们可以看到地图，直观地规划最短的路线。更有趣的是，调查H组是否具有整个地图的心理表征，足以规划和执行两个项目之间的最短路线。

本实验的结果表明，所有参与者，只使用触觉或触觉或触觉和视觉信息的组合，都可以形成最不复杂环境的准确认知地图，即使在相对较短的学习时间内。这些认知地图包含各种类型的空间信息，它们可能支持自我中心和异中心的观点。其结果与空间的模态独立表示的思想相一致，但还需要更多的经验证据来支持这一主张。随着地图复杂性的增加，视觉在大多数空间任务上似乎比触觉信息有优势。除了距离估计任务外，这表明参与者仍然形成了一个更复杂的地图的表示。

阅读体会

在目前的研究中，我们研究了在相对较短的学习时间内以触觉地图呈现的环境的认知地图形成，以及这与如何通过触觉和视觉信息的组合获得这样的认知地图进行比较。我们使用了行为任务的组合，这允许评估不同类型的空间信息，以及自我中心和异中心的视角。在学习三个不同复杂性的触觉地图后，以及在每个地图上的项目位置后，参与者执行了四个任务来评估形成的认知地图的准确性。总的来说，所有来自触觉组和视觉触觉组的参与者，在最不复杂的地图的所有任务上都表现良好，这表明他们形成了准确的认知地图。VH组表现稍好，但仅在更复杂的地图上。两个组在距离估计任务上的表现相似。其结果与大脑中空间的模态独立编码的思想相一致。它还表明，人们能够形成一个精确的触觉环境的准确认知地图，无论是否使用视觉和较短的学习时间。

十一、文献信息

Lyu, N., Hu, Y., Zhang, J.et al.Switching costs in stochastic environments drive the emergence of matching behaviour in animal decision-making through the promotion of reward learning strategies.Sci Rep 11, 23593(2021).https://doi.org/10.1038/s41598-021-02979-5

论文摘要

动物决策中的一种选择原则命名概率匹配(PM)长期以来一直在动物中被发现，这可能源于不同的决策策略。但是关于环境随机性如何注入这些不同的决策策略的切换时间，我们知之甚少。在这里，我们使用行为和理论的结合方法来解决这个问题，并表明，虽然一个简单的输赢转移(WSLS)策略可以在二元选择任务中产生PM，但虎皮鹦鹉（三角鹦鹉波动）实际上在期望做出更准确的决策时更频繁地应用一系列子策略。令人惊讶的是，佛达皮鹦鹉在采用WSLS策略时并没有得到比预期更多的奖励，他们的决定也显示出了PM。相反，佛皮鹦鹉遵循基于奖励历史的学习策略，这可能会从支付较低的转换成本中间接受益。此外，我们的数据表明，更多的随机环境可能会通过显著的更少的转换来促进奖励学习。我们认为，由环境生态位的随机性驱动的转换成本可能代表了与决策相关的重要选择压力，这种压力可能在驱动动物复杂认知的进化中发挥关键作用。

论文关键内容

为了应对自然环境的不确定性，动物似乎非常“聪明”地做出各种明智的选择，这样它们就可以巧妙地积累它们的能力。虽然不同决策策略的正确性后果一直是众多研究的焦点，但很少有人研究动物对不确定性的反应，以及采用或转向特定策略变得有利的条件。

在决策中选择的一般原则称为概率匹配，长期以来一直在包括人类在内的动物中被识别出来。当决策者将他们的选择概率与相应的结果概率（匹配）相匹配，而不是总是选择概率最高（最大化）的结果时，就会发生。因此，PM行为被许多人视为一种“次优”，甚至是一种“非理性”的策略，因为预期成功率相对较低。然而，一些人认为，如果动物“经常在随机环境中遇到一种情况，即PM确信能够达到即时或短期目标，那么采用PM可能是“生态理性的”。要帮助解决这一争论，需要对动物为什么采取非最大化行为进行理论和经验评估，但也需要确定PM在高度随机环境中变得受益的条件。

二进制选择实验。为了测试动物是否真的会采用一个简单的WSLS策略并表现出PM行为，我们使用虎皮鹦鹉进行了二元选择实验，这些实验已被广泛应用于不同认知能力的研究，如发声学习23、24和问题解决25,26。本研究采用18只无亲缘关系的虎皮鹦鹉进行二元选择实验，年龄从1岁以下至3岁不等。

每次实验前，毛皮虫分别被安置在大小为20×20×20cm的不同笼子中。二进制选择实验在一个测量2×1×2m的丝网笼中进行(补充图。S1)。在笼子的中心放置一个栖木，高度距离地面0.8米。在离地面1.6米的前墙上，相隔1.6米，但每次试验中只有一个杯子含有食物奖励。为了说明，我们将奖励概率较高的一侧表示为h侧，另一侧表示为l侧。我们假设食物奖励发生在h侧的概率为q，而发生在l端的概率为1−q。

我们使用MATLAB(7.5版本，R2007b，TeMathWorksInc.)，在三个不同的随机水平(q=0.5,0.6和0.75)下生成了100个试验的食物奖励位置序列。每只鸟被放置在实验笼子里两天以适应环境，并觅食之前杯子里提供的食物（两个杯子在这期间都含有食物）。在实验前，每只鸟被剥夺食物24小时。接下来，在每次实验试验中，我们在食物杯中放了大约20粒小米。一旦一只鸟做出了决定，吃了一些小米（~8-10秒），我们取出两个食物杯，鸟会飞回到栖木上，等待下一次试验，试验进行了一分钟。如果鸟选择了错误的一边（即没有食物奖励），我们会允许它飞到另一边，然后我们立即把两个食物杯子从笼子里拿出来。由于研究对象在大约30次试验后将会得到满足，因此随后连续三天进行了总共100次试验。在进行实验的每天，鸟会被剥夺食物，直到第二天实验继续。为了避免随机水平之间的记忆干扰，我们对每只鸟只进行了一组100次试验。我们在q=0.6和0.75随机水平下分别使用3只不同的鸟类进行实验，在q=0.5随机水平下使用fve鸟类进行实验。为了避免可能的侧偏好，我们还使用另外三个不同的鸟类的实验下每个随机水平的q=0.6和0.75，和一只鸟的随机水平下q=0.5与相同序列的食物位置，但改变食物奖励的位置在每个试验。

为了探究虎皮鹦鹉是如何利用不同时间常数τ整合的结果信息进行决策的，我们构建了几个在不同时间常数τ下具有二项误差(和logit链接函数)的广义线性混合效应模型(GLMMs)。

我们的结果用佛皮鹦鹉鉴定了PM。1A)；然而，他们并没有像预期的那样采用WSLS策略。具体地说，当食物奖励概率增加时，使用双赢(WST)子策略的相对频率会增加，而使用损失(LSH)子策略的相对频率会降低。1C)。在不同的食物奖励概率下，使用滞留(LST)和赢(WSH)子策略的相对频率是稳定的。1D)。有趣的是，每个子策略(即WST、LSH、LST、WSH)对应的预期精度显示出与相对使用频率相似的模式。1B)。图斯，我们的佛皮士能够运用更准确的更常用的子战术。尽管如此，双方的选择概率都没有。以及采用简单WSLS策略获得奖励的平均准确性。

降低奖励学习策略的切换成本。在进行模拟时，我们大致认为，当食物奖励发生概率增加时，使用奖励学习策略会导致WST的使用率增加，LSH的使用率增加(补充图。正如我们在虎皮鹦鹉身上检测到的那样。此外，与简单的WSLS策略相比，奖励学习并没有导致决策者选择更多的h端模式。然而，奖励学习确实导致了更少的切换，特别是当食物奖励在双方之间分布更均匀时。因此，在更多变的环境下，奖励学习策略的成本应该不如WSLS策略。

阅读体会

通过行为、理论和计算方法的结合，本研究说明了更复杂的奖励学习实际上不能通过获得更多的奖励而优于WSLS策略，但可以从支付更低的转换成本中间接受益。此外，环境变异性在决定每种策略的切换时间方面起着重要作用，变化越大的环境可能通过显著较少的切换来促进奖励学习的进化。在灵长类动物中，PM代表了一种由奖励学习驱动的随机环境中觅食的适应性策略。本实验研究表明，进化的奖励学习适合于蜜蜂的PM，特别是在需要同时采样相同或不同物种的不同个体的情况下，同时从斑块中获得最佳估计的播种类型。此外，觅食的蜜蜂已经进化到只使用一些最适应环境随机性的决策策略，因为这允许蜜蜂追踪食物来源的质量和可用性的变化。如果奖励学习概率高度可变，那么PM可能是虎皮鹦鹉等动物的生态最优觅食解决方案，同时在竞争较差的环境中进化也是接近最优奖励学习的直接结果。

在自然界中，动物面临着环境条件的变化，在决策过程中的转换成本也有变化。研究者认为，这些可能反过来驱动物种特殊记忆加工和其他认知能力的进化。特别地说，那些生活在更多变的环境中和或有更高的转换成本的物种应该更喜欢更少的转换，因此可能更有可能进化出更复杂的认知。

十二、文献信息

Quinn, K.R., Seillier, L., Butts, D.A.et al.Decision-related feedback in visual cortex lacks spatial selectivity.Nat Commun 12, 4473(2021).https://doi.org/10.1038/s41467-021-24629-0

论文摘要

大脑中的反馈被认为是在传递上下文信息，这是我们灵活执行不同任务的基础。对视觉系统的经验和计算工作表明，这是通过针对与任务相关的神经元亚群来实现的。我们结合两个任务，每个任务都通过反馈产生选择性调制，以测试反馈是否反映了这两种选择性的组合。我们使用在两个可能的位置之一指定的视觉特征识别，并将运动计划的决策形成分离来报告它，同时记录猕猴的中层视觉区域。在这里，我们的研究表明，只使用与任务相关的信息，虽然行为在空间上是选择性的，但决策相关反馈的调节在空间上是非选择性的。种群的反应显示出相似的刺激-选择对齐，而与刺激的相关性无关。结果表明了一种跨任务的共同机制，独立于这些任务所要求的空间选择性。这可能反映了生物学上的限制，并促进了跨任务的泛化。我们的研究结果也支持了先前假设的基于特征的注意力和决策相关活动之间的联系。

论文关键内容

研究中探讨了先前报道的反馈的任务特异性调节是否对在任务无关刺激存在时代表相关刺激的神经元具有选择性。研究中扩展了一个广泛使用的视觉辨别范式，包括不同空间位置的任务相关和任务无关的刺激；因此，该任务的表现除了需要视觉辨别的选择性外，还需要空间选择性。在使用单一刺激的简单视觉辨别任务中，视觉神经元通常与动物的选择相关，而刺激（“选择相关性”）无法解释。先前的工作确定了这些选择相关性的一个重要的决策相关反馈成分。相反，将注意力引导到一个空间位置而不是其他空间位置的任务已经识别出了视觉皮层反应的空间选择性调节。

研究中表明，尽管动物的行为是高度空间选择性的，但决策相关的反馈不是。选择性的缺乏不能用刺激效应、行为协变量或刺激与任务无关的神经元协变性(“噪声相关”)来解释。在同时记录的人群水平上，选择和刺激的表征部分错位。不管刺激是否相关，这些刺激-选择(错误)对齐是相似的。研究结果支持了之前假设的基于特征的注意和决策相关活动之间的联系，并揭示了一个可能支持跨任务泛化的反馈机制。

为了验证这些预测，我们训练了两只猕猴在一个随机点立体图(RDS)上执行差异识别任务，而忽略了另一个RDS)。相关刺激按块状提示，不相关刺激呈现在相反的视觉半视野。它在统计上是相同的，但独立于相关的刺激，以确保它没有提供关于正确选择的信息。

这些动物的行为在空间上是有选择性的。这些动物的心理物理行为表明，它们成功地学会了忽略与任务无关的刺激。“心理物理反向相关”分析进一步验证了这一点，该分析是使用仅限于随机奖励的无信号试验来计算的。当我们选择相关刺激和无关刺激都没有信号的试验时，结果是相似的.视觉反应是受空间注意速率的调节。正如空间注意调节视觉反应的特征，研究发现当一个单位感受野的刺激无关时，反应要小得多。这种对神经元反应的调节在V2和V3/V3a的视觉神经元群体中非常一致。

在空间上的非选择性决策相关反馈的证据。研究者研究了决策相关反馈对神经活动的调节与刺激是相关的还是无关的。行为分析满足了这一分析的一个关键前提，因为它们表明，不相关的刺激对动物的选择的影响非常小。在视觉处理层次中，基于差异的任务中系统决策相关活动的最早地点以及随后的处理阶段，即V3/V3a区域，具有显著的差异选择性。

非选择性调节不能用刺激来解释。在对照实验和分析中，我们验证了无关刺激的选择相关性不是来自刺激驱动、眼球运动或任务独立的效应。首先，我们发现，在动物执行一个简单的注视任务的同时，动物对一个单位的刺激发射率没有影响，这可以解释与选择的相关性。事实上，如果接受野外的刺激有偏好或零差异，记录的单位没有显示出系统的差异。

总的说来，研究中观察到了代表一个与任务无关的、被忽略的刺激的神经元的大量选择相关性，这不能用任务独立的协变量或前馈感觉噪声来解释。相反，这些选择相关性需要的反馈交互作用，无论神经元的感受域内的刺激是否相关，它们都大致相似。从这项任务的决策过程的角度来看，这是值得注意的。实验任务旨在消除哪些刺激与任务相关的不确定性，分析动物的行为证实了它们对不相关刺激的使用可以忽略不计。代表这些无关的感觉信息的神经元与选择的相关性几乎与代表动物可测量地依赖的感觉信息的神经元一样相关。这些发现似乎对之前观察到的系统联系提出了质疑——即使它们反映了反馈交互作用——在具有选择相关性的感觉神经元和感知决策过程之间。相反，正如之前的假设，神经元的选择相关性是一种基于特征的注意的机制。因此，在这里的发现为决策相关反馈与参与基于特征的注意的空间全局机制有关的假说提供了支持。

阅读体会

研究者在这里的发现超出了以前的研究发现与非选择性的任务或决策相关的反馈。首先，研究者在行为上验证了动物忽略了无关的信息。其次，实验任务是将决策形成与运动计划分离，以报告决策。在这项研究中，研究者探索了一旦动物完全完成任务训练，反馈的选择性。因此，研究结果留下了一种可能性，即在训练的早期阶段，反馈是具有空间选择性的。

十三、文献信息

Li, HH., Ma, W.J.Confidence reports in decision-making with multiple alternatives violate the Bayesian confidence hypothesis.Nat Commun 11, 2004(2020).https://doi.org/10.1038/s41467-020-15581-6

论文摘要

决策信心反映了我们评估决策质量和指导后续行为的能力。关于信心报告的实验几乎只关注两种选择的决策。在这个领域，主要的理论是信心反映了一个决定是正确的概率(选择的后验概率)。然而，还有另一种可能性，即如果最好的两个选择在后验概率上更接近对方，人们就不那么自信，不管它们的绝对概率有多大。这种可能性以前没有被考虑过，因为在两个可选的决策中，它简化为主导理论。在这里，我们在一个三种视觉分类任务中测试了这个替代理论。我们发现，最优选择和次优选择的后验概率之间的差异最能解释信心报告，而不是仅由被选(最佳)选择的后验概率，或后验分布的总体不确定性(熵)。我们的结果推翻了“决策信心”的主要概念，相反，信心反映了观察者做出最佳决策的主观可能性。

论文关键内容

自信指的是在做决定时产生的“知晓感”。信心影响决策后的后续行动计划、学习和团队决策中的合作。信心的主要理论认为信心反映了一个决定是正确的概率。研究者把这个想法称为“贝叶斯信心假设”，意思是决策者使用所选类别的后验概率(即决策是正确的主观概率)作为他们的信心报告。因此，在神经生理学研究中，如果一个大脑区域或神经过程的反应与决策的正确概率相关，则该区域或神经过程被认为代表了可信度。测试人类信心报告是否遵循贝叶斯信心假设的行为研究显示了混合的结果:虽然一些研究发现贝叶斯信心报告与经验数据之间有相似之处，其他研究表明信心报告偏离贝叶斯信心假设。

尽管贝叶斯置信度假设是置信度的主要理论，但目前没有证据排除置信度受未选择选项的正确概率影响的可能性。具体来说，如果次优选择与最佳选择非常接近，人们可能会更不自信。换句话说，信心可能取决于最佳选择和次最佳选择的后验概率之差，而不是最佳选择后验概率的绝对值。此项研究中使用了三个可选的决策任务，研究中发现基于差异的模型很好地解释了数据，而对应于贝叶斯置信假设的模型和第三个基于熵的模型则不能。为了研究存在多个备选项时信心报告的计算，研究中设计了一个三种备选项的分类任务。在每个试验中，参与者观看了来自三种类别(颜色编码)的大量范例点，以及一个不同颜色的目标点。每一类在平面上对应一个不相关的、各向同性的高斯分布。研究者要求参与者把刺激当做三组人的鸟瞰图。同一组中的人穿着相同颜色的衬衫，目标点代表这三组中的一个人。参与者做了两个回答:目标的类别，以及他们对自己决定的信心。为了操纵参与者的信念(后验概率分布)，研究者使用类别分布的不同配置，并在每个配置中改变目标点的位置。

每次试验开始时，刺激物都有三种不同颜色的样本点，代表三种类别中每一种的分布，还有一个目标点，即黑点。观察者首先报告他们在分类任务中的决定，然后通过屏幕底部的矩形按钮报告他们的信心。圆圈以每个类别的平均位置为中心。圆圈的宽度相当于类别分布的标准差的2.5倍。

生成模型。目标位置用ys表示。模型中考虑了两个变化源:首先，观测者可以获得噪声测量x，这是一个以标准偏差σ为中心的高斯分布。第二, 给了相同的测量值x，由于决策噪声，后验分布在不同试验中变化，由Dirichlet分布建模，其中的扩散(由三元图的阴影表示)由一个参数α控制(见方法)。在每次试验中，从试验的后验分布中读出决策^ c和信心c。我们用三元图来表示所有可能的后验分布。例如，中心点代表均匀的后验分布;在三元图的角上，一个类别的后验概率为1，而其他两个类别的后验概率为0。柱状图说明了如何从每个模型的后验概率中读出信心。出于这些图的目的，我们在这里不包括决策噪声。每个三元图的颜色代表了作为每个模型后验分布函数的置信度。颜色为每个三元图(独立地)进行缩放，以获得颜色条的整个范围。

本文介绍了置信报告的三种模型:最大模型the Max model、熵模型the Entropy model 和差分模型the Difference model。每个模型包含两个步骤:(a)将后验分布(q)映射到一个实值内部置信变量;(b)对这个置信变量应用三个标准，将其空间划分为四个区域，排序后对应四个置信等级。第二步考虑从内部信心变量到四点信心评级的每一个可能的单调映射。这三种模型只是在第一步有所不同。最大模型对应贝叶斯置信假设。在该模型中，置信变量是所选类别正确的概率，即三个后验概率中最高的。在该模型中，当后验分布均匀时，观察者最不自信。重要的是，在计算后验分布之后，未选择选项的后验概率并不能进一步帮助计算置信度。

在差别模型中，置信变量是最高后验概率和次高后验概率之间的差异。在这个模型中，如果次优选择的证据很充分，那么信心就会很低，而当两个最可能的类别概率相等时，观察者的信心就最低。这个模型的一种解释是，信心反映了观察者做出最佳选择的主观概率，而不考虑该选择的实际后验概率。另一种解释是，决策由一个迭代过程组成，在这个过程中，观察者将一个多选项的任务简化为更简单的(两个选项)任务。在熵模型中，置信变量是整个后验分布所传递的不确定性的负值，通过其负熵来量化。高置信值与低熵相关，反之亦然。与最大模型一样，当后验分布是均匀的时，观察者是最不自信的。然而，与最大模型不同的是，非选择类别的后验概率直接影响置信度。这三个模型都是贝叶斯模型，它们计算后验概率分布，并将目标点归类到后验概率最高的类别中。因此，在所有三个模型中，未选择的选项在计算后验概率时占分母，从而“隐含地”影响置信度。

在实验1中，三个类别分布的中心垂直对齐。有四种情况:在前两种情况下，中心水平间隔均匀。在最后两种情况下，中心分布的中心更接近左或右分布的中心。目标点的垂直位置采样为正态分布，目标点的水平位置采样为在最左边和最右边的类的中心加上向左和向右的扩展之间的均匀采样。通过使用滑动窗口平均测试的信心报告，研究者绘制出心理测量曲线(平均信心报告作为目标点水平位置的函数。平均信心报告变化作为一个函数的水平位置的目标。在前两种情况下(图3)，三个分布是均匀间隔的，心理测量曲线显示了两个倾角，在对称于0°左右的两个位置获得了最低的置信度。我们利用各模型的最佳拟合参数模拟预测的心理测量曲线。Max模型和Difference模型的拟合与数据相似，但熵模型的最佳拟合在第一个条件下显示出中心的倾斜。在第三和第四种情况下，三个分布的间隔不均匀，平均置信度在两个最接近的分布中心附近最低。只有差分模型表现出这种模式，而最大模型和熵模型与数据的偏差更明显。

在实验2中，研究目的是测试实验1的结果是否可以推广到其他刺激配置，其中类别的中心在一个二维空间中变化。研究者测试了三组的中心沿水平和垂直轴变化的四种情况。在以屏幕为中心的圆形区域内对目标点的位置进行均匀采样，此外，实验2中使用的类别分布允许在更大范围的后验分布中探测信心报告。例如，在实验2中可以探测目标点与所有三类距离相同时的信心报告，而在实验1中则不行。“心理测量曲线”现在是二维热图。模型比较结果与实验1一致。

在实验3中，到目前为止，研究发现Difference模型比Max模型和熵模型更适合数据。然而，参与者是否报告一个决定是正确的概率(Max模型)可能取决于实验设计。在实验1和实验2中，参与者没有收到关于他们类别决定的反馈。因此，在任务中正确的概率是很难学习的。为了研究这一问题，在实验3中使用与实验1相同的四种刺激配置，在每次试验中随机选择三组中的一组作为真实目标类别，并从真实类别的分布中采样目标位置。每次试验结束时都会给出反馈，告知参与者真实的类别。模型比较结果与实验1和实验2一致。同时添加感官和推理噪声的模型对数据的解释最好，推断噪声对模型拟合的影响大于感觉噪声。当我们单独拟合置信值报告时，或当考虑其他可变性来源时，这些结果成立。启发式模型并不比差分模型更好地拟合数据。

阅读体会

为了区分知觉信心的领先模型(贝叶斯信心假说)和一种新的备选模型(该模型的信心受到未选择选项的后验概率的影响)，实验研究了三种选择的知觉决策任务中人类的信心报告。结果发现，信心最好用差分模型来描述，该模型反映了观察者对决策中前两个选项的信任强度(后验概率)之间的差异。Max模型(对应于贝叶斯置信度假设)和熵模型(其中置信度来源于后验分布的熵)无法解释数据。实验结果在刺激配置变化(实验1和2)和提供逐一反馈(实验3)的情况下是稳健的。研究结果表明，未选择类别的后验概率影响决策的信心。目前的研究如何推进我们对信心的神经基础的理解?大多数关于自信心的神经生理学研究都将与正确概率相关的神经活动作为自信心的神经表征。这些研究都使用了两种可供选择的决策任务，多选择决策任务已被用于非人类灵长类动物的神经生理学研究，但不是为了研究置信度。利用多重可选任务，神经研究可以将概率正确的神经关联与差分模型中“差异”置信变量的神经关联分离，根据研究的结果，这可能是人类主观信心的基础。一个潜在的重要区别人类和非人类动物研究是在后者,信心是没有明确报道但是实施行为的某些方面,如选择“安全”的概率。因此，在直接比较人类研究中这些隐含的报告和明确的信心报告时，我们更应该应该小心。

十四、文献信息

Awad, E., Levine, S., Kleiman-Weiner, M., Dsouza, S., Tenenbaum, J.B., Shariff, A., Bonnefon, J.F., & Rahwan, I.(2020).Drivers are blamed more than their automated cars when both make mistakes.Nature human behaviour, 4(2), 134–143.https://doi.org/10.1038/s41562-019-0762-8

论文摘要

当一辆自动驾驶汽车伤害了某人，听到这件事的人会责怪谁?在这项研究中，我们要求人类参与者考虑一个假设的情况，即一个行人被一辆由主司机和副司机共同控制的汽车杀死，并要求参与者指出应该如何分配责任。我们发现，当只有一个司机犯错时，该司机受到的指责更多，无论该司机是机器还是人。然而，在人机共享驾驶车辆的情况下，当两名司机都出现了错误时，归咎于机器的责任就会减少。这一发现预示着公众对自动汽车的人工智能部件故障反应不足，因此有着直接的政策含义:允许共享控制车辆的实际标准建立在法庭陪审团制度上的话可能无法正确地调节这些车辆的安全;相反，这可能需要一个自上而下的方案(通过联邦法律)。

论文关键内容

实验情境

一、只有人类。这是一辆单独驾驶的汽车，其中一个人是司机。也被称为普通汽车。

二、只有机器。这是一辆单独驾驶的车，里面的司机是机器。也被称为全自动汽车。

三、双驾驶Dual-driver车。这辆车有一个主要驾驶员，他的工作是驾驶这辆车，还有一个次要驾驶员，他的工作是监视第一个驾驶员的动作，并在第一个驾驶员出错时进行干预(也称为共享控制汽车)。使用了四个版本。

①人-机。这是一辆双驾驶员汽车，其中一个人是主要驾驶员，一个机器是次要驾驶员(也被称为监护人)。

②Machine-human。这是一辆双驾驶汽车，其中机器是主要驾驶员，人类是次要驾驶员(也称为自动驾驶)。

③人-人。这是一辆双驾驶员车，其中一个人是主要驾驶员，另一个人是次要驾驶员。

④机机。这是一辆双驾驶员车，其中一台机器是主要驾驶员，另一台机器是次要驾驶员。

干预的类型

研究中采用两种干预方式:不良干预和错过干预。每个人的描述取决于汽车是单人驾驶还是双人驾驶。

坏的干预(dual-driver)。主要驾驶员使汽车保持在原轨道上。第二名司机介入，使汽车偏离轨道(造成一名行人死亡)，而不是让汽车保持在轨道上，没有造成人员伤亡。

错过了干预(dual-driver)。主要驾驶员使汽车保持在原轨道上。第二名司机让车保持在原来的轨道上(造成一名行人死亡)，而不是突然转向相邻的车道，没有造成人员伤亡。

坏的干预(sole-driver)。唯一的司机驾驶汽车偏离轨道(造成行人死亡)，而不是让汽车保持在轨道上，没有造成人员伤亡。

错过了干预(sole-driver)。唯一的司机让汽车保持在原来的轨道上(造成一名行人死亡)，而不是突然转向相邻的车道，从而没有造成任何人死亡。

两难版本(研究3)。杀死一个行人和没有杀死一个行人的两种结果被杀死5个行人和杀死1个行人的两种结果取代。例如，在“失误干预”(双驾驶)中:(…)副驾驶让汽车保持在原有轨道上(造成5名行人死亡)，而不是突然转向到相邻的车道，造成1名行人死亡。

研究1 参与者被均匀地随机分配到汽车类型(人-人，人-机器，机器-人和机器-机器)这四个层次之间的主题设计。在每一种条件下，参与者首先阅读汽车的描述，然后被要求在100分的范围内将能力归为“不胜任”和“非常胜任”。然后，参与者阅读两个场景(以随机顺序呈现)，一个糟糕的干预案例和一个错过的干预案例。在每个场景之后，参与者被要求(以100分的标准)指出他们认为每个司机在多大程度上应该受到责备(从“不应该”到“非常应该”)，以及这两个因素在多大程度上导致了行人的死亡(从“很少”到“非常”)。问题是随机排列的研究2 参与者被均匀地随机分配到一个4 × 2的多因素设计中，两个因素分别为汽车类型(只有人、人-机器、机器-人和只有机器)和行业代表(汽车和公司)。在每个条件下，参与者阅读两个场景(以随机顺序呈现)，一个糟糕的干预案例和一个错过的干预案例。每个场景后,参与者被要求指明因果责任,选择谴责责备两个代理中的哪一个:人类驾驶司机和车的代表(汽车本身或汽车的制造公司)。

研究3中，使用了与研究2相同的汽车制度，但情况是两难的场景，司机必须在撞到一个行人或撞到五个行人之间做出选择。这涉及到一个困难的选择，即决定从两组人中毁灭哪一组。研究2中的所有主要效应在研究3中得到了重复。

研究的主要发现是，在假设的情况下，如果一个人和一个机器共同控制汽车，当两个司机都犯了错误时，归咎于机器的责任就会减少。在某些情况下,机器的主驾驶员和人类的副驾驶员都应该采取行动来避免碰撞，但两个驾驶员都没有采取行动。研究结果表明，公众对这类事故的反应——若一个人把注意力集中在驾驶员的极度疏忽上——那么他可能会将这种反应推广到其他的两方都有错误的Missed interventions式的案例，即把责任从机器身上转移开而移到人类身上。

阅读体会

本项研究的结果与现实世界的公众反应融合得很好，显示了外部有效性。本研究得主要发现(在双误情况下，对机器的指责减少了)让我们相信，尽管采用自动驾驶汽车可能存在许多心理障碍，但公众对双误情况的过度反应不太可能是其中之一。事实上，我们或许应该担心公众的反应不足。在之前发生过的特斯拉(Tesla)和优步(Uber)的两起事故中，公众不太可能认为机器是罪魁祸首，因此可能缺乏推动监管的那种公众压力。例如，如果我们允许通过基于陪审团的法庭裁决来设定自动驾驶汽车的标准，我们预计陪审团将会有偏见，在双重错误的案件中免除汽车制造商的责任，从而无法对制造商施加足够的压力来改善汽车设计。尽管法庭有一些方法可以减轻陪审团中可能出现的心理偏见，但心理偏见继续在基于法庭的决定中发挥重要作用。事实上，在20世纪60年代以前，当汽车乘员在车祸中受伤时，汽车制造商享有很大的免责自由(因为车祸的责任归咎于司机的失误或疏忽)。所以我认为从上到下的监管是必要的，以引入“碰撞价值”的概念到法律体系中，表明汽车应该以某一种方式设计以最大限度地减少事故发生时对乘员的伤害。只有遵循这些法律，汽车制造商才能被迫改进他们的设计。在这方面，或许也需要对自动汽车安全进行自上而下的监管，以纠正公众在共享控制的情况下对碰撞的反应不足。然而，目前这个行业的安全标准到底应该是什么仍然是一个悬而未决的问题。

十五、文献信息

论文摘要

论文关键内容

阅读体会

十六、文献信息

论文摘要

论文关键内容

阅读体会

十七、文献信息

论文摘要

论文关键内容

阅读体会

文献阅读笔记

相关范文推荐

博士研究生如何做文献阅读笔记(总结)

文献综述

文献总结

文献综述

文献综述

文献综述

文献总结

文献综述