跳到主要内容

原创研究文章

前面。精神病学,2022年10月25日
计算精神病学
https://doi.org/10.3389/fpsyt.2022.1008011

一类带有强化学习的循环神经网络中的类别学习

  • 华东理工大学认知神经动力学研究所,上海,中国

众所周知,人类和动物能够快速有效地学习和利用类别信息来适应不断变化的环境,并且有几个大脑区域参与了类别信息的学习和编码。然而,目前还不清楚从神经回路的角度来看,大脑系统是如何学习和形成分类表征的。为了从网络层面研究这个问题,我们将循环神经网络与强化学习结合起来,构建了一个深度强化学习模型,以演示类别是如何在网络中学习和表示的。该模型由一个政策网络和一个价值网络组成。策略网络负责更新策略以选择行动,而价值网络负责评估行动以预测奖励。智能体通过策略网络和价值网络之间的信息交互进行动态学习。该模型经过训练,在猴子学习的连续配对关联任务中学习六个刺激-刺激联想链。模拟结果表明,我们的模型能够学习刺激-刺激联想链,并成功地再现了猴子执行相同任务的类似行为。在这个模型中发现了两种类型的神经元:一种主要编码关于个体刺激的身份信息;另一种主要编码一条链中相关刺激的类别信息。 The two types of activity-patterns were also observed in the primate prefrontal cortex after the monkey learned the same task. Furthermore, the ability of these two types of neurons to encode stimulus or category information was enhanced during this model was learning the task. Our results suggest that the neurons in the recurrent neural network have the ability to form categorical representations through deep reinforcement learning during learning stimulus-stimulus associations. It might provide a new approach for understanding neuronal mechanisms underlying how the prefrontal cortex learns and encodes category information.

介绍

范畴是认知神经科学中的一个基本概念。文献表明,人类和动物可以快速有效地使用分类信息来识别新物体,进行推断等(1- - - - - -3.).例如,我们可以根据一种动物的身体特征将其归类为狗,即使这种动物是我们以前不知道的一种新的狗。我们可以推断出它一般属于犬类的基本属性。在文献中有两种类型的范畴:知觉范畴和功能范畴。具有相似物理性质的物体可以分为一个组,作为知觉类别(4).功能类别表示其成员没有任何物理相似性,但具有相似的功能,例如将相同的动作或奖励(5- - - - - -7)等。许多行为研究表明,动物可以通过训练匹配样本任务来形成一组视觉刺激的功能类别(89).在这个任务中,一些任意选择的视觉图像(样本)被学习与一个共同的目标图像相关联。在学习后,发现动物可以将这些视觉图像视为等效的刺激,称为功能范畴(1011).动物或神经元系统如何学习、表征和利用分类信息,是分类研究文献中的一个重要研究课题。

包括功能磁共振成像研究、损伤研究和神经生理学研究在内的各种实验数据表明,参与分类处理的不是单一的大脑区域,而是许多大脑区域,如颞下皮层、前额叶皮层(PFC)和基底神经节(PFC)。1213).不同的大脑区域可能对处理类别相关信息有不同的贡献。颞下皮层的神经元对刺激的知觉特征比分类关系更敏感(14- - - - - -16).PFC中的神经元可以实现基于抽象规则的分类区分(17).PFC神经元在分类任务中具有较强的分类编码能力(1819),神经元对属于同一类别的刺激比属于不同类别的刺激表现出更多相似的反应(20.21).此外,在分类决策任务中,动作的执行不仅需要前运动皮层的参与,还需要基底神经节的相关功能来帮助PFC完成策略的调整。因此,据报道,运动前皮层和基底神经节也参与类别学习(22- - - - - -25).虽然我们知道,在类别学习过程中,许多大脑区域发挥着不同的功能作用,但这些区域如何合作学习和编码类别的机制尚不清楚。因此,我们试图构建一个网络模型,以进一步了解神经系统在分类决策任务中的工作机制。在分类决策任务中,PFC在分类信息处理中起着重要的作用,并通过构建网络模型模拟PFC在分类决策任务中的作用。

已经提出了一些理论模型来解释在神经系统中如何学习类别(26- - - - - -28).但大多数模型显示的分类现象与一些行为结果一致,没有显示在PFC或其他大脑区域观察到的编码分类信息的神经活动(2930.).Hinaut和Dominey构建了PFC的神经网络模型,演示了如何通过循环系统(31).他们的模型是一个对序列敏感的三层皮层神经网络。因此,三层模型中的一些神经元可以识别每个序列,其他一些神经元可以产生序列所属类别的显式表示。然而,这种神经网络模型能够通过使用监督学习来区分类别,这对于动物在决策任务中的学习来说在生物学上是不合理的。实验研究表明,动物根据采取行动的奖励反馈来学习执行特定的任务(32),即强化学习(RL)。

大量研究表明,将人工神经网络与RL相结合,可以使网络模型更高效、更快地学习和存储项目(3334).特别是,RL已被用于了解大脑皮层中关联学习的神经机制(3536).在RL框架中,agent通过试错(trial and error)进行操作,然后从外部环境中获得奖励。其目的是最大化预期的奖励数量(37).令人惊讶的是,经过重复RL训练的循环神经网络可以模拟在各种决策任务中观察到的动物的复杂行为(3839).然而,在大多数研究中,循环网络被训练学习单一决策任务中的刺激-行动关联或刺激-奖励关联。目前很少有研究报道将带有RL的循环神经网络应用于类别学习。我们感兴趣的是,在多决策任务中,这种类型的模型能否通过刺激-刺激关联来学习一组刺激的功能类别。

在这项研究中,我们构建了一个深度RL模型,将循环神经网络与RL结合起来,以研究在网络中如何学习类别。一方面,该网络模型采用门控循环单元网络结构,神经元可以通过门控机制调节信息传递。另一方面,该网络模型利用了行动者-评论家算法结构,其中神经元可以通过策略梯度RL算法(40).然后,我们研究这个模型是否可以模仿猴子的行为和它们在PFC中报告的连续配对关联任务中的神经活动(41).

在顺序配对关联任务中,该模型需要以类似的方式学习6个刺激-刺激关联序列来训练猴子学习该任务。研究发现,该模型能够在训练结束时成功地学习6个联想序列,重现了在任务中观察到的猴子的选择行为。值得注意的是,我们在这个模型中发现了两种类型的神经元:一种主要编码关于个体刺激的信息;另一种主要编码一条链中相关刺激的类别信息。在该模型的学习过程中,这两种神经元的信息编码能力得到增强。我们的结果表明,在学习刺激-刺激关联过程中,循环神经网络中的神经元具有通过深度RL形成分类表征的能力。

方法

神经网络模型

在先前的研究中,深度RL网络已被用于模拟刺激-反应关联或刺激-奖励关联(3842).在本研究中,提出了一种基于深度强化学习框架的新型神经网络。深度RL神经网络模型由两部分组成:策略网络和价值网络(图1).

图1
www.gosselinpr.com

图1。神经网络模型的结构。深度RL神经网络模型,由策略网络和价值网络组成。在策略网络中,从输入层到信息集成层(IIL)的神经元之间建立稀疏连接。从IIL到操作输出层进行完全连接。在价值网络中,输入层、IIL和价值输出层的神经元之间是完全连接的。此外,在IIL中,红-红或蓝-蓝表示神经元之间的兴奋性连接;红-蓝或蓝-红表示神经元之间的抑制连接;黑色表示神经元之间没有联系。

策略网络有三层:输入层、信息集成层(IIL)和操作输出层。输入层的神经元数量为Np_= 11,这些神经元接收来自外部环境的刺激信息;即脑内神经元的数量为Np= 150,这些神经元可以接收来自输入层的刺激信息;动作输出层的神经元数量为Np_= 3,这些神经元在本研究中分别代表三种动作:固定,左右选择。从输入层中的每个神经元连接到IIL中的神经元的概率为p0= 0.2;神经元之间连接的概率为p1= 0.1;IIL中的每个神经元连接到动作输出层神经元的概率为p2= 1(完全连接,参见表1).

表1
www.gosselinpr.com

表1。深度RL模型的训练参数。

价值网络也有三层。输入层的神经元数量为Nv_= 153,这些神经元分别接收了150个IIL神经元的放电速率和3个策略网络动作输出层神经元的动作;即脑内神经元的数量为Nv= 100,这些神经元可以从策略网络中学习信息;值输出层的神经元数量为Nv_= 1,神经元为每个动作生成一个预测奖励。在这里,输入层、IIL和值输出层的神经元之间建立了完全连接。

在该模型中,政策网络基于当前刺激和任务条件产生一个行动,该模型采取行动并获得实际奖励;价值网络在策略网络中集成了神经元的发射速率,以输出对行动的预测奖励。行为的实际奖励与预测奖励之间存在奖励预测误差,策略网络根据误差信号及时调整策略以使其最小化。

在策略网络和价值网络中,IILs都具有门控循环单元的循环连接结构(门控循环单元被认为是一个神经元)。门控循环单元包括更新门和重置门,其中更新门用于控制保留的历史状态信息并接收关于候选状态的新信息,重置门用于控制候选信息对历史状态信息的依赖程度(43).通过这种方式,信息在传输过程的不同状态之间形成了依赖关系。在本文中,策略网络的连续时间门控循环单元网络的方程如式(1)-(4)所示,值网络的门控单元也有类似的方程。

ϕ t = σ j = 1 N p W r e c ϕ j x j t 1 + k = 1 N p _ n W n ϕ k u k t + b ϕ t = 1 N p 1
ψ t = σ j = 1 N p W r e c ψ j x j t 1 + k = 1 N p _ n W n ψ k u k t + b ψ t 2
h t = 1 η ϕ t h t 1 + η ϕ t ( j = 1 N p W r e c j ψ j t x j t 1 + k = 1 N p _ n W n k u k t + b t + 2 η 1 δ r e c 2 ε 3.
x t = ( h t + 4

这里,我们使用修正的线性激活函数[x+= max (0,x)作为每个神经元的输出函数。由于GRU网络中的门控单元被认为是发射速率神经元,其输出函数的值被定义为神经元的发射速率。IIL中每个神经元的放电速率都是非负的。此外,σ(x) = [1+exp(−.x)]−1作为每个gate的输出函数[update gate ϕ .t)或重置门ψt), (= 1,…Np), (t= 1,…T)], ε为均值为0,方差为1的高斯白噪声,且 δ r e c 2 用于控制此网络噪声的大小。和ukt) (k= 1,…Np_的输入信息k神经元受到外界环境的影响txt的发射速率i神经元时间t η = Δ t τ t为时间步长,τ为时间常数(表1),用于控制栅极循环单元的信息依赖关系。 W r e c ϕ j W r e c ψ j 连接权重是否来自j神经元i神经元在更新门和复位门(44),分别; W n ϕ k W n ψ k 连接权重是否来自k输入神经元到i神经元分别位于更新门和复位门; b ϕ t b ψ t 分别为更新门和复位门的偏置。此外, W r e c j 是否连接重量从j神经元iil中的神经元; W n k 是否连接重量从k神经元的输入层iil中的神经元;bt的偏置iil中的神经元。

具体地说, x π t 是射速的吗i在π策略下的策略网络的IIL中的神经元。一般来说,RL由五个主要元素组成:代理、环境、动作、状态和奖励。智能体首先观察外部环境,接收输入信息ut(Np_维向量),然后根据策略πθ一个t|ut)选择一个动作一个t(Np_维向量)。这里,动作输出层神经元根据策略函数生成动作:

z l t = = 1 N p W o u t π l x π t + b o u t π l t l = 1 N p _ o u t 5
π θ 一个 t = l | u t = e z l t l = 1 N p o u t e z l t 6

在哪里 W o u t π l l= 1,…Np_的连接权值i神经元之间的关系激光策略网络的动作输出层神经元, b o u t π l t 是偏倚的吗激光动作输出层的神经元,zlt的线性输出函数激光神经元在动作输出层,而策略πθ一个t|ut)为softmax函数。agent通过随机抽样的方法根据策略函数选择动作。也就是说,当agent通过观察得到的外部环境信息非常有限时,不能完全依靠这些信息来做出正确的选择。然而,代理在偶尔采取行动的情况下会获得环境提供的奖励。在这种情况下,价值网络对行动的评价可以更好地指导政策网络实施政策调整。这里是发射速率m值网络IIL中的神经元为 x v t = 1,…Nv),价值输出层的神经元根据价值函数对动作产生预测奖励:

v φ x t π 一个 t = = 1 N v W o u t v x v t + b o u t v t 7

发射速率 x t π (Np策略网络和动作的IIL中神经元的维度向量)一个t(Np_动作输出层神经元的维向量)作为价值网络的输入信息。 W o u t v 是否连接重量从m将IIL中的神经元连接到值输出层的神经元, b o u t v t 神经元的偏置在值输出层,和vφ为值输出层的线性输出信息。

策略梯度强化学习

在此模型中,连接权重(W W n ϕ W n ψ W矩形 W r e c ϕ W r e c ψ W o u t π , W o u t v )和偏见(bbϕbψ b o u t π , b o u t v ),由策略梯度RL算法在训练过程中更新(38).在本研究中,考虑到agent所处的环境状态不是完全可观察的,我们使用了部分可观察的马尔可夫决策过程模型,该模型更适合agent在外部环境信息有限的状态下进行学习。部分可观察马尔可夫决策过程模型是离散的和有限的(45).连续周期通过时间步进行离散化,agent需要观察外部环境,并在每个时间步选择一个动作。设置时间范围为0 ~ t,0:t是智能体与环境交互过程中的历史信息,包括状态、观察和动作,如下所示:

0 t = 年代 0 t + 1 u 1 t 一个 0 t 8

在代理选择一个动作之后一个t在时刻t,它得到了一个奖励rt+ 1下次的时候t+ 1。具体来说,当t= 0,表示环境处于当前状态年代0概率κ(年代0), agent选择一个动作一个0根据策略πθ,其中θ为参数,包括策略网络的权重和偏差。当t= 1时,环境进入新的状态年代1概率κ(年代1|年代0一个0),代理获得奖励r1。接下来,代理观察外部环境并接收输入u1,选择一个动作一个1基于新策略πθ一个1|u1)并获得奖励r2。因此,代理与环境之间的交互过程是不断重复这些步骤,直到每次试验结束。一般来说,从每次试验的开始到结束,代理都可以依赖策略πθ在时间t选择一个行动一个t最终获得最大期望价值的奖励R(θ):

R θ = E t = 0 T r t + 1 9

其中T为每次试验的结束时间(表1),以及E预期计算是基于历史的吗0:T= (年代0:T+ 1u1:T一个0:T).

该模型采用策略梯度方法,在参数更新时采用行动者-评论家算法结构。这种方法使用了策略函数和价值函数进行学习。简单地说,行为人通过调整策略来采取行动,这就是策略功能;评论家通过预测这项行动的回报来评估每一项政策,这被称为价值函数。

为了用梯度下降法更新策略网络(行动者)的参数,定义一个目标函数如下:

Γ π θ = 1 N t r 一个 l 年代 n = 1 N t r 一个 l 年代 - R n θ 10

其中参数θ包括策略网络的权重和偏差。值得注意的是,在训练网络模型时,我们没有在每次试验中更新策略网络的参数;而是在完成后更新N试用试用该方法使策略网络的学习过程更加稳定。此外,我们使用策略梯度算法求解∇θRn(θ):

θ R n θ = t = 0 T θ 日志 π θ 一个 t | u t Υ x t π 一个 t 11
Υ x t π 一个 t = t = 0 T r t + 1 - v φ x t π 一个 t 12

在这里, Υ x t π 一个 t 为Temporal-Difference算法的奖励预测误差值,表示价值函数的估计值与实际奖励之间的差值。该值可以作为错误信号,指导策略网络进行学习。当时t v φ x t π 一个 t 值网络的线性输出函数,和 x t π 为策略网络中IIL神经元的放电率。

为了用梯度下降法更新值网络(批评家)的参数,定义一个目标函数如下:

Γ v φ = 1 N t r 一个 l 年代 n = 1 N t r 一个 l 年代 n φ 13
n φ = 1 T + 1 t = 0 T ( r t + 1 - v φ x t π 一个 t 2 14

在哪里n(φ)为均方误差,参数φ包括值网络的权重和偏差。在价值网络中,发射速率 x t π 政策网络和行动的IIL神经元的数量一个t动作输出层的神经元作为它的输入信息t,其输出信息为预测值vφ行动的。在这里,我们求解∇φn(φ)通过时间算法(46).最后,我们的模型可以基于政策网络和价值网络之间的信息交互进行动态学习。

顺序配对关联任务

我们使用深度RL模型来学习由猴子成功执行的顺序配对关联任务(41).在这项任务中,猴子需要学习两个刺激-刺激联想序列(图2一个).在这里,视觉刺激为6张可识别的图片,并将其分为两个联想序列(A1→B1→C1和A2→B2→C2)。图2 b显示适合此模型学习的任务事件。每次试验最长时间为2,400毫秒(图2 b).在每次试验开始时,要求药物在固定点上固定600 ms。之后,第一个刺激A1或A2出现400毫秒。在第一次刺激之后,有500毫秒的延迟期。在延迟期间,代理继续固定在现场。延迟后,第二个刺激B1和B2同时出现在左右位置。两种刺激的左右位置是随机的。这时,要求药剂在现场固定200ms。在第二个刺激被抵消后,智能体有100毫秒的时间做出第一个选择(基于A1或A2选择B1或B2)。如果第一种选择是错误的,当前试验终止。 If the first choice is correct, the agent obtains a reward and the trial is to be continued. After the first correct choice, the agent is required to fixate on the spot for 300 ms. Then the third stimuli C1 and C2 are presented simultaneously, and the left and right positions of the two stimuli are random. At this time, the agent is required to fixate on the spot for 200 ms. After the third stimuli is offset, the agent is given 100 ms to make the second choice (selection of C1 or C2 based on B1 or B2). When the second choice is correct, the agent obtains a reward again and the trial is to end. The design of two associative sequences (A1-sequence and A2-sequence) allows the network model to select the target stimuli from the presentation of the target and distractor stimuli.

图2
www.gosselinpr.com

图2。顺序配对关联任务及其任务事件。(一)猴子学习ABC序列的例子。两个正确的刺激-刺激关联序列是A1→B1→C1和A2→B2→C2。(B)连续配对关联任务试验中的任务事件计时。网络模型需要在刺激期和延迟期对固定点进行固定。它得到了一个正的奖励rt+ 1在两个决策阶段(decision -1和decision -2),每个正确的选择= +1。如果该模型在第一个决策期做出了错误的选择,它将获得负奖励rt+ 1=−1,当前试验结束。如果该模型在第二个决策期做出错误的选择,则该模型将无法获得奖励(rt+ 1= 0),试验将结束。

在策略网络中,输入层的11个神经元分别表示固定、刺激A1、刺激A2、左刺激B1、右刺激B1、左刺激B2、右刺激B2、左刺激C1、右刺激C1、左刺激C2、右刺激C2。在顺序配对关联任务中,固定标记为值1,刺激A1或A2标记为值2,刺激B1或B2标记为值3,刺激C1或C2标记为值4。代理需要采取三个操作(N= 3),动作输出层的3个神经元固定(一个t=F),左(一个t=l),以及右边(一个t=R),分别。我们为两个iil中的神经元数量选择合适的值(N= 150在策略网络和N= 100的值网络)和它们的连接概率(见表1),以使模型能够成功地学习任务。我们没有系统地分析这些超参数的变化对模型学习任务的影响。然而,这些超参数的适当值的组合对于模型学习任务是很重要的。

一般情况下,智能体只能在两个决策周期内选择左或右行动;在刺激期和延迟期都必须保持固定。当智能体在第一个决策期选择了正确的行动时,它会获得一个正向的奖励rt+ 1= + 1;当智能体在第一个决策周期中选择了错误的行为时,它会得到一个负的奖励rt+ 1=−1,试验终止。代理得到一个正的奖励rt+ 1正确的行动或奖励= +1rt+ 1= 0表示在第二个决策阶段的错误操作。如果智能体在第二个决策期间没有做出选择(左或右),它将获得负奖励rt+ 1=−1。在刺激期或延迟期,智能体选择固定动作来获得奖励rt+ 1= 0;如果智能体选择向左或向右的动作,它将获得负奖励rt+ 1=−1,试验终止。

该模型不仅需要学习ABC序列(A1→B1→C1、A2→B2→C2),还需要学习BCA序列(B1→C1→A1、B2→C2→A2)和CAB序列(C1→A1→B1、C2→A2→B2)。这三个序列在试验中有相似的任务事件。我们将A1、A2、B1、B2、C1和C2六个刺激分为两组,A1组(A1、B1和C1)和A2组(A2、B2和C2)。a1基团中的刺激在一条链中相互关联,a2基团中的刺激在另一条链中相互关联。在训练该模型时,三个序列(ABC、BCA和CAB)在学习过程中随机出现,智能体并行学习6个刺激-刺激联想序列。

在这个任务中,我们将时间常数τ设置为100 ms,即时间步长Δt到20毫秒,以及试验次数N试用到24,表示该网络模型在完成24次试验(标记为一次迭代)后更新参数。此外,当网络模型完成50次策略迭代时,我们用800次试验来测试网络模型,以确定策略是否最优。在训练过程中,网络模型交替经历学习阶段和测试阶段。在学习阶段,代理通过策略迭代更新参数,在测试阶段,代理评估每个策略而不更新参数。当测试阶段的选择正确率(正确试验与所有试验的比值)达到98%时,我们认为智能体已经找到了最优策略,这表明网络模型可以成功完成任务。

顺序配对关联任务不需要猴子对相关刺激的类别信息进行编码。从行为上讲,只要记住每个刺激-刺激的关联就足以让猴子成功地完成任务。然而,据报道,在猴子学会任务后,一些前额叶神经元会为相关刺激编码分类信息(4147).我们感兴趣的是网络模型在学习顺序配对关联任务时是否以及如何对相关刺激形成分类表示。

类别指数和刺激指数

在该模型学习了刺激-刺激关联后,我们进一步检测了政策网络的IIL中150个神经元的活动。为了描述每个神经元的反应,我们计算了第一个刺激期(从第一个刺激开始0-400毫秒)每个神经元的类别指数。首先,对于每个神经元,我们计算来自a1组的每两个刺激的发射速率差的绝对值,记为FD一个1。同样,我们计算来自a2组的每两个刺激的发射速率差的绝对值,表示为FD一个2。然后,我们计算每个神经元在一个类别内刺激的平均发射速率差,表示为WCD。方程如下:

W C D = F D 一个 1 + F D 一个 2 6 15
F D 一个 1 = | x 一个 1 - x B 1 | + | x 一个 1 - x C 1 | + | x B 1 - x C 1 | 16
F D 一个 2 = | x 一个 2 - x B 2 | + | x 一个 2 - x C 2 | + | x B 2 - x C 2 | 17

其中||为绝对值。x一个1xB1,xC1表示第一刺激期a1组中每个神经元对刺激的放电速率;x一个2xB2,xC2表示在第一个刺激期,a2组中每个神经元对刺激的放电速率。在此之后,我们还计算了两组中每两个刺激之间每个神经元的放电速率差的绝对值。因此,两个类别之间的差值表示为BCD。方程如下:

B C D = F D 1 + F D 2 + F D 3. 9 18
F D 1 = | x 一个 1 - x 一个 2 | + | x 一个 1 - x B 2 | + | x 一个 1 - x C 2 | 19
F D 2 = | x B 1 - x 一个 2 | + | x B 1 - x B 2 | + | x B 1 - x C 2 | 20.
F D 3. = | x C 1 - x 一个 2 | + | x C 1 - x B 2 | + | x C 1 - x C 2 | 21

最后,根据定义类别索引WCDBCD,表示为CI,它由:

C = B C D - W C D B C D + W C D 22

的范围CI是从−1到1。当类别指数为负时,神经元对某一类别内的刺激的反应差异大于对两类刺激的反应差异。当类别指数为正时,神经元对两类刺激的反应差异大于对同一类刺激的反应差异。

Bootstrap检验用于判断每个神经元的类别指数从0到0是否具有统计学意义。我们将其在第一个刺激期的6种刺激(A1, B1, C1, A2, B2, C2)的发射速率进行洗牌,并根据洗牌数据计算类别指数。这个过程重复了500次,生成了一个洗牌类别索引的分布。原始类别指数值若落在重组分布的最高或最低2.5%内,即视为显著(p< 0.05)。

此外,注意到一些神经元对同一类别的刺激表现出不同的活动,我们根据每个神经元在第一个刺激期间对同一类别的三种刺激的放电速率来定义刺激指数(48),表示为如果,计算方法如下:

年代 = 年代 一个 1 + 年代 一个 2 2 23
年代 一个 1 = x 一个 1 马克斯 - x 一个 1 最小值 x 一个 1 马克斯 + x 一个 1 最小值 24
年代 一个 2 = x 一个 2 马克斯 - x 一个 2 最小值 x 一个 2 马克斯 + x 一个 2 最小值 25

在哪里x一个1)马克斯为A1组在第一个刺激周期内每个神经元对A1、B1、C1三种刺激的最大放电速率x一个1)最小值表示三个刺激的最小发射速率。x一个2)马克斯为第一个刺激周期内各神经元对a2组中三种刺激的最大放电速率x一个2)最小值表示三个刺激的最小发射速率。的如果反映一个类别内对刺激的反应差异,忽略跨类别对刺激的反应差异。的范围如果是从0到1,如果= 0表示神经元对同一类别的刺激没有不同的活动,但对不同类别的刺激可能有不同的活动。

结果

我们的模型在Windows 10系统下使用基于Python2.7软件的ano0.8.2执行,模型能够在学习顺序配对关联任务中成功运行。

网络模型的行为性能

该模型被训练为并行学习六种刺激-刺激关联。在每次试验中,六种关联中的一种被输入模型。在500次策略迭代之后,网络模型在两个决策周期中可以实现98%的正确率(正确试验与所有试验的比率),这表明它学习了顺序配对关联任务(图3 a, B).值得注意的是,我们的网络模型需要在每次试验中做出两个选择。在早期学习阶段,训练网络模型提高第一选择的正确率,第二选择的正确率较低。例如,在第50次政策迭代时,第一选择和第二选择的正确率分别约为1.8和0%。当网络模型逐渐提高第一种选择的正确率时,它开始提高第二种选择的正确率。在第200次政策迭代中,第一选择的正确率约为25.4%,第二选择的正确率约为12.6%。我们发现,从第200次策略迭代开始,在训练过程中,网络模型在第二选择处的奖励预测的均方误差(MSE)逐渐减小(图3 c).这表明价值网络对行为的预测奖励越来越接近实际奖励。结果表明,该网络模型能够通过误差信号提供的反馈信息及时调整策略并选择正确的动作。结果表明,该模型可以在不同的学习阶段学习顺序配对关联任务。最后,该模型在每次试验中都能获得最大的奖励(图3 d).经过训练的网络模型可以重现猴子在顺序配对关联任务中的类似行为(41).结果表明,该模型具有学习刺激-刺激关联序列的能力。

图3
www.gosselinpr.com

图3。深度RL模型的行为性能。(一)每个刺激-刺激关联的第一决策期正确率(第一决策期正确选择试验与所有试验的比率)。(B)每个刺激-刺激关联的第二个决策期正确率(两个决策期正确选择试验与所有试验的比率)。在这里,灰线表示目标值的98%。(C)网络模型在第二个决策周期的奖励预测均方误差(MSE)(见式14)。实际奖励(基于政策网络中选择的行为)和预测奖励(在价值网络中估计)之间的均方误差。(D)网络模型每次试验获得的奖励。

神经元的各种活动模式

该模型的输出动作表明,它能够根据样本刺激正确选择目标刺激,说明模型记住了刺激-刺激关系。在我们的模型中,神经元是如何编码刺激信息和刺激-刺激关系来做出选择的?为了研究这一问题,我们进一步分析了策略网络中IIL神经元的活动模式。有趣的是,在我们的模型学习了顺序配对关联任务后,神经元可以产生各种类型的活动模式。在第一刺激期(第一次刺激开始后0 ~ 400ms), a1组和a2组部分神经元对刺激的反应不同。例如,有19个神经元(19/150;12.7%)对a1组的刺激产生兴奋性活动,而与基线活动相比,a2组对刺激产生的兴奋性活动更少(距离第一次刺激开始的- 200到0毫秒)(图4一).在a2组中,一些神经元对刺激产生兴奋性活动,而在a1组中对刺激产生较少的活动(图4 b),这类神经元的数量为27 (27/150;18%)。与基线活动相比,a1组和a2组中约14%(21/150)的神经元对刺激产生兴奋性活动(图4 c, E, F).相比之下,在a1组和a2组中,约有14.7%(22/150)的神经元对刺激产生抑制活性(图4 d).我们还发现16个神经元(16/150;10.7%)对a1组和a2组刺激均无差异(图4 g).最后,大约三分之一的神经元(45/150;30%)在整个实验过程中保持沉默(神经元放电率为零)(图4 h).

图4
www.gosselinpr.com

图4。在模型学习任务后,在策略网络的IIL中发现的各种类型的活动模式。在这里,横轴上的黑色矩形表示第一个刺激周期(从第一个刺激开始到0-400毫秒)。在第一个刺激期,神经元对刺激A1、A2、B1、B2、C1和C2表现出不同的活动。神经活动是由六种刺激-刺激关联来分类的。如果第一个刺激期的放电速率比基线活动(从第一个刺激开始到- 200毫秒-0的一段时间)增加,这表明兴奋性反应。如果发射速率降低,这表明抑制性反应。一个神经元的平均放电速率表明它的放电速率在所有试验中是平均的。相同的图形图例用于(g)。(模拟)显示类别神经元的范例活动(p< 0.05, Bootstrap检验),这些神经元的类别指数分别为0.820、0.872、0.619和0.627。(eg)显示刺激神经元活动的例子(p> 0.05, Bootstrap检验),这些神经元的类别指数分别为0.393、−0.135和0.416。(H)一个在整个试验中显示没有活动的神经元示例。

刺激神经元和类别神经元

脑内神经元表现出不同类型的活动模式。一个重要的问题是这些神经元在模型中编码什么样的信息。我们发现,一些神经元对属于同一组的刺激产生了相似的活动模式,而对属于不同组的刺激产生了不同的活动模式图4模拟).这些神经元的活动模式与在顺序配对关联任务中观察到的PFC神经元相似(41).许多研究已经证明PFC神经元可以编码视觉刺激所属的类别(4950).我们假设该模型中的神经元可以在刺激-刺激关联学习过程中为每组刺激编码类别信息。

为了证明我们模型中的神经元是否能够表示类别信息,我们计算了第一个刺激期每个神经元的类别指数。根据类别指数的定义(见Section Methods),我们计算了105个神经元的类别指数(不包括图中所示的45个无反应神经元)图4 h),取值范围为−0.2 ~ 1 (图5一个).我们注意到,一些神经元的类别索引为负,说明这些神经元编码的类别信息较少,而一些神经元的类别索引为正,编码的类别信息较多。为了确定单个神经元的类别指数是否与零有显著差异,我们使用了bootstrap方法(见Section Methods)。结果表明,该IIL中58个神经元的分类指数(p> 0.05),平均分类指数为0.243。我们认为这些神经元不能识别刺激所在的类别,而是编码刺激的身份。这些神经元被称为刺激神经元。此外,47个神经元具有显著的分类指数(p< 0.05),平均分类指数为0.731。这些神经元主要编码类别信息,称为类别神经元。这表明,在我们的模型中,存在个体神经元具有编码类别信息的能力。

图5
www.gosselinpr.com

图5。神经元分类及其在两个学习阶段的种群活动。(一)分类指标的分布。这里,蓝条表示58个神经元,它们的分类指数不显著(p> 0.05, Bootstrap test),记为刺激神经元。这些神经元的类别索引范围为−0.2到0.6。红色条形表示47个神经元,其类别指数显著(p< 0.05, Bootstrap检验),记为类别神经元。这些神经元的分类指标范围是0.5到1。(B, C)显示刺激神经元的种群活动(B)和category-neurons(C)在学习的早期阶段(第50次迭代),分别。每个神经元的活动根据其对三个成对刺激(A1 vs. A2, B1 vs. B2, C1 vs. C2)的偏好活动进行排序,然后在神经元之间平均。(D, E)显示刺激神经元的种群活动(D)和category-neurons(E)在学习的最后阶段(第600次迭代)。所示的平均发射速率(B, D)测试和刺激神经元的平均放电速率。所示的平均发射速率(C, E)在不同的实验和不同类别的神经元中,放电率是平均的吗?

接下来,我们分别为不同学习阶段的刺激神经元和类别神经元创建了种群直方图。在顺序配对联想任务中,刺激神经元和类别神经元对刺激产生不同的活动。我们发现,当该模型处于任务的早期学习阶段(第50次迭代)时,两个种群的神经元在第一个刺激期和第一个延迟期都能表现出偏好和非偏好刺激之间的活动差异。然而,从第二个刺激期开始,这两种神经元的活动差异逐渐消失(图5 b, C).当该模型处于任务的最后学习阶段(第600次迭代)时,在整个试验中,刺激-神经元和类别-神经元对首选刺激的活性均强于对非首选刺激的活性(图5 d, E).结果表明,虽然神经元编码的信息在传递过程中会随时间衰减,但神经元会逐渐增强信息的存储能力,并通过学习形成工作记忆。

为了定量测量学习过程中的活动变化,我们分别计算了每个刺激神经元和类别神经元在每个测试阶段的类别指数。在任务学习过程中,刺激神经元的平均类别指数逐渐下降,类别神经元的平均类别指数逐渐上升(图6).这意味着分类神经元通过学习增强了分类信息的编码能力;而刺激神经元对分类信息的编码能力并没有增强。

图6
www.gosselinpr.com

图6。类别神经元和刺激神经元的类别指数和刺激指数。(一)在网络模型学习任务过程中,类别神经元(红色曲线)和刺激神经元(蓝色曲线)的类别指数的时间进程。(B)类别神经元(红色曲线)和刺激神经元(蓝色曲线)在网络学习任务过程中刺激指标的时间进程。(C)在模型学习任务后的5个不同任务时段,类别神经元(红色曲线)和刺激神经元(蓝色曲线)的类别指标。(D)分类神经元(红色曲线)和刺激神经元(蓝色曲线)在5个不同任务时段的刺激指标。横坐标中的数字“1”、“2”、“3”、“4”和“5”分别表示第一刺激期、第一延迟期、第二刺激期、第二延迟期和第三刺激期。

其次,我们定量地描述了这两种神经元在学习过程中编码刺激信息的能力。我们计算了每个神经元的刺激指数,以表示对类别内刺激的反应差异(参见部分方法)。58个刺激神经元的平均刺激指数逐渐增加,47个类别神经元的平均刺激指数在任务学习过程中保持相对稳定(图6 b).Mann-Whitney U检验结果显示,在最后的学习阶段,两个群体辨别类别内刺激的能力有显著差异(p= 0.018)。刺激神经元的类别编码能力虽下降,但刺激编码能力明显增强。

很明显,在模型学习过程中,这两类神经元的信息编码能力得到了增强,其活动在不同的任务时段也发生了变化。我们进一步分析了神经元在不同任务时段编码信息的特征。有趣的是,类别神经元在第一个刺激期表现出最强的类别信息编码能力,在第一个刺激期后这种能力下降。尽管在每个任务时段,类别神经元的类别指数平均值高于刺激神经元的类别指数平均值(图6 c).刺激神经元对刺激信息的编码能力在第一个刺激期最强,在第一个刺激期后减弱。但在每个任务周期内,刺激神经元的平均刺激指数高于类别神经元的平均刺激指数(图6 d).

虽然刺激神经元和类别神经元可能在这个模型中扮演不同的角色,但我们发现类别神经元不仅编码类别信息,还编码刺激信息(参见图5 e,分类神经元可以区分三种首选刺激)。一个问题是,在类别神经元中发现的刺激信息是否直接受到外部刺激的影响?值得注意的是,在策略网络中,输入神经元和IILs之间使用了稀疏连接。并且在IIL中只有部分神经元直接接受了来自输入层的刺激(这些神经元被标记为直接连接的神经元),而其他神经元则没有(那些不接受来自输入层的直接投影的神经元被标记为间接连接的神经元)。我们分析了两组直接连接和间接连接神经元的活动差异。在第一个刺激期,54 (54/150;36%)的IIL神经元与输入层神经元直接连接。其中,21 (21/54;38.9%)神经元被鉴定为类神经元。平均类别指数为0.715 (图7).此外,96 (96/150;64%)的神经元没有接收到来自输入层的直接连接。在这96个神经元中,26 (26/96;27.1%)的神经元被识别为类别神经元。平均类别指数为0.745 (图7 b).两组类别神经元的类别指数分布相似图7 a, B).此外,我们发现两组神经元在分类指数(图7 c).直连神经元的平均类别指数在早期学习阶段(第50次迭代)迅速上升,在后期学习阶段(第300次迭代到第600次迭代)略有变化。间接连接神经元的平均类别指数在不同的学习阶段(从第50次迭代到第600次迭代)有明显的增加。在最后的学习阶段(第600次迭代),两组神经元表现出相似的类别指数(Mann-Whitney U检验,p= 0.250)。

图7
www.gosselinpr.com

图7。直接连接神经元和间接连接神经元两类神经元的类别指数和刺激指数。(一)21个类别神经元的类别索引分布,这些类别神经元与输入层有直接连接。这些神经元的分类指数范围为0.5 ~ 0.9。(B)26个类别神经元的类别索引分布,这些类别神经元与输入层没有直接连接。这些神经元的分类指数范围为0.5 ~ 1。(C)分别为直连神经元(海蓝宝石曲线)和间接连接神经元(鲑鱼曲线)类别指数的时间过程。(D)分别为直接连接神经元(海蓝宝石曲线)和间接连接神经元(鲑鱼曲线)的刺激指数的时间过程。

我们进一步计算了两组直接连接神经元和间接连接神经元的刺激指数(图7 d).直接连接神经元的平均刺激指数显著高于间接连接神经元。Mann-Whitney U检验结果表明,外部刺激直接影响类别神经元对不同刺激的区分能力(p= 0.002)。结果表明,神经元在类别学习过程中对类别信息的编码能力不受外界刺激的直接影响;而神经元对刺激信息的编码能力则直接受到外界刺激的影响。

网络中神经元的权重分析

结果表明,该模型神经元具有刺激编码和类别编码的能力。该模型在学习顺序配对关联任务时更新权重。一般来说,神经元的突触可塑性在构建模型时至关重要(5152).这是因为信息是在突触连接的帮助下在神经元之间交换的,而突触的类型(兴奋性或抑制性突触)及其值影响神经元的活动(53).在计算水平上,兴奋性突触增加神经元的放电率,而抑制性突触降低它们的放电率。那么兴奋性和抑制性突触的相互作用是如何影响神经元的学习过程的呢?因此,我们讨论了神经元的连接权值。

在该模型的策略网络中,输入层的神经元与IIL中的神经元稀疏连接,概率为0.2。脑内大部分神经元不能直接接受外界环境的刺激。在这里,IIL中神经元之间的连接稀疏,概率为0.1,神经元通过信息传递间接地学习到来自外部环境的刺激。在训练该模型时,我们记录了脑内神经元的连接权值,其中正值为兴奋性权值,负值为抑制权值。这些神经元的连接权值为高斯分布(图8),在兴奋性权重和抑制性权重之间形成平衡机制。

图8
www.gosselinpr.com

图8。政策网络中权重的分布及活动模式与权重变化之间的相关性分析。(一)策略网络IIL中神经元连接权值的频率分布直方图。暗红色条表示兴奋性权重,为正,深蓝色条表示抑制性权重,为负。左图:循环网络中神经元之间的权值;中间面板:更新门权重;右面板:复位门的重量。(罪犯)表示每对神经元的活动模式相似度(Pearson相关系数)与其权重变化之间的相关分析。(B)所有在il中有连接的神经元对。(C)连接的神经元对只从刺激神经元中选择。(D)连接的神经元对仅从分类神经元中选择。

接下来,我们提出了一个问题,两个相连的神经元之间的权重变化是否与它们活动模式的相似性相关。在学习过程中,具有相似活动模式的神经元具有更强的连接权重,从而在IIL中形成连接结构。为了理解这个问题,我们选择了每一对相连的神经元,并计算了它们在第一个刺激期的活动模式的Pearson相关系数。此外,我们还计算了重量变化(训练结束时的重量与初始重量的差值)。图8 b为所有神经元对的Pearson相关系数和权重变化的散点图。他们之间没有关联。具体来说,我们使用相同的方法来计算Pearson相关系数和刺激神经元的权重变化(图8 c)或仅对类别神经元(图8 d).即使在同一类型的神经元中,它们活动模式的相似性也与它们的重量变化无关。尽管分类神经元能够识别刺激所属的类别,但它们的活动模式不受权重的直接影响。我们知道,递归神经网络的结构是极其复杂的。神经元不仅参与了学习过程中的权重更新,还受到其他因素的影响,如信息的衰减和信息的重要性,这意味着神经元在多个变量的协同作用下产生了相似的活动表现。

与行动选择有关的神经活动

到目前为止,我们主要研究第一刺激期的神经元活动,发现大部分神经元编码刺激和类别信息。在第一个刺激期,模型不需要做出行动的选择(左或右),在这一时期没有与选择相关的活动。在第二次刺激抵消后的第一个决策期,模型必须做出左右选择。IIL中与选择相关的信息是如何编码的?为了研究这个问题,我们在第一次刺激开始时对齐神经活动,并将其分为刺激-位置条件(12种刺激-位置条件,参见图9).在第一个决策期,我们主要发现了三种类型的活动模式(图9).第一种神经元在第一个决策期对左、右位置的反应没有差异,但在第一个刺激期和延迟期对刺激的反应有差异(图9).这种类型的神经元可能只编码与刺激相关的信息,不编码与动作相关的活动。有21个神经元(21/150;14%),在IIL中被归类为这类神经元。第二类神经元可以同时编码第一个刺激和延迟期的刺激相关信息和第一个决策期的刺激-行动结合信息(图9 b).这类神经元在不同的任务时段将信息从单纯的刺激相关信息编码为刺激-动作信息。这类神经元的数量为75 (75/150;50%)。这些神经元可能有助于将刺激信息转化为行动信息。第三种神经元只显示刺激-动作组合信息,对刺激的反应没有差异(图9 c).这个神经元主要区分左右动作。IIL中仅发现7个神经元。这类神经元主要参与了模型中的动作选择。此外,三分之一的神经元(47/150;30.9%)在整个试验期间无反应(见图4 h;神经元的放电率为零)。IIL神经元能够编码刺激信息和位置信息,并将其传递给动作输出层的神经元。在该模型的训练过程中,动态调整IIL中神经元与动作输出层之间的连接权值。最后,我们的模型可以学习任务。

图9
www.gosselinpr.com

图9。神经元的活动与行动选择有关。这里,两条灰色线表示第二个刺激期,在第二个刺激期之后,网络模型在第一个决策期选择一个动作(左或右)。每个神经元的活动在第一次刺激开始时对齐,并根据刺激位置条件进行排序。相同的图形图例用于(a - c)。(一)一个神经元的例子显示,在第一个刺激期和延迟期,只有刺激相关的活动,没有不同的活动,行动(或位置)。(B)一个神经元的例子显示,不仅在第一个刺激和延迟期的类别相关的活动,而且在第二个刺激抵消后的活动相关的刺激-动作组合。(C)一个神经元的例子显示,在第二个刺激抵消后,只有刺激-动作相关的活动,在第一个刺激期或延迟期都没有刺激相关的活动。一个神经元的平均放电速率表示它在所有试验中的平均放电速率。

讨论

在这项研究中,我们证明了使用RL的递归神经网络可以学习六个刺激-刺激联想序列。通过试错法,模型先在第一个选择中学习正确的动作,然后在第二个选择中学习正确的动作,在同样的任务中,猴子也观察到类似的学习方法。在第一个刺激期,在IIL中发现了各种类型的神经活动。有的神经元编码单个刺激的信息,有的神经元编码一组相互关联的刺激的类别信息。在顺序配对关联任务中,灵长类动物的PFC中也报告了这些类型的活动(41).实际上,刺激-刺激关联任务并不需要猴子和模型形成分类表征。然而,模型中PFC和IIL中的一些神经元确实对相关刺激的类别信息进行了编码。分类表示法可以帮助猴子或模型加速学习过程。例如,相关刺激的分类表示使他们能够轻松地从同一类别的样本刺激中选择目标刺激,而不需要记住与样本相关的特定目标刺激。IIL中的一些神经元在不同的任务期间也表现出异质性活动图9 b).这种类型的异质性活动模式经常在不同认知任务的PFC中观察到(54).我们发现,几乎一半的模型神经元在第一个刺激和延迟期编码刺激(或类别)信息,在决策期编码刺激-位置组合信息。少数神经元在第二次刺激抵消后只编码刺激-位置组合信息。我们没有发现编码纯位置信息(左或右动作)的神经元。模型学习刺激信息后转化为刺激-位置组合信息,动作输出层神经元整合刺激-位置组合信息生成正确的动作。

包括行为、神经生理学和功能磁共振成像实验在内的许多研究表明,大脑系统通过两阶段的类别学习模型来学习类别表征(1020.55).在第一阶段,感觉系统根据刺激的物理特性(56).在第二阶段,联想脑区对一组刺激的意义进行编码,形成分类表征。在我们的模型中,我们发现了两种类型的神经元:刺激神经元和类别神经元。这些神经元对任务信息的不同方面进行编码,这意味着模型可以使用两种不同的表示来学习类别信息。类别神经元不仅编码类别信息,还编码一些刺激信息图5 e).虽然间接连接的神经元和直接连接的神经元在最后的学习阶段具有相同的类别索引水平,但前者学习类别信息的速度比后者慢(参见图7 c).间接连接神经元的刺激指数也明显小于直接连接神经元。这些结果表明,来自输入层的输入可能会影响脑内的神经元来学习类别信息。进一步的权重分析表明,刺激-神经元或类别-神经元在IIL中没有形成聚类或层次结构。一对神经元活动模式的相似性与它们的体重变化无关图8).在当前的模型中,从输入层到IIL以及在IIL内部的突触连接是稀疏和随机的。在IIL中预先确定的连接结构可以帮助模型学习以分层的方式表示刺激信息、类别信息和动作信息。

基于RL算法的循环神经网络已被广泛应用于模拟动物在认知任务中的行为和神经活动(5758).在这个框架中,我们的模型使用RL进行训练,其方式类似于动物通过试错学习认知任务。循环网络中的模型神经元表现出复杂和异质性的活动模式(见图4).RL算法在我们的模型中起着关键作用。值得注意的是,RL算法在机器学习方面有着丰富的历史研究背景(59- - - - - -61).据报道,一些大脑区域,如PFC,基底神经节和多巴胺系统,实施RL与环境相互作用。从生物学角度来看,PFC在执行策略(62),神经元通过调整策略(6364).此外,PFC和基底神经节相互连接,形成一个循环结构(6566).具体来说,PFC和纹状体紧密相连(67).多巴胺从腹主动脉释放出来(68)和SNc传递到纹状体,再作用于PFC,并将多巴胺传递的信息作为奖励的预测误差(6970),然后PFC根据来自纹状体的错误信号调整策略。因此,PFC被视为政策网络,纹状体被视为价值网络(71).

研究发现,参与类别学习过程的脑区包括视觉皮层、PFC、顶叶皮层、运动前皮层和基底神经节(1221),其中PFC神经元更能编码类别信息(72).有趣的是,在这个模型中,我们发现一些模型神经元可以为一组在一条链中相互关联的刺激编码类别信息,这与一些PFC神经元在顺序配对关联任务中编码相关刺激的类别信息的发现一致(10).虽然我们不知道PFC或神经元系统究竟是如何学习并形成任务中相关刺激的分类表征的,但我们当前模型提出的一种可能的方法是,PFC及其相关的大脑区域可能在学习任务期间实现深度RL来编码类别信息。

众所周知,PFC神经元不仅编码刺激和类别信息,还编码奖励信息。例如,在不对称奖励计划的顺序配对关联任务中(47), PFC神经元对与大奖励相关的刺激表现出强烈的反应;当对同一刺激的奖励量相反时(大奖励变成小奖励),这些神经元对刺激的反应轻微。这一结果表明,神经活动受到奖励量的影响。我们试图使该模型学习非对称奖励计划下的顺序配对关联任务,但奖励逆转对神经元的活动模式没有影响。可能的原因是我们在这个模型中没有考虑奖励金额作为模型参数。奖励量只是作为一个错误信号来修改策略网络中的连接权值。因此,IIL中的神经元不编码奖励或刺激-奖励信息。值得注意的是,作为输入信息的环境刺激会影响模型中的神经活动。如果模型神经元接收到不同的奖励量作为输入信息,其活动可能反映奖励和刺激-奖励组合信息,该模型可能能够在不对称奖励计划下完成顺序配对关联任务。这个问题应该进一步调查。

仿真结果也表明该网络模型能够有效地对分类信息进行编码。Hinaut和Dominey报告说,在具有随机启动权重的三层循环神经网络中,一些神经元可以对一组行为序列的分类结构进行编码,而不需要修改权重(31).但是三层循环神经网络对分类信息的编码效率不高,分类神经元的比例很低(占总神经元的0.4%)(31).我们的模型显示了对类别信息编码的有效能力,几乎三分之一(47/150)的神经元具有类别选择性。然而,目前的模型仍然存在一些局限性。例如,虽然发现神经元需要工作记忆的能力来学习顺序配对关联任务,但缺乏对神经元存储记忆信息的工作机制的详细描述。众所周知,大脑中涉及类别学习的神经元回路极其复杂。我们的模型是一个单层递归神经网络,网络结构相对简单。在未来,结合长短期记忆网络(7374)与异步actor-批评家算法(7576)构建具有多层循环结构的模型,模拟类别相关神经元回路的功能。

总之,我们使用深度强化学习(循环网络+强化学习)的框架来构建新的网络模型,该模型被训练来学习顺序配对关联任务。这项任务要求网络模型在一次试验中做出两个连续的选择来学习刺激-刺激关联。我们在这项研究中的新发现是,网络模型在经过试错法训练后,可以正确地执行任务,这表明模型具有学习任务复杂结构的能力,而不仅仅是学习之前研究中报道的简单的刺激-动作或刺激-奖励关联(3842).更重要的是,我们在政策网络的IIL中发现了刺激神经元和类别神经元。这两种类型的神经元代表任务参数的不同方面,它们对类别和刺激信息的编码能力在学习过程中得到加强。脑内模型神经元表现出异质性活动,编码刺激、类别、动作及其组合的信息。IIL中神经元的这些响应特性与在同一任务中观察到的灵长类PFC的活动模式相似(4147),表明IIL在分类任务中可以模仿PFC的功能。仿真结果表明,循环神经网络可以使用RL算法在匹配样本任务(刺激-刺激关联)中学习一组刺激的分类表示,而不需要网络结构、先验知识或特定的分类规则等额外要求。我们的研究结果可能为理解大脑系统如何学习分类信息的神经元机制提供了一种新的方法。

数据可用性声明

本研究中提出的原始贡献已包含在文章/补充材料中,进一步查询可向通讯作者咨询。

作者的贡献

XP、YZ和YW对研究的概念、设计做出了贡献,并撰写了手稿的部分内容。YZ编写代码,模拟模型,并撰写初稿。YZ和XP分析了数据。所有作者均参与了稿件的修改、阅读和审定。

资金

本研究得到国家自然科学基金(No: 11972195, 12172132, 11802095)和上海市自然科学基金(No: 19zr1473100)的资助。

利益冲突

作者声明,这项研究是在没有任何商业或财务关系的情况下进行的,这些关系可能被解释为潜在的利益冲突。

出版商的注意

本文中所表达的所有主张仅代表作者,并不代表他们的附属组织,也不代表出版商、编辑和审稿人。任何可能在本文中评估的产品,或可能由其制造商提出的声明,都不得到出版商的保证或认可。

参考文献

1.弗里德曼DJ, Riesenhuber M, Poggio T, Miller EK。视觉分类和灵长类动物前额叶皮层:神经生理学和行为。J Neurophysiol。(2002) 88:929-41。doi: 10.1152 / jn.2002.88.2.929

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

2.季斌杰,韦利。通过分类和特征推断了解类别的内部结构。Q J Exp精神。(2014) 67:1786 - 807。doi: 10.1080 / 17470218.2013.871567

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

3.陈建民,陈建民,邓锐,Hélie S.基于规则的类别结构中类别内表示的学习和泛化。注意感知心理。(2020) 82:2448 - 62。doi: 10.3758 / s13414 - 020 - 02024 - z

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

4.阿什比FG, Ennis JM, Spiering BJ。知觉分类中自动性的神经生物学理论。Psychol牧师。(2007) 114:632-56。0033 - 295 - x.114.3.632 doi: 10.1037 /

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

5.田中,潘X,小口M,泰勒JE,坂上M.奖励推理在外侧前额叶皮层和纹状体的分离功能。Psychol前面。(2015) 6:995。doi: 10.3389 / fpsyg.2015.00995

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

6.江井K,细川T,山田M,饭岛T。猴子前额叶皮层功能类别的表征及其行为选择的规则依赖。J >。(2016) 36:3038-48。doi: 10.1523 / jneurosci.2063 - 15.2016

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

7.薛晓明,张晓明。奖励大小对分类决策中刺激记忆和刺激泛化的影响。J Exp Psychol Gen。(2020) 149:1823-54。doi: 10.1037 / xge0000747

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

8.细川T,本田Y,山田M,罗梅罗MDC,饭岛T, Tsutsui KI。在猴子群体逆转任务表现中使用功能类别的行为证据。Sci代表。(2018) 8:15878。doi: 10.1038 / s41598 - 018 - 33349 - 3

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

9.Zhou Y, Rosen MC, Swaminathan SK, Masse NY, Zhu O, Freedman DJ。在顺序分类决策过程中前额叶和顶叶皮层的分布功能。Elife。(2021) 10: e58782。doi: 10.7554 / eLife.58782

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

10.潘X,坂上。前额叶皮层的类别表征和泛化。神经科学。(2012) 35:1083 - 91。doi: 10.1111 / j.1460-9568.2011.07981.x

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

11.Jensen G, Kao T, Michaelcheck C, Borge SS, Ferrera VP, Terrace HS。传递推理范式中的类别学习。Mem Cognit。(2021) 49:1020-35。doi: 10.3758 / s13421 - 020 - 01136 - z

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

12.Seger CA, Miller EK。大脑中的分类学习。神经科学。(2010) 33:203-19。doi: 10.1146 / annurev.neuro.051508.135546

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

13.野村证券,Reber PJ。结合计算建模和神经成像来检查大脑中的多个类别学习系统。大脑科学。(2012) 2:176 - 202。doi: 10.3390 / brainsci2020176

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

14.梅丽娟,张志刚,张志刚。基于神经网络的下颞叶和前额叶皮层分类信息动态编码。J Neurophysiol。(2008) 100:1407-19。doi: 10.1152 / jn.90248.2008

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

15.山田勇,张志勇。下颞皮层神经元动态反应的神经机制研究。Cogn Neurodyn。(2013) 7:23-38。doi: 10.1007 / s11571 - 012 - 9212 - 2

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

16.Emadi N, Rajimehr R, Esteky H.在视觉分类过程中,下颞皮质的高基线活动提高了神经和行为辨别能力。Front Syst Neurosci。(2014) 8:218。doi: 10.3389 / fnsys.2014.00218

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

17.Mansouri FA, Freedman DJ, Buckley MJ。灵长类动物大脑中抽象规则的出现。神经科学。(2020) 21:595 - 610。doi: 10.1038 / s41583 - 020 - 0364 - 5

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

18.弗里德曼DJ, Riesenhuber M, Poggio T, Miller EK。灵长类动物视觉分类过程中前额叶和颞下皮层的比较。J >。(2003) 23:5235-46。doi: 10.1523 / jneurosci.23 - 12 - 05235.2003

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

19.Davis T, Goldwater M, Giron J.从具体的例子到抽象的关系:前额叶前额叶皮质将新例子整合到关系类别中。Cereb皮层。(2017) 27:2652 - 70。doi: 10.1093 / cercor / bhw099

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

20.弗里德曼DJ,阿萨德JA。视觉分类的神经元机制:决策的抽象观点。神经科学。(2016) 39:129-47。doi: 10.1146 / annurev -神经- 071714 - 033919

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

21.Viganò S, Borghesani V, Piazza M.人脑新多感官刺激的符号分类。科学杂志。(2021) 235:118016。doi: 10.1016 / j.neuroimage.2021.118016

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

22.基底神经节对分类有何作用?他们在概括、反应选择和通过反馈学习中的角色。神经科学生物行为学(2008) 32:265 - 78。doi: 10.1016 / j.neubiorev.2007.07.010

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

23.安佐拉托斯EG,米勒EK。学习新抽象范畴时前额叶皮层和纹状体神经活动的差异。神经元。(2011) 71:243-9。doi: 10.1016 / j.neuron.2011.05.040

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

24.瓦伦丁VV,马多克斯WT,阿什比FG。聚合反馈学习中的多巴胺依赖:一种计算认知神经科学方法。大脑Cogn。(2016) 109:1-18。doi: 10.1016 / j.bandc.2016.06.002

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

25.巴拉德I,米勒EM,皮安塔多西ST,古德曼ND,麦克卢尔SM。除了奖励预测错误:人类纹状体在学习过程中更新规则值。Cereb皮层。(2018) 28:3965 - 75。doi: 10.1093 / cercor / bhx259

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

26.在提取物体特征中视觉区域之间的功能连接对视觉分类任务至关重要。视觉Res。(2009) 49:337-47。doi: 10.1016 / j.visres.2008.10.023

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

27.柴桑蒙空W, Swaminathan SK, Freedman DJ,王晓军。鲁棒暂态计算:额顶网络如何执行顺序的,基于类别的决策。神经元。(2017) 93:1504 - 17. - e4。doi: 10.1016 / j.neuron.2017.03.002

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

28.皮诺蒂斯,西格尔M,米勒EK。皮层和深层神经网络的感觉处理和分类。科学杂志。(2019) 202:116118。doi: 10.1016 / j.neuroimage.2019.116118

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

29.坎特韦尔G,克罗斯利MJ,阿什比FG。知觉分类的多阶段学习:证据和神经计算理论。心理牛Rev。(2015) 22:1598 - 613。doi: 10.3758 / s13423 - 015 - 0827 - 2

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

30.bonnase - gahot L,纳达尔JP。分类感知:深度学习的基础。神经第一版。(2022) 34:437 - 75。doi: 10.1162 / neco_a_01454

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

31.希诺特X,多米尼PF.灵长类动物前额叶皮层的三层模型编码身份和抽象分类结构的行为序列。J Physiol巴黎。(2011) 105:16-24。doi: 10.1016 / j.jphysparis.2011.07.010

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

32.李迪,徐海华,郑文伟。强化学习和决策的神经基础。神经科学。(2012) 35:287 - 308。doi: 10.1146 / annurev -神经- 062111 - 150512

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

33.朱华,Paschalidis IC, Hasselmo ME。学习情境相关刺激关联的神经回路。神经。(2018) 107:48-60。doi: 10.1016 / j.neunet.2018.07.018

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

34.津田B, Tye KM, Siegelmann HT, Sejnowski TJ。通过前额叶皮层门控进行转移和储蓄的适应性终身学习建模框架。美国国家科学研究院。(2020) 117:29872 - 82。doi: 10.1073 / pnas.2009591117

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

35.Schönberg T, Daw ND, Joel D, O'doherty JP。在基于奖励的决策过程中,人类纹状体中的强化学习信号将学习者与非学习者区分开来。J >。(2007) 27:12860-7。doi: 10.1523 / jneurosci.2496 - 07.2007

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

36.Mas-Herrero E, Sescousse G, R, Marco-Pallarés J.纹状体伪奖励预测误差对基于价值的决策的贡献。科学杂志。(2019) 193:67 - 74。doi: 10.1016 / j.neuroimage.2019.02.052

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

37.列纳特L,利特曼ML,弗兰克MJ。奖励预测表征在强化学习中泛化到任务中。PLoS计算生物学。(2020) 16: e1008317。doi: 10.1371 / journal.pcbi.1008317

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

38.宋海峰,杨荣荣,王晓军。基于奖励的训练循环神经网络的认知和基于价值的任务。Elife。(2017) 6: e21492。doi: 10.7554 / eLife.21492

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

39.张震,程震,林泽,聂超,杨涛。强化学习中眶额皮层与任务空间获取的神经网络模型。PLoS计算生物学。(2018) 14: e1005925。doi: 10.1371 / journal.pcbi.1005925

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

40.刘志强,张志强。基于策略梯度的运动技能强化学习研究。神经。(2008) 21:682 - 97。doi: 10.1016 / j.neunet.2008.02.003

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

41.潘X,佐和K, Tsuda I, Tsukada M, Sakagami M.基于刺激分类的灵长类动物外侧前额叶皮层奖励预测。Nat >。(2008) 11:703-12。doi: 10.1038 / nn.2128

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

42.张旭,刘磊,龙刚,姜娟,刘松。情景记忆支配选择:基于rnn的决策任务强化学习模型。神经。(2021) 134:1-10。doi: 10.1016 / j.neunet.2020.11.003

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

43.Jordan ID, Sokół PA, Park IM。通过连续时间动力系统的透镜观察门控循环单元。Front Comput Neurosci。(2021) 15:678158。doi: 10.3389 / fncom.2021.678158

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

44.张震,程宏,杨涛。基于序列学习的柔性自适应决策递归神经网络框架。PLoS计算生物学。(2020) 16: e1008342。doi: 10.1371 / journal.pcbi.1008342

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

45.李勇,尹波,席华。部分可观察马尔可夫决策过程与绩效敏感性分析。IEEE传输系统人赛博恩B赛博恩。(2008) 38:1645-51。doi: 10.1109 / TSMCB.2008.927711

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

46.lilicrap TP, Santoro A.时间和大脑的反向传播。Curr Opin神经生物学。(2019) 55:82-9。doi: 10.1016 / j.conb.2019.01.011

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

47.潘X,范海华,佐和K,津田I,津田M,坂上M.灵长类动物前额叶和纹状体神经元的奖励推理。J >。(2014) 34:1380 - 96。doi: 10.1523 / jneurosci.2263 - 13.2014

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

48.Csete G, Bognár A, Csibri P, Kaposvári P, Sáry G.衰老改变猴子颞下皮层对物体和形状的视觉处理。Brain Res Bull。(2015) 110:76 - 83。doi: 10.1016 / j.brainresbull.2014.11.005

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

49.克罗默JA,罗伊JE,米勒EK。灵长类动物前额叶皮层中多个独立类别的表征。神经元。(2010) 66:796 - 807。doi: 10.1016 / j.neuron.2010.05.005

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

50.罗伊JE, Riesenhuber M, Poggio T, Miller EK。柔性分类过程中的前额皮质活动。J >。(2010) 30:8519-28。doi: 10.1523 / jneurosci.4837 - 09.2010

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

51.Engel TA, Chaisangmongkon W, Freedman DJ,王晓军。选择相关活动波动是神经元类别表征学习的基础。Nat Commun。(2015) 6:6454。doi: 10.1038 / ncomms7454

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

52.范例理论的神经解释。Psychol牧师。(2017) 124:472 - 82。doi: 10.1037 / rev0000064

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

53.谷氨酸突触:信息处理的复杂机制。Cogn Neurodyn。(2021) 15:757 - 81。doi: 10.1007 / s11571 - 021 - 09679 - w

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

54.王晓军,王晓军,王晓军,王晓军,等。混合选择性在复杂认知任务中的重要性。大自然。(2013) 497:585 - 90。doi: 10.1038 / nature12160

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

55.Goltstein PM, Reinert S, Bonhoeffer T, Hübener M.小鼠视觉皮层区域表征了学习视觉类别的知觉和语义特征。Nat >。(2021) 24:1441-51。doi: 10.1038 / s41593 - 021 - 00914 - 5

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

56.田中平,田中平,田中平。豚鼠恐惧和感觉条件反射诱导的多模态皮层关联。Cogn Neurodyn。(2022) 16:283 - 96。doi: 10.1007 / s11571 - 021 - 09708 - 8

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

57.韩东,王志强,王志强。基于递归神经网络的行为层次自组织研究。神经。(2020) 129:149 - 62。doi: 10.1016 / j.neunet.2020.06.002

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

58.马特拉,马特拉,马特拉。基于非监督学习和强化学习的分类感知研究。PLoS ONE。(2022) 17: e0267838。doi: 10.1371 / journal.pone.0267838

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

59.级联决策的随机神经网络内部期望强化学习。生物系统。(2001) 63:21-34。doi: 10.1016 / s0303 - 2647 (01) 00144 - 7

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

60.Chadderdon GL, Neymotin SA, Kerr CC, Lytton WW。运动皮层尖峰神经元模型中目标运动的强化学习。PLoS ONE。(2012) 7: e47251。doi: 10.1371 / journal.pone.0047251

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

61.李志强,李志强,李志强,李志强。强化学习在脑内分布中的作用。趋势>。(2020) 43:980 - 97。doi: 10.1016 / j.tins.2020.09.004

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

62.Bussey TJ, Wise SP, Murray EA.恒河猴腹侧和眶侧前额叶皮层在条理性视觉运动学习和策略使用中的作用(解剖).Behav >。(2001) 115:971 - 82。0735 - 7044.115.5.971 doi: 10.1037 /

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

63.帕辛厄姆RE,托尼I,拉什沃思MF。前额叶皮层的专门化:腹侧前额叶皮层和联想学习。Exp Brain Res。(2000) 133:103-13。doi: 10.1007 / s002210000405

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

64.严美美,蔡旭,王秀杰。将选择结果转化为猴子外侧前额叶皮层的行动计划:一个神经回路模型。神经元。(2019) 103:520 e5——32.。doi: 10.1016 / j.neuron.2019.05.032

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

65.O'reilly RC, Frank MJ。使工作记忆起作用:前额叶皮层和基底神经节学习的计算模型。神经第一版。(2006) 18:283 - 328。doi: 10.1162 / 089976606775093909

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

66.Hélie S,埃尔SW,阿什比FG。学习与基底神经节的强健皮质-皮质关联:一项综合综述。皮层。(2015) 64:123-35。doi: 10.1016 / j.cortex.2014.10.011

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

67.坎特维尔,李森胡贝尔,罗德尔,j。知觉范畴学习和视觉处理:计算认知神经科学的练习。神经。(2017) 89:31-8。doi: 10.1016 / j.neunet.2017.02.010

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

68.陈敏,刘峰,温玲,胡晓霞。CAN电流与Ca2+内流的非线性关系是毒蕈碱和NMDA受体在中脑多巴胺能神经元爆发诱导中的协同作用基础。Cogn Neurodyn。(2022) 16:719-31。doi: 10.1007 / s11571 - 021 - 09740 - 8

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

69.Daw ND, Gershman SJ, Seymour B, Dayan P, Dolan RJ。基于模型对人类选择和纹状体预测误差的影响。神经元。(2011) 69:1204-15。doi: 10.1016 / j.neuron.2011.02.027

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

70.王建新,Kurth-Nelson Z, Kumaran D, Tirumala D, Soyer H,雷波JZ,等。前额皮质是一个元强化学习系统。Nat >。(2018) 21:860-8。doi: 10.1038 / s41593 - 018 - 0147 - 8

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

71.阿维贝克B,欧多尔蒂JP。额纹状体回路的强化学习。神经精神药理学。(2022) 47:147 - 62。doi: 10.1038 / s41386 - 021 - 01108 - 0

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

72.Mckee JL, Riesenhuber M, Miller EK, Freedman DJ。前额叶和颞下皮层视觉和类别表征的任务依赖。J >。(2014) 34:16065 - 75。doi: 10.1523 / jneurosci.1660 - 14.2014

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

73.张志刚,张志刚。长短期记忆。神经第一版。(1997) 9:1735 - 80。doi: 10.1162 / neco.1997.9.8.1735

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

74.李丽萍,李志强,李志强,李志强。对双流假设的计算检验:哪个路径需要更长的内存?Cogn Neurodyn。(2022) 16:149 - 65。doi: 10.1007 / s11571 - 021 - 09703 - z

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

75.魏强,王磊,刘勇,王晓明。基于深度异步行为-批评学习的电梯群控制优化。IEEE跨神经网络学习系统。(2020) 31:5245-56。doi: 10.1109 / TNNLS.2020.2965208

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

76.Labao AB, Martija MAM,海军PC。A3C-GS:异步行为批判代理的锁的自适应矩梯度共享。IEEE跨神经网络学习系统。(2021) 32:1162 - 76。doi: 10.1109 / TNNLS.2020.2980743

《公共医学图书馆摘要》|CrossRef全文|谷歌学者

关键词:类别学习,刺激-刺激关联,循环神经网络,强化学习,奖励

引用:张勇,潘旭,王勇(2022)基于强化学习的循环神经网络分类学习。前面。精神病学13:1008011。doi: 10.3389 / fpsyt.2022.1008011

收到:2022年7月31日;接受:2022年10月10日;
发表:2022年10月25日。

编辑:

徐Lei西南大学,中国

审核:

申泉刘华南理工大学,中国
Xianfa娇中国合肥工业大学

版权©2022张、潘、王。这是一篇开放获取的文章,根据创作共用署名许可(CC BY)。在其他论坛上的使用、分发或复制是允许的,前提是原作者和版权所有者注明出处,并按照公认的学术惯例引用本刊上的原始出版物。不得使用、分发或复制不符合这些条款的内容。

*通信:Xiaochuan,pxc@ecust.edu.cn

下载