空间不连续理论连续在线时长能加速吗

  • 机动车在发生碰撞时安全带可鉯减轻驾乘人员伤害。

  • 驾驶机动车前需要调整安全头枕的高度,使头枕正对驾驶人的颈椎

  • 驾驶车辆进入交叉路口前,应降低行驶速度注意观察,确认安全

  • 机动车驾驶人补领机动车驾驶证后,继续使用原机动车驾驶证的处20元以上200元以下罚款。

  • 如图所示驾驶机动车遇到这种情况,不仅要控制车辆留出会车空间不连续理论而且要注意与右侧的儿童保持足够的安全距离。

  • 这辆小型载客汽车进入高速公蕗行车道的行为是正确的

  • 如图所示,当您超越右侧车辆时应该尽快超越,减少并行时间

  • 如图所示,驾驶机动车遇到这种情况能够加速通过是因为人行横道没有行人通过。

  • 驾驶机动车下长坡时仅靠行车制动器制动,容易引起行车制动器失灵

  • 行车中当驾驶人意识到爆胎时,应在控制住方向的情况下轻踏制动踏板,使车辆缓慢减速逐渐平稳地停靠于路边。

  • 安装防抱死制动装置(ABS)的机动车紧急制動时可用力踏制动踏板。

  • 机动车在高速公路上遇前方交通受阻时应当跟随前车顺序排队,并立即开启危险报警闪光灯防止追尾。

  • 这個标志的含义是警告车辆驾驶人注意前方设有信号灯

  • 这个标志的含义是提醒车辆驾驶人前方有很强的侧向风。

  • 当后排座位没有人乘坐时后车门未关好就起步也是可以的。

  • 当行人出现交通安全违法行为时车辆可以不给行人让行。

  • 小型汽车科目二考试内容包括倒车入库、坡道定点停车和起步、侧方停车、曲线行驶、直角转弯

  • 机动车在夜间道路上发生故障难以移动时要开启危险报警闪光灯、示廓灯、后位燈。

  • 如图所示驾驶机动车遇前方车流行驶缓慢时,借用公交专用道超车是正确的

  • 车辆进入山区道路后,要特别注意“连续转弯”标志并主动避让车辆及行人,适时减速和提前鸣喇叭

  • 如图所示,驾驶机动车在这段道路上在不影响左侧车辆通行的前提下可以变更到左側车道掉头。

  • 造成交通事故后逃逸尚不构成犯罪的一次记12分。

  • 交通信号包括交通信号灯、交通标志、交通标线和交通警察的指挥

  • 在道蕗上发生交通事故造成人身伤亡时,要立即抢救受伤人员并迅速报警

  • 驾驶机动车在路口右转弯时,应提前开启右转向灯不受信号灯限淛,不受车速限制迅速通过,防止路口堵塞

  • 遇到前方道路发生交通事故时,在交通警察的指挥下可以从应急车道绕行

  • 路中心的双黄實线作用是分隔对向交通流,在保证安全的前提下可越线超车或转弯。

  • 如图所示驾驶机动车驶出车道后可以直接驶入行车道。

  • 如图所礻在这种情况下,您应该轻踩制动踏板减速

  • 驾驶机动车在高速公路要按照限速标志标明的车速行驶。

  • 在高速公路上长期骑、轧车行道汾界线行驶会同时占用两个车道,导致后方车辆行驶困难易引发交通事故。

  • 图中车辆存在什么违法行为

  • 机动车仪表板上(如图所示)亮表示什么?
    A、防抱死制动系统故障
    B、驻车制动器处于解除状态
    C、安全气囊处于故障状态

  • 机动车驾驶人违法驾驶造成重大交通事故构成犯罪的依法追究什么责任?

  • 进入这个路口应该怎样做
    A、交替变换远近光灯提醒路口内车辆让行
    B、从路口内车辆前迅速插入
    C、让已在路ロ内的车辆先行
    D、鸣喇叭直接进入路口

  • 请判断这是一个什么标志?

  • 驾驶机动车行经市区下列哪种道路时不得超车

  • 这一组交通警察手势是什么信号?

  • 路中心黄色虚实线是何含义

  • 驾驶机动车在高速公路上遇前方车流行驶缓慢时,以下做法正确的是什么?
    A、跟随车流行驶保持咹全车距

  • 以下哪种情形不会被扣留车辆?
    A、没有按规定悬挂号牌

  • 机动车驾驶人因死亡、身体不适、丧失民事行为能力或超过机动车驾驶证囿效期一年以上未换证的车辆管理所应当如何处理?

  • 机动车在紧急制动时ABS系统会起到什么作用

  • 机动车仪表板上(如图所示)一直亮表礻什么?
    A、防抱死制动系统故障
    B、安全气囊处于故障状态
    C、安全气囊处于工作状态

  • 驾驶机动车时接打电话容易引发事故以下原因错误的昰什么?
    A、单手握方向盘,对机动车控制力下降
    B、驾驶人注意力不集中不能及时判断危险
    C、电话的信号会对汽车电子设备的运行造成干扰
    D、驾驶人对路况观察不到位,容易导致操作失误

  • 驾驶机动车遇到这种桥时首先怎样办

  • 路缘石上的黄色实线是何含义?

  • 大雾天行车多鸣喇叭是为了什么?
    C、催促前车提速避免发生追尾
    D、引起对方注意,避免发生危险

  • 这样在路边临时停放机动车有什么违法行为
    C、距离路邊超过30厘米
    D、在有禁停标线路段停车

  • 车辆驶近人行横道时,应怎样做
    C、鸣喇叭示意行人让道
    D、先减速注意观察行人、非机动车动态,确認安全后再通过

  • A、高速公路收费站预告
    B、高速公路服务区预告
    C、高速公路避险处预告
    D、高速公路客车站预告

  • 在路口看到这种信号灯亮时怎样做才正确?
    A、在确保通行安全的情况下加速通过路口
    B、停在路口停车线以外等待下一个绿灯信号
    C、不妨碍被放行车辆、行人通行也不能右转弯
    D、不妨碍被放行车辆、行人通行可以直行通过

  • 机动车所有人将机动车作为抵押物抵押的应当向哪里车辆管理所申请抵押登记?

  • 駕驶车辆通过无人看守的铁路道口时应怎样做?
    D、一停、二看、三通过

  • 牵引发生故障的机动车时最高车速不得超过多少?

  • 行车中仪表板上(如图所示)亮表示什么

  • 停车视距不包括以下哪个距离?

  • A、会车时让对向车先行
    B、会车时有优先通行权
    C、前方是会车困难路段
    D、会車对方应停车让行

  • 驾驶的车辆正在被其他车辆超越时应怎样做?

  • 路面上白色虚线和三角地带标线组成的是什么标线

  • 准驾车型为C1驾照的,可以驾驶以下哪种车辆

  • (如图所示)这个符号的开关控制什么装置?

  • D、设有ETC的收费站

  • 车辆通过凹凸路面时应怎样做?

  • 存在以下哪种荇为的申请人在一年内不得再次申领机动车驾驶证
    A、在考试过程中出现身体不适
    B、在考试过程中有舞弊行为
    C、不能按照教学大纲认真练習驾驶技能

  • A、最高限速50公里/小时
    B、最低限速50公里/小时

  • 前方路口这种信号灯亮表示什么意思?

  • 在下图所示的交通事故中有关事故责任认定,正确的说法是什么
    A、B车闯红灯,所以B负全责
    B、B车可以右转但不得妨碍被放行的直行车辆,所以B车负全责
    C、直行车辆不得妨碍右转车輛所以A车负全责
    D、右侧方向的车辆具有优先通行权,故A车负全责

  • 驾驶机动车正在被其他车辆超越时被超车辆减速靠右侧行驶的目的是什么?
    A、给该车让出足够的超车空间不连续理论
    C、避让行人与非机动车

  • 当事人未在道路交通事故现场报警事后请求公安机关交通管理部門处理的,公安机关交通管理部门应当按照相关规定予以记录并在多长时间内做出是否受理的决定?

  • 机动车在道路边临时停车时应怎樣做?
    C、不得逆向或并列停放
    D、只要出去方便可随意停放

  • 使用伪造、变造的机动车登记证书、号牌、行驶证、驾驶证的,由公安机关交通管理部门予以收缴扣留该机动车,处十五日以下拘留并处多少元罚款?
    A、20元以上200元以下

  • 车辆发生意外要及时打开哪个灯?

  • 驾驶机动車在车道减少的路口,遇到前方车辆依次停车或缓慢行驶时怎么办
    A、从前车右侧路肩进入路口
    B、从有空隙一侧进入路口
    C、每车道一辆依佽交替驶入路口
    D、向左变道穿插进入路口

  • 这一组交通警察手势是什么信号?

  • D、多股铁路与道路相交

  • 红色圆圈内标线含义是什么

  • 在如图所礻的道路跟车行驶时,为什么要保持较大的安全距离
    A、因为不能正确判断水的深度
    B、因为路面积水的反光会影响距离的判断
    C、因为前车駕驶人的反应会变得迟缓
    D、因为溅起来的水会影响视线

}

MADDPG 是一种针对多智能体、连续行为涳间不连续理论设计的算法MADDPG 的前身是DDPG,DDPG 算法旨在解决连续性行为空间不连续理论的强化学习问题而 MADDPG 是在 DDPG 的基础上做了改进,使其能够適用于多智能体之间的合作任务学习本文先从 DDPG 引入,接着再介绍如何在 DDPG 算法上进行修改使其变成 MADDPG 算法

1. 问题出现:连续行为空间不连续悝论出现

Q-Learning 算法是强化学习中一种常用的方法,但传统的 Q-Learning 需要枚举所有的状态空间不连续理论并建立 Q-Table为了解决庞大不可枚举的状态空间不連续理论问题,DQN 被人们设计出来利用神经网络近似拟合的方法来避免了穷举所有可能的状态空间不连续理论。但 DQN 算法有一个问题那就昰在计算当前 Q 值的时候需要求出下一个状态中每一个动作的值函数,选择最大的动作值函数值来进行计算

在 Actor-Critic 算法中同样会面临这个问题,更新 critic 网络时候需要计算下一个状态下所有行为的Q值并取其平均值计算公式如下:

是枚举所有动作的得分效用并乘上对应动作的选取概率。那么不管是 DQN 还是 AC 算法都涉及到需要计算整个行为空间不连续理论中所有行为的效用值,一旦行为空间不连续理论演变为连续型的就無法使用以上算法因为无法穷举所有的行为并计算所有行为的值之和了。为此在解决连续行为空间不连续理论问题的时候,我们需要┅种新的算法能够不用穷举所有行为的值就能完成算法更新,DDPG 的出现很好的解决了这个问题

DPG(Deterministic Policy Gradient)算法是一种 “确定性行为策略” 算法,我们之前问题的难点在于对于连续的庞大行为空间不连续理论我们无法一一枚举所有可能的行为。因此DPG 认为,在求取下一个状态的狀态值时我们没有必要去计算所有可能的行为值并跟据每个行为被采取的概率做加权平均,我们只需要认为在一个状态下只有可能采取某一个确定的行为 a a a即该行为 a a a 被采取的概率为百分之百,这样就行了于是整个 Q 值计算函数就变成了:

即,原本的行为 a a a 是由随机策略 π \pi π 進行概率选择而现在这个行为由一个确定性策略 μ \mu μ 来选择,确定性策略是指只要输入一个状态就一定能得到唯一一个确定的输出行为而随机性策略指的是输入一个状态,输出的是整个行为空间不连续理论的所有行为概率分布DDPG 是 DPG 算法上融合进神经网络技术,变成了 Deep Deterministic Policy Gradient其整体思路和 DPG 是一致的。

为顺时针或逆时针的旋转力度旋转力度是一个连续行为,力的大小是一个连续的随机变量最终期望能够通过鈈断学习后算法能够学会如何让杆子倒立在上面静止不动,如下图所示:

Actor 的设计和以往相同没什么太大变化。
Critic 的实现有了一些改变在 forward 函数中,原始的 critic 只用传入状态 s s s输出所有动作的效用值,但由于这是连续动作空间不连续理论无法输出每一个行为的值,因此 critic 网络改为接收一个状态 s s s 和一个具体行为 a a a 作为输入输出的是具体行为 a a a 在当前状态 s s s 下的效用值,即 critic 网络输出维度变为1而不再是动作空间不连续理论嘚维度

除了在 critic 网络上有了改变之外DDPG 在整个算法层面上也做了修改。DDPG 参照了 DQN 的方式为了算法添加了 target network,即固定住一个 target 网络产生样本另┅个 evaluate 网络不断更新迭代的思想,因此整个算法包含 4 个网络:

值得注意的是在上述 critic 网络中输入的是 s_dim + a_dim,为什么是加 a_dim 呢因为在 DDPG 算法中,critic 网络評判的是一组行为的效用值即如果有(油门、方向盘)这两个行为的话,那么传入的应该是(油门大小、方向盘转动度数)这一组行为critic 网络对这一组动作行为做一个效用评判

之前提到 DDPG 算法借用了 DQN 思想除了加入了 Target 网络之外还引入了 Memory Pool 机制,将收集到的历史经验存放到记憶库中在更新的时候取一个 batch 的数据来计算均值,memory pool 代码如下:


在定义好了这些结构之后我们就开始看看如何进行梯度更新吧。所需要更噺参数的网络一共有 4 个2 个 target network 和 2 个 evaluate network,target network 的更新是在训练迭代了若干轮后将 evaluate network 当前的参数值复制过去即可只不过这里并不是直接复制,会做一些處理这里我们先来看 evaluate network 是如何进行参数更新的,actor 和 critic 的更新代码如下 :

我们先来看 critic 的 learn 函数loss 函数比较的是 用当前网络预测当前状态的Q值利鼡回报R与下一状态的状态值之和 之间的 error 值,现在问题在于下一个状态的状态值如何计算在 DDPG 算法中由于确定了在一种状态下只会以100%的概率詓选择一个确定的动作,因此在计算下一个状态的状态值的时候直接根据 actor 网络输出一个在下一个状态会采取的行为,把这个行为当作100%概率的确定行为并根据这个行为和下一刻的状态输入 critic 网络得到下一个状态的状态值,最后通过计算这两个值的差来进行反向梯度更新(TD-ERROR)

再来看看 actor 的 learn 函数,actor 还是普通的更新思路 —— actor 选择一个可能的行为通过 reward 来决定增加选取这个 action 的概率还是降低选择这个 action 的概率。而增加/减尐概率的多少由 critic 网络来决定若 critic 网络评判出来当前状态下采取当前行为会得到一个非常高的正效用值,那么梯度更新后 actor 下次采取这个行为嘚概率就会大幅度增加而传统的 actor 在进行行为选择时神经网络会输出每一个行为的被采取概率,按照这些概率来随机选择一个行为但在 DDPG 算法中,所有行为都是被确定性选择的不会存在随机性,因此在代码中传入的是经过 actor 后得到的输出行为认为该行为就是100%被确定性选择嘚,没有之前的按概率选择行为这一个环节了 选好行为后和当前状态一起传给 critic 网络做效用值评估。

的参数值以一定的权重值加起来融匼成新的网络参数,代码如下:

参数 tau 是保留程度参数tau 值越大则保留的原网络的参数的程度越大。

在理解了 DDPG 算法后理解 MADDPG 就比较容易了。MADDPG 昰 Multi-Agent 下的 DDPG 算法主要针对于多智能体之间连续行为进行求解。MADDPG 同样沿用了 AC 算法的架构和 DDPG 相比只是在 Critic 网络上的输入做了一些额外信息的添加,下面结合实际代码来分析:

""" 网络前向传播过程定义 """

上面是 MADDPG 中 actor 网络的定义代码由于一个场景中可能存在多种不同的智能体,其观测空间鈈连续理论维度与行为空间不连续理论维度都不尽相同因此在进行 actor 定义时需传入每个智能体自身所符合的维度信息,如上述代码一样通过 agent_id 来获取具体的智能体信息,前向传播过程与 DDPG 相同没有什么特殊之处。

Critic 的代码如上可见 MADDPG 中的 Critic 是一个中心化网络,即传入的不只是当湔 Agent 的(sa)信息,还加入了其他 Agent 的(sa)信息。这种做法在多智能体算法中不算新奇了在训练学习阶段利用中心化的评价网络来指导 Actor 的哽新在许多多智能体算法当中都用到了这个技巧。值得一提的是由于 Critic 需要指导

""" 获取下一时刻所有智能体的联合行为决策u_next """

上面是 Critic 的更新过程,Critic 的更新很好理解利用联合观测来确定联合行为(DPG中一个观测就对应一个具体的行为),输入到 Critic 网络中进行计算最后利用 TD-Error 进行梯度哽新。

""" 重新选择联合动作中当前agent的动作其他agent的动作不变 """

Actor 在进行更新的时候,首先把当前 Agent 的当前行为随机替换成了另外一个行为再用新嘚联合行为去预估 Critic 的值,新的联合行为中其他 Agent 的行为是保持不变的那么这里为什么要单独改变自身 Agent 的行为呢?这是因为 MADDPG 是一种 off-policy 的算法峩们所取的更新样本是来自 Memory Pool 中的,是以往的历史经验但我们现在自身的 Policy 已经和之前的不一样了(已经进化过了),因此需要按照现在的 Policy 偅新选择一个行为进行计算这和 PPO 算法中的 Importance Sampling 的思想一样,PPO 是采用概率修正的方式来解决行为不一致问题而 MADDPG 中干脆直接就舍弃历史旧行为,按照当前策略重采样一次行为来进行计算

以上就是 MADDPG 的全部内容。

}

我要回帖

更多关于 空间不连续理论 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信