基于多智能体深度强化学习的交叉路口决策方法

文档序号:36975499发布日期:2024-02-07 13:27阅读:34来源:国知局
基于多智能体深度强化学习的交叉路口决策方法

本发明涉及无人驾驶,具体是一种基于多智能体深度强化学习的交叉路口决策方法。


背景技术:

1、汽车成为了公民日常生活中不可或缺的代步工具,随着机动车数量的大幅增加,城市的拥堵情况以及交通事故发生概率也随之增加。随着人工智能的发展,无人驾驶的发展成为了研究的热点。相较于人类驾驶,无人驾驶技术具有提高交通的通行效率,减少交通事故的发生率,以及节约人力资源等优势。现阶段无人驾驶技术处于辅助驾驶阶段,目前市面上的大部分汽车都配备了相关功能,民众也逐渐接受辅助驾驶功能,但实现高级别的无人驾驶仍有很大的挑战。

2、目前高级别的无人驾驶车辆或者完全无人驾驶车辆仅限于在特定场景进行测试运行,在日常城市道路中,高级别的无人驾驶车辆没办法很好的推进。日常城市道路中,例如十字交叉路口场景,场景复杂,环境的随机性较大,无人驾驶车辆需要预测其规划路径中每个可能发生碰撞的社会车辆,与社会车辆进行不断的交互,并做出有效安全的决策动作。此外由于十字路口交叉场景车辆较多,路口车辆的行驶轨迹不同,因此交叉路口的通行效率也十分重要。现有的方法都以单个智能体为主,且实现的场景较为单一。由于十字路口交通场景较为复杂,交通流的可能性较多,单智能体只能考虑对单个车辆的决策控制,容易产生交通拥堵和碰撞的可能。面对车流量较大的情况,单智能体车辆缺乏协作性,并且无法根据场景的变化灵活应变,如何实现无人驾驶车辆高效安全的通过交叉路口场景一直都是学术和工程研究的热点。所以如何能够提供一种提升多个智能体车辆在交叉路口动作协作性的方法成为亟待解决的问题。


技术实现思路

1、本发明提供一种基于多智能体深度强化学习的交叉路口决策方法,用以解决现有技术多个智能体车辆在交叉路口动作协作性低的问题。

2、为了实现上述目的,本发明技术方案提供了一种基于多智能体深度强化学习的交叉路口决策方法,包括:搭建无信号灯交叉路口场景、设计基于多智能体车辆的状态空间及各自智能体车辆的动作空间。根据多智能体车辆的状态空间及各自智能体车辆的动作空间构建奖励函数。对多智能体车辆的状态空间及各自智能体车辆的动作空间进行观察,对观察结果(环境信息与当下的社会车辆相对于所述多智能体车辆的相对位置信息、相对速度信息)采用深度神经网络进行学习,以此过滤无效数据,从而得到完整的多智能体状态信息。根据当前所述多智能体车辆的状态空间及各智能体车辆的动作空间以及当前奖励函数,再结合所述多智能体车辆的下一状态空间及各智能体车辆的下一动作空间及包含噪声的动作期望分别输入具有两个critic双重网络的学习网络,从而对当前无信号灯交叉路口的多智能体车辆的动作进行学习。其中,一个critic双重网络用于向另一个critic双重网络输入迭代信息。

3、作为上述技术方案的优选,较佳的,设计基于多智能体车辆的状态空间及各自智能体车辆的动作空间,包括:定义每个智能体车辆的状态空间及其维度,所述维度中包括所述智能体车辆观察到的社会车辆及此社会车辆的状态特征。对每个智能体车辆的状态空间进行笛卡尔运算,得到多智能体车辆的状态空间。定义每个智能体车辆的动作空间,所述动作空间包括加速,减速,转角三个动作。

4、作为上述技术方案的优选,较佳的,在得到所述多智能体车辆的状态空间之后,还包括,对所述状态空间进行优化,包括:将多智能体车辆的当前状态、位置状态和速度状态分别输入两个lstm层中,所述两个lstm层分别对上述观测数据在全链层进行处理,输出固定大小的输出向量输入各自对应的actor网络或critic网络中,使得所述actor网络和所述critic网络在更新频率不同的情况下能够稳定学习。

5、作为上述技术方案的优选,较佳的,在actor网络接收所述输出向量后,将其传递到softmax层,在softmax层进行向量映射,根据映射结果得到的所述多智能体车辆不同动作的概率,从而得到所述多智能体车辆的有效动作。

6、作为上述技术方案的优选,较佳的,根据多智能体车辆的状态空间及各自智能体车辆的动作空间构建奖励函数,包括:根据碰撞估计、速度估计、车头时距估计以及到达成本估计及相应的加权标量构建奖励函数:

7、ri,t=wcrc+wsrs+whrh+were

8、其中,ri,t为时间步长t处第i个代理的奖励,wc,ws,wh,we分别对应于碰撞估计rc、速度估计rs、车头时距估计rh,以及到达成本re的加权标量;其中,到达成本估计用于止在交叉路口智能体车辆出现盲目等待,避免程序锁死。

9、作为上述技术方案的优选,较佳的,td3模型为改进的matd3决策算法,具体的,所述td3模型是由,一用于学习所述多智能体车辆动作的学习网络和一延迟更新网络组成的双重网络。学习网络的组成如下,所述多智能体的当前状态空间输入actor网络中,此actor网络将探索得到的所述多智能体车辆的有效动作所述多智能体车辆的状态空间结合后输入学习网络的误差更新网络中,所述误差更新中的双重critic网络根据第一目标值和所述延迟更新网络输出的所述迭代信息对多智能体车辆的动作进行学习。延迟更新网络的组成如下,所述多智能体的下一状态空间输入actor网络中,此actor网络将探索得到的所述多智能体车辆在下一状态空间的动作经平滑正则化处理,处理结果输入所述延迟更新网络中的双重critic网络,此双重critic网络向所述学习网络输出所述迭代信息。

10、作为上述技术方案的优选,较佳的,误差更新中的双重critic网络对所述奖励函数进行数据处理得到两个第一目标值,取较小第一目标值,较小的第一目标值用于接收所述迭代信息。

11、作为上述技术方案的优选,较佳的,误差更新中的双重critic网络通过接收所述延迟更新网络输出的所述迭代信息对多智能体车辆的动作进行学习,包括:将所述迭代信息中的奖励回报和下一回合多智能体车辆的状态,与当前多智能体车辆的状态和动作存储到经验回放池;对经验回放池进行采样,获取到多智能体车辆的最优动作策略和目标估计;更新softmax层中的策略参数,更新所述延迟更新中双重critic网络中的动作期望;其中,动作期望是根据所述奖励函数得到的。

12、本发明技术方案提供了一种基于多智能体深度强化学习的交叉路口决策方法,通过搭建无信号灯交叉路口场景、设计基于多智能体车辆的状态空间及各自智能体车辆的动作空间;根据所述多智能体车辆的状态空间及各自智能体车辆的动作空间构建奖励函数;对环境信息与当下的社会车辆相对于所述多智能体车辆的相对位置信息,相对速度信息进行处理,得到完整的多智能体状态信息;根据当前所述多智能体车辆的状态空间及各智能体车辆的动作空间以及当前奖励函数,再结合所述多智能体车辆的下一状态空间及各智能体车辆的下一动作空间及包含噪声的动作期望分别输入具有两个critic双重网络的td3模型,从而对当前无信号灯交叉路口的多智能体车辆的动作进行学习。

13、本发明的优点是通过对深度神经网络模型进行改进,优化了动作探索的过程,减低对无效动作的探索过程,增强决策模型的鲁棒性。通过引入lstm网络,以距离递减的顺利提供观察向量,确保最接近的智能体对最终状态的影响增大,以此来增加模型在复杂场景下的性能,降低模型的训练难度。通过设计多约束的奖励函数,根据场景的多样性进行设计,从而能够实现各智能体车辆在不同场景下的动作进行预测,增加模型方法在复杂场景下的泛化能力。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1
imtoken助记词怎么填-imtoken钱包没有收益-imtoken矿工费太贵了-im钱包官网:token.im