机器人pomdp导航matlab仿真,基于单链序贯回溯Q学习的移动机器人路径规划算法专利_专利查询 - 天眼查...
发布日期:2021-06-24 11:54:35 浏览次数:2 分类:技术文章

本文共 1026 字,大约阅读时间需要 3 分钟。

1. 一种基于单链序贯回溯Q学习的移动机器人路径规划算法,其特征是: 使用栅格法表示二维环境,每块环境区域都对应一个离散的位置表示,移动机器人在 某一时刻的状态就表示为机器人所在环境位置,按照移动机器人顺序通过的环境位置依次 排列,形成移动机器人的状态单链,移动机器人的每一步搜索,都以非确定性马尔科夫决策 过程的Q-学习迭代公式为基础,从单链的末端即当前状态的Q值开始逐步序贯回溯到单链 的首端即初始位置的Q值,直到到达目标位置,移动机器人循环往复地从初始位置开始寻 找到达目标位置的路径,在搜索的每一步按照上述步骤,不断迭代和优化状态的Q值,直到 收敛为止;具体步骤如下: (1) 建立状态单链: 在每一 t时刻,为移动机器人记忆矩阵M(t)增加一行M(t) - [st,at,rt, XJ,其中St 表示机器人的当前状态,当前状态就是机器人所在位置的坐标,st = [xt,yt],at表示在当前 状态下执行的动作,包括向上、向下、向左、向右、静止五个动作,分别表示为[〇, 1],[〇,-ι], [-1,0], [1,0],[0, 0],动作集合表示为A,当前状态st与五个动作构成五个状态-动作对, 每一个状态-动作对对应一个Q值Q(s,a),所有的Q(s,a)初始化为零,并根据步骤(2)中的 迭代更新公式进行更新,根据贪婪策略选择动作at,即选择满足A =a!"gmax 丨 ak[A 也就是选择与当前状态st构成的五个状态-动作对的Q值最大的动作作为at,st+1表示执 行动作at后下一时刻状态值,rt表示对动作at奖励值,如果执行a t后的下一个坐标上有障 碍物,则机器人下一时刻状态st+1仍为st的坐标值,奖励值r t = -0. 2 ;如果执行at后的下 一个坐标上没有障碍物,则st+1为该坐标,奖励值r t = -0. 1 ;如果执行at后的下一个坐标 是目标位置即终点,则奖励值rt = l;Ate (〇,1)表示学习率,只要Ate (〇,1),经过有限 次迭代,Q-学习算法一定能够收敛于最优解;从初始时刻t = 0到当前时刻t = η,所有的 状态依序构成一个状态单链; (2) 序贯回溯迭代: 在t+Ι时刻,记忆矩阵M(t)增加一行新内容[st+1,at+1,rt+1,λ t+1],并根据记忆矩阵中存 储的状态链,用Q-学习迭代公式进行序贯回溯迭代更新: 对于 k = t, t-1, t-2,…,1,0,执行:

转载地址:https://blog.csdn.net/weixin_32601635/article/details/116468763 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:oracle怎么判断是裸设备安装,windows 下安装oracle,如何建立裸设备(单机,非做RAC)...
下一篇:联通vac订购关系web接口php代码,联通sp对接填坑备忘

发表评论

最新留言

路过,博主的博客真漂亮。。
[***.116.15.85]2024年04月02日 21时10分08秒

关于作者

    喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!

推荐文章