强化学习/机器人学经典-策略规划算法原理-白红宇的个人博客

发布日期：2021-06-30 22:45:15 浏览次数：2 分类：技术文章

本文共 658 字，大约阅读时间需要 2 分钟。

本书介绍

由于机器人学、人工智能和控制理论领域的许多令人兴奋的发展，三个曾经截然不同的主题现在正处于碰撞过程中。在机器人学中，运动规划最初关注的问题是如何在不撞击任何物体的情况下将钢琴从一个房间移动到另一个房间。然而，该领域已经发展到包括诸如不确定性、多重主体和动态规划等复杂情况。在人工智能中，规划（Planning）最初意味着搜索一系列逻辑运算符或动作，将初始世界状态转换为期望的目标状态。目前，规划超越了这一点，包括许多决策理论的想法，如马尔可夫决策过程，不完善的状态信息，博弈论均衡。

本获取：

尽管控制理论传统上一直关注稳定性、反馈和最优性等问题，但人们对设计为非线性系统找到可行开环轨迹的算法越来越感兴趣。在一些工作中，术语“运动规划”已经被应用，与它在机器人学中的使用有不同的解释。因此，尽管每个人最初都考虑不同的问题，机器人学、人工智能和控制理论的领域已经扩大了它们的范围，以分享一个有趣的共同点。

在本文中，我使用广义的规划一词，它包含了这个共同点。然而，这并不意味着这个术语意味着涵盖机器人学、人工智能和控制理论领域的所有重要内容。该演示侧重于与规划相关的算法问题。在机器人学中，重点是设计算法，通过处理复杂的几何模型来产生有用的运动。在人工智能中，重点是设计使用决策理论模型来计算适当动作的系统。在在本文中，两者都指某种决策，没有“高”或“低”水平的相关概念。可以开发一种分级方法，任何一个级别都可以称为“计划”或“控制”，没有任何意义上的区别。

本书目录