中国黄茶网欢迎您! 设为主页|加入收藏|

黄茶节会

当前位置:中国黄茶网 >> 黄茶博物馆 >> 古今茶书 >> 内容阅读

赵地等老师译著:《强化学习》
18年08月23日  中国黄茶网(yyzzt.com)   作者: admin  浏览次数:

      《强化学习》是去年下半年到今年上半年中国科字院赵地老师和其他五位老师共同翻译的,主要介绍了强化学习的基本概念等,该书将很快面市。在翻译该书的过程中,赵地老师对强化学习的概念有了更加深入的理解,同时认为在研究深度强化学习时,强化学习的基本知识对研究工作也极为重要。

      通过这本书的目录,我们能够发现很多与强化学习相关的、有价值的信息,通过学习可以对强化学习的概念有更好的了解,该书后面的章节会谈到强化学习过程当中如何求解最佳算式的问题,同时也会提到很多强化应用案例,最多的案例是游戏的应用和机器的应用方面。从学习的角度来看,在众多强化学习的资料当中,该书向大家提供一个很好的强化学习解决方案。

      基于stanford大学feifei li教授的ppt,赵地老师对强化学习进行了深入浅出的介绍。赵老师介绍机器学习的三个方面分别是:非监督学习,监督学习,强化学习。其中,强化学习最新的概念是Agent,可以译为学习器,这是产生动作最主要的部分;另一个是Environment,其作用是针对Agent Action产生影响的信息来源,但还需要看Environment是有限的还是无限的。

    在强化学习算法设计应用的过程当中,有的Environment是有限的,例如:电脑游戏不管怎样变化,所有的信息都是通过电脑终端显示出来,所以通过分析电脑终端屏幕能够获得关于Environment的所有信息,这样对强化学习算法信息有很大帮助。也有Environment是无限的,例如:自动驾驶机器人没有办法把所有信息都通过传感器存取下来,因此强化学习算法无法获得足够的信息。无论是有限环境还是无限环境,最后都会形成一些更高级的方法,主体思路是:根据算法能够获得的信息设计相关的算法。

   再一个就是State,因为Environment是随着时间变化的信息流,在这种情况下,对于任何固定的时间,都要有一种State,也就是状态。Agent主要是根据State的情况,做出一个Action。因此在强化学习当中,Agent不停地和Environment交互,获得State信息,然后Take Action。Reward和State的反馈,指导Agent产生 Action,再作用于Environment,获得新的Reward和State以后又反馈给Agent,产生新的Action,直到整个过程完成为止。例如:想在车子运动的过程当中保持杆处于竖立状态,我们可以通过看State的定义,Action的定义,以及Reward的定义。通过三种定义能够理解相关过程的含义;在机器人运动的例子当中也可以运用同样的方法进行分析,来理解强化学习的过程。