登录  注册

首页

强化学习的核心是在每个离散状态发现最优策略,以使期望的环境反馈奖赏和最大。( )

(A)正确

(B)错误

参考答案

更多试题》》》