强化学习的核心是在每个离散状态发现最优策略，以使期望的环境反馈奖赏和最大。( )|考算网题库

强化学习的核心是在每个离散状态发现最优策略，以使期望的环境反馈奖赏和最大。( )

（A）正确

（B）错误

参考答案

更多试题》》》