如何种西瓜?
收获后才知道种出的瓜好不好【好瓜是辛勤种植的奖赏】
难以判断当前操作对最终操作的影响
这种过程的抽象
奖赏:在转移到另一个状态时,根据潜在的奖赏函数R反馈给机器一个奖赏,如健康+1,凋零-10
根据这个策略,在状态x下就能得知要执行的动作\(a=\pi(x)\)
【2】概率表示:\(\pi: X \times A \longmapsto R\),随机性策略表示,当前状态x下选择动作a的概率
模型形式无差异
最大化单步奖赏:
通过尝试发现各个动作产生的结果
单步强化学习:
赌徒目标:通过一定的策略最大化自己的奖赏
每个状态-动作的累计奖赏采样值求和取平均,得到状态-动作值函数的估计
转换:是难题
缓解:直接模仿人类专家的“状态-动作对”