Reinforcement Learning | Nakatsuka Shunsuke

Deep Q Network

強化学習の目的変数の定義 $\mathcal{S}$ : 状態の集合 $\mathcal{A}$ : 行動の集合 $P_T(s _ {t+1} | s_t, a_t)$ : 状態$s_t$で行動$a_t$をしたときにに，状態$s_{t+1}$に遷移