ここでは強化学習のイメージを得るために、極めて単純化した例を用いて実際にSARSAとQ学習の計算過程を示すこととする。 以下に図示するように、左右に動き状態S₁~S₄を遷移するエージェントと各状態に辿り着くたびに記載された報酬を与える環境を ...