Q学習は強化学習の方策オフ型時間差分法の一つである。概念自体は古くから存在するが、Q学習(Q-learning)という名前で今日の手法がまとめられたのは、1989年のクリストファー・ワトキンズ(Christopher J.C.H. Watkins)の博士論文に端を発する。[1] TD学習は になるように学習させるが、Q学習はこれを に置き換えたものである。状態価値関数 の代わりに、行動価値関数 を使用する。 Q学習は有限マルコフ決定過程において全ての状態が十分にサンプリングできるようなエピソードを無限回試行した場合、最適な評価値に収束することが理論的に証明されている。実際の問題に対してこの条件を満たすことは困難ではあるが、この証明はQ学習の有効性を示す要素の一つとして挙げられる。 Q学習では実行するルールに対しそのルールの有効性を示す行動価値のQ値(Q-value)という値を持たせ、エージ