Multi-armed bandit 問題はSutton先生の "Reinforcement learning An introduction"で紹介される最初の問題である。 強化学習がどのような問題で有効的なのかを理解するのに適している。 問題の説明 Multi-armed bandit ( N-armed bandit ) では以下のシナリ…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。