티스토리 뷰

공부

Multi-armed Bandit

승가비 2022. 7. 20. 00:25
728x90

https://brunch.co.kr/@chris-song/62

 

멀티 암드 밴딧(Multi-Armed Bandits)

심플하고 직관적인 학습 알고리즘 | 강화학습의 정통 교과서라할 수 있는 Sutton 교수님의 Reinforcement Learning : An Introduction 책을 읽어보자. 챕터 1에서는 앞으로 다룰 내용에 대한 개요가 나오며, 챕

brunch.co.kr

https://towardsdatascience.com/beyond-a-b-testing-multi-armed-bandit-experiments-1493f709f804

 

Beyond A/B Testing: Multi-armed Bandit Experiments

An implementation of Google Analytics’ stochastic k-armed bandit test with Thompson sampling and Monte Carlo simulation

towardsdatascience.com

https://jyoondev.tistory.com/137

 

강화학습 - (4) UCB

강화학습 예측속의 불확실성 (Uncertainty in Estimates) UCB는 탐색(exploration)에 사용되는 기법 중 하나로 밴딧 문제를 해결하는 논문들에 많이 나온다. 이 기법은 강화학습의 예측에서의 불확실성을 해

jyoondev.tistory.com

 

728x90

'공부' 카테고리의 다른 글

[Presto] DATE_ADD, DATE_DIFF  (0) 2022.07.20
[Spring] @ConditionalOnProperty  (0) 2022.07.20
Entity, DAO, DTO가 무엇이며 왜 사용할까?  (0) 2022.07.20
[kotlin] methodName & className  (0) 2022.07.19
[Gitlab] SQL Style Guide  (0) 2022.07.19
댓글