Tutorial 영상
https://youtu.be/jE6jNFrqwUE?si=8GwQodohP9ut-B6w
- 내용
- [00:00]~[00:26] 인트로
- [00:27]~[01:28] 강화 학습 용어 소개
- [01:28]~[02:04] ε-greedy 소개
- [02:04]~[03:21] DQN 소개
- [03:22]~[03:57] GridWorld 소개
- [03:58]~[04:21] 예제 환경 소개
- [04:22]~[05:19] 예제 코드 다운로드
- [05:19]~[08:40] 예제 코드 살펴보기
- [08:40]~[09:45] 예제 코드 학습 시키는
- [09:45]~[11:06] 예제 코드 테스트
- 정정 내용
목적
- DQN 이해
- DQN 코드 구현
- TensorBoard 사용법
강화학습 용어 설명
- 보상: 에이전트가 한 행동에 대한 평가 값
- 감쇠인자: 보상을 감소 시키는 인자
- 상태: t 시점의 환경에 대한 정보
- 리턴: 총 누적 보상
- 가치: 특정 상태나 상태-행동 쌍이 얼마나 좋은지 나타내는 수치