Tutorial 영상

목적

지난번의 DQN은 대표적인 가치 기반 에이전트(Value Based Agent)인 반면, A2C는 정책 기반 에이전트(Policy Based Agent)임

정책 기반 에이전트는 정책을 통해 학습함

정책 기반 에이전트의 필요성
- 가치 기반 에이전트는 이미 결정된 행동만 하여 유연한 대처 불가능
  
  → 정책 기반 에이전트는 확률 함수인 정책 함수를 통해 확률적 행동 선택을 하기 때문에 유연한 대처 가능
- 가치 기반 에이전트는 액션 공간이 연속적인 경우, 액션의 수가 무한하기 때문에 가치를 구하기 힘듦
  
  → 정책 기반 에이전트는 정책 학습 방법론으로서 상태가 주어진다면 액션을 바로 정해줌
- 숨겨진 정보가 있거나 환경 자체가 변하는 경우에 대해 유연한 대응 가능
Policy Gradient
- 정책 함수는 실제 정답이 없어 일반적인 방법으로 손실 함수를 정의할 수 없음
- Gradient descent를 반대로 사용하여 정책의 그라디언트 값을 점점 키우는 것
- 목적 함수는 보상의 합으로 정의되지만 각 상태마다 얻는 보상 값이 달라지기에 기댓값 연산자가 필요함
- 보상의 기댓값이기 때문에 각 상태의 가치라고 볼 수 있음
  
  David Silver Lecture 7
REINFORCE 알고리즘
- Policy Gradient의 가장 대중적으로 사용되는 알고리즘
- Q(s,a)는 미지의 값임
- 원래 Policy Gradient의 Q(s,a)대신에 리턴을 사용하여 연산
  - 리턴을 여러 개 모으면 Q(s,a)에 수렴하기 때문에 사용 가능
    
    David Silver Lecture 7