https://youtu.be/p7tZ3Y8ZuLA?si=inJy10ARUJJZV9S2
내용
지난번의 DQN은 대표적인 가치 기반 에이전트(Value Based Agent)인 반면, A2C는 정책 기반 에이전트(Policy Based Agent)임
정책 기반 에이전트는 정책을 통해 학습함
정책 기반 에이전트의 필요성
가치 기반 에이전트는 이미 결정된 행동만 하여 유연한 대처 불가능
→ 정책 기반 에이전트는 확률 함수인 정책 함수를 통해 확률적 행동 선택을 하기 때문에 유연한 대처 가능
가치 기반 에이전트는 액션 공간이 연속적인 경우, 액션의 수가 무한하기 때문에 가치를 구하기 힘듦
→ 정책 기반 에이전트는 정책 학습 방법론으로서 상태가 주어진다면 액션을 바로 정해줌
숨겨진 정보가 있거나 환경 자체가 변하는 경우에 대해 유연한 대응 가능
Policy Gradient
정책 함수는 실제 정답이 없어 일반적인 방법으로 손실 함수를 정의할 수 없음
Gradient descent를 반대로 사용하여 정책의 그라디언트 값을 점점 키우는 것
목적 함수는 보상의 합으로 정의되지만 각 상태마다 얻는 보상 값이 달라지기에 기댓값 연산자가 필요함
보상의 기댓값이기 때문에 각 상태의 가치라고 볼 수 있음
David Silver Lecture 7
REINFORCE 알고리즘
리턴을 여러 개 모으면 Q(s,a)에 수렴하기 때문에 사용 가능
David Silver Lecture 7