https://github.com/Unity-Technologies/ml-agents
영상 날짜 : 2021.07.08
강화학습 사례
강화학습을 이용하여 칩 배치의 품질을 최적화 → TPU 설계에 실제 적용
기존에 사람이 수행할 때에는 몇 주씩 걸리던 업무를 6시간 이내에 수행
강화학습을 위해 왜 시뮬레이션이 필요한가?
Unity ML-Agents는 다양한 학습 방식 지원
ML-Agents 2.0
ML-Agents 2.0
ML-Agents 2.0의 신기능
Training cooperative behaviors
일반적인 강화학습의 경우 하나의 환경에 하나의 에이전트가 존재
→협동하는 에이전트를 학습할 수 있는 가능을 제공
-다수의 에이전트가 서로 협력하거나 경쟁하도록 학습
-환경 : Cooperative Push Block, Dungeon Escape
Observing varying numbers of entities
일반적인 강화학습 알고리즘의 경우 입력의 수가 동일해야 함
→Attention 기법 사용
-Transformer알고리즘(자연어 처리 사용된 알고리즘)을 사용
-문장 안에서 단어 사이의 중요도를 도출
-구조적으로 문장의 길이(입력의 수)가 달라져도 학습 가능
-입력의 길이가 달라져도 학습이 가능
-단어들 간의 중요도 도출 가능
-Vision Transformer, Detection Transformer, Image GPT, Bullet, Sorter
Task parameterization : One model to rule them all
일반적인 강화학습의 경우 주로 하나의 모델이 하나의 업무를 학습하고 필요에 따라 특정 모델을 사용
→ HyperNetwork라는 모델을 사용하여 단일 모델이 여러 업무를 학습할 수 있도록 제공
-하나의 모델로 여러 업무를 학습시키는 경우 메모리를 아끼는 등의 장점이 있음
-환경 : Wall Jump+Push Block,
ML-Agents 의 추가 사항
클라우드 사용 과정
-ML-Agents를 사용하여 빌드한 환경을 업로드
-여러 학습을 동시에 실행하여 빠른 학습이 가능하도록 함
Multi-agent Scenarios-링크