ML-Agents

ML-Agents 1.0

https://github.com/Unity-Technologies/ml-agents

Dev Weeks: Unity ML-Agents 1.0 살펴보기

ML-Agents 2.0

[Dev Weeks 2021] Day 9: ML Agent 2.0 + AI Competition 소개

영상 날짜 : 2021.07.08
강화학습 사례
- AlphaGo & AlphaGo Zero (2016, 2017)
- OpenAI Five, AlphaStar (2018, 2019)
- Agent57, MuZero (2020)
- AI system for designing microchips (2021.06)
  - 강화학습을 이용하여 칩 배치의 품질을 최적화 → TPU 설계에 실제 적용
  - 기존에 사람이 수행할 때에는 몇 주씩 걸리던 업무를 6시간 이내에 수행
강화학습을 위해 왜 시뮬레이션이 필요한가?
- 강화학습의 경우 에이전트가 다양한 경험을 수행하며 학습
- 다양한 경험을 해야하므로 학습 시간이 오래 걸림
- 물리적 제약이 있는 환경의 경우 학습 시간이 더 오래 걸림
- 실패가 발생하면 안되는 환경에는 적용이 어려움
- 그러므로 강화학습의 경우 주로 시뮬레이션을 통해 학습 및 성능 검증
- Unity를 사용하는 경우 다양한 시뮬레이터 개발 가능
Unity ML-Agents는 다양한 학습 방식 지원
- Training in competitive multi-agent environments with self-play → 에이전트끼리 대결 (알파고)
- Training in cooperative multi-agent environments with MA-POCA → 에이전트끼리 협동
ML-Agents 2.0
- 신기능
  - Training cooperative behaviors
    - Multi-agents reinforcement learning : 하나의 환경 내에 다수의 에이전트가 존재하는 문제 **
    - 이제 ML-Agents에서 협동하는 에이전트를 학습할 수 있는 기능을 제공
    - 에이전트 일부를 희생하더라도 공동의 목표를 우선시하여 수행할 수 있도록 학습
    - Multi-Agent POsthumous Credit Assignment (MA-POCA) → 논문 공개 예정
  - Observing varying numbers of entities
    - 일반적인 강화학습 알고리즘의 경우 입력의 수가 동일해야함
    - 예시: Predator-prey → 사자나 양이 추가되는 경우 새로운 학습필요
    - 실제 상황에서는 인지하는 대상의 수가 달라지는 경우가 많음 **
  - Task parameterization : one model to rule them all
    - Catastrophic forgetting
      - 딥러닝 모델이 이전에 학습한 내용을 잊어버리게 됨
    - 이에 따라 현재는 주로 하나의 모델이 하나의 업무를 학습하고 필요에 따라 특정 모델 사용
    - 하나의 모델로 여러 업무를 학습시키면 메모리를 아끼는 등의 장점이 있음
- 추가사항
ML-Agents 2.0
- ML-Agents 2.0의 신기능
  - Training cooperative behaviors
    - 일반적인 강화학습의 경우 하나의 환경에 하나의 에이전트가 존재
      
      →협동하는 에이전트를 학습할 수 있는 가능을 제공
      
      -다수의 에이전트가 서로 협력하거나 경쟁하도록 학습
      
      -환경 : Cooperative Push Block, Dungeon Escape
  - Observing varying numbers of entities
    - 일반적인 강화학습 알고리즘의 경우 입력의 수가 동일해야 함
      
      →Attention 기법 사용
      
      -Transformer알고리즘(자연어 처리 사용된 알고리즘)을 사용
      
      -문장 안에서 단어 사이의 중요도를 도출
      
      -구조적으로 문장의 길이(입력의 수)가 달라져도 학습 가능
      
      -입력의 길이가 달라져도 학습이 가능
      
      -단어들 간의 중요도 도출 가능
      
      -Vision Transformer, Detection Transformer, Image GPT, Bullet, Sorter
  - Task parameterization : One model to rule them all
    - 일반적인 강화학습의 경우 주로 하나의 모델이 하나의 업무를 학습하고 필요에 따라 특정 모델을 사용
      
      → HyperNetwork라는 모델을 사용하여 단일 모델이 여러 업무를 학습할 수 있도록 제공
      
      -하나의 모델로 여러 업무를 학습시키는 경우 메모리를 아끼는 등의 장점이 있음
      
      -환경 : Wall Jump+Push Block,
- ML-Agents 의 추가 사항
  - Grid Sensors
    - Grid 기반 데이터:카메라 데이터와 같이 복잡한 데이터에 비해 훨씬 단순한 데이터
    - 효율적으로 게임 오브젝트 탐지 및 관측
    - 데이터를 수집하는 것도 빠르고 효율적
  - Match-3
    - 유명한 퍼즐 게임인 match-3환경을 ML-Agents의 예제 환경에 추가
  - Performance improvements
    - 학습된 모델을 이용한 inference 중에 할당되는 메모리 양을 축소
    - 1.0버전과 2.0버전에서 2개의 환경(3D BALL,GridWorld)을 대상으로 성능을 비교해보면 약 98%이상 메모리 할당량 감소함을 알 수 있음
  - ML-Agents Cloud
    - 클라우드 사용 과정
      
      -ML-Agents를 사용하여 빌드한 환경을 업로드
      
      -여러 학습을 동시에 실행하여 빠른 학습이 가능하도록 함

Multi-agent Scenarios-링크