인공지능(AI)

강화학습, GAN

sysman 2020. 11. 3. 17:33

RL(reinforce learning)강화학습

액션 : agent가 각 state 에서 취할 수 있는 action(동작) 의 옵션들

특정 state에 있을 때, 특정 actiondㅡㄹ 취하면 얻을 수 있는 reward가 있음

 

정책 : 특정 상태에서 어떤 행동을 취할 지 정해 놓은 것

value function 을 찾아내는 것이 목표

 

optimal policy :

목표를 달성하기 위해 모든 state에서 취해야할 적절한 action(행동)이 계산되어 있는 상태 => 강화학습 목표

 

예) cart-pole balancing, 게임 대부분 강화학습에 적용, 자율주행,지능형 로봇, 주식 거래(대규모지분 매각 시점 찾는데 탁웡ㄹ 투자자 손실을 최소화 및 최적의 이익을 취할 수 있는 가격대)

 

GAN(Generative Adversarial Network)

2016 GAN 관심 폭발

최근 10년간 머신러닝 분야에서 혁신적인 아이디어

G : 무엇인가를 생성하는 - 생성모델은 그럴듯한 가짜를 만드는 모델, 진짜같은 가짜사람얼굴, 실제로 있음직한 풍경들

A : 대립하는 ,대립을 위해서는 2개 이상 모델이 필요

N : 뉴럴 네트워크 모델

 

 

개요: 기존데이터 분포를 알아내어 이 분포에 해당 하는 값을 생성하면됨 -데이터의 양이 많아야함.

예) 180cm/82kg , 167cm/65kg과 같은 사람 키/몸무게 데이터 생성 가능, 190cm/23kg과 같이 불가능한 데이터는 생성하지 않음

 

경쟁 속에서 두 그룹 모두 서로의 능력이 발전되고 결과적으로 진짜와 가짜를 구별할 수 없을 정도가 됨

위조범이 0.5와 감별자가 0.5가되는 지점.

Discriminator : 보고있는 데이터가 원본 데이터일 확률을 계산

 

mode collapse : 학습을 하지 못하는 현상 , 2개 모델이 성능이 차이가 있을떄 

'인공지능(AI)' 카테고리의 다른 글

keras  (0) 2020.11.05
output layer - softmax()  (0) 2020.11.04
RNN(Recurrent Neural network), LSTM  (0) 2020.11.03
Deep Learning (딥러닝)  (0) 2020.11.03
classifier model- 앙상블  (0) 2020.11.03