강화학습, GAN

인공지능(AI)

sysman 2020. 11. 3. 17:33

RL(reinforce learning)강화학습

액션 : agent가 각 state 에서 취할 수 있는 action(동작) 의 옵션들

특정 state에 있을 때, 특정 actiondㅡㄹ 취하면 얻을 수 있는 reward가 있음

정책 : 특정 상태에서 어떤 행동을 취할 지 정해 놓은 것

value function 을 찾아내는 것이 목표

optimal policy :

목표를 달성하기 위해 모든 state에서 취해야할 적절한 action(행동)이 계산되어 있는 상태 => 강화학습 목표

예) cart-pole balancing, 게임 대부분 강화학습에 적용, 자율주행,지능형 로봇, 주식 거래(대규모지분 매각 시점 찾는데 탁웡ㄹ 투자자 손실을 최소화 및 최적의 이익을 취할 수 있는 가격대)

GAN(Generative Adversarial Network)

2016 GAN 관심 폭발

최근 10년간 머신러닝 분야에서 혁신적인 아이디어

G : 무엇인가를 생성하는 - 생성모델은 그럴듯한 가짜를 만드는 모델, 진짜같은 가짜사람얼굴, 실제로 있음직한 풍경들

A : 대립하는 ,대립을 위해서는 2개 이상 모델이 필요

N : 뉴럴 네트워크 모델

개요: 기존데이터 분포를 알아내어 이 분포에 해당 하는 값을 생성하면됨 -데이터의 양이 많아야함.

예) 180cm/82kg , 167cm/65kg과 같은 사람 키/몸무게 데이터 생성 가능, 190cm/23kg과 같이 불가능한 데이터는 생성하지 않음

경쟁 속에서 두 그룹 모두 서로의 능력이 발전되고 결과적으로 진짜와 가짜를 구별할 수 없을 정도가 됨

위조범이 0.5와 감별자가 0.5가되는 지점.

Discriminator : 보고있는 데이터가 원본 데이터일 확률을 계산

mode collapse : 학습을 하지 못하는 현상 , 2개 모델이 성능이 차이가 있을떄

keras (0)	2020.11.05
output layer - softmax() (0)	2020.11.04
RNN(Recurrent Neural network), LSTM (0)	2020.11.03
Deep Learning (딥러닝) (0)	2020.11.03
classifier model- 앙상블 (0)	2020.11.03

CentOS, Network, 인공지능, 머신러닝, 쿠버네티스, nfs, EVE-ng, DB이중화, iSCSI, CISCO, Kubernetes, LACP, 도커, AI, neutron, Linux, docker, Galera, Openstack, Cinder,

내맘대로 테크 피크닉