RL(reinforce learning)강화학습 액션 : agent가 각 state 에서 취할 수 있는 action(동작) 의 옵션들 특정 state에 있을 때, 특정 actiondㅡㄹ 취하면 얻을 수 있는 reward가 있음 정책 : 특정 상태에서 어떤 행동을 취할 지 정해 놓은 것 value function 을 찾아내는 것이 목표 optimal policy : 목표를 달성하기 위해 모든 state에서 취해야할 적절한 action(행동)이 계산되어 있는 상태 => 강화학습 목표 예) cart-pole balancing, 게임 대부분 강화학습에 적용, 자율주행,지능형 로봇, 주식 거래(대규모지분 매각 시점 찾는데 탁웡ㄹ 투자자 손실을 최소화 및 최적의 이익을 취할 수 있는 가격대) GAN(Generati..