RicePunchb's Garden

❯

❯

강화학습

2024년 7월 05일1 min read

AI
RL

Reinforcement Learning 주어진 상황에서 최적의 결과를 얻기 위한 행동을 결정하는 문제 인간이 시도와 실패를 반복하며 문제를 해결하는 것과 유사

표현 및 과정

Agent와 Environment로 구성

Environment는 어떠한 상태(State)를 가짐
Agent는 Action을 통해 환경의 State를 변화시킴
변화된 환경은 어떠한 Reward를 Agent에 제공
위 과정을 반복하며 최대의 Reward를 추구 (Objective)

수학적 표현

Markov Decision Process

그래프 뷰

표현 및 과정
수학적 표현

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community