강화학습에서는 상태(state)나 행동(action), 또는
상태와 행동의 쌍(state-action pair)에 대해 어떤 값(value)을
예측하거나 결정해야 하는 경우가 많다. 그러나 모든 가능한 상태나 행동에 대해 값을 일일이 저장하고
처리하는 것은 현실적으로 불가능하다. 특히 상태공간이나 행동공간이 매우 클 경우, 전통적인 방법으로는 처리할 수 없다. 이 문제를 해결하기 위해 등장한
것이 바로 함수 근사법이다.
함수 근사(function approximation)란 복잡하거나 정확한 형태를 알 수 없는
함수를, 비교적 단순한 함수 형태로 근사해서 표현하는 기술이다. 이
개념을 강화학습에 도입하면, 더 이상 모든 상태나 행동을 일일이 나열하고 계산할 필요 없이, 신경망과 같은 모델을 통해 값을 추정할 수 있다. 다시 말해, 함수 근사법은 강화학습이 복잡하고 연속적인 환경에서도 유연하게 작동할 수 있도록 만드는 핵심 도구인 셈이다.
하지만 함수 근사법을 제대로 이해하기 위해서는 몇 가지 선행 지식이 필요하다. 가장 중요한
것은 앞서 다룬 인공신경망의 개념이다. 신경망이 무엇인지, 어떻게
동작하는지, 왜 학습이 가능한지를 정확히 이해하지 못한 상태에서는 함수 근사법의 깊이를 파악하기 어렵다. 만약 신경망이 어떻게 생겼는지, 어떤 구조로 학습하는지 떠오르지
않는다면, 앞 장의 내용을 다시 한 번 천천히 읽어보는 것이 좋다.
또한 함수 근사법은 선형대수, 통계, 미분과 같은
수학 개념들과 밀접하게 연결되어 있다. 그렇다고 해서 수학에 익숙하지 않다고 겁먹을 필요는 없다. 이 장에서는 함수 근사법을 설명하기 위해 반드시 알아야 할 수학 이론만을 골라서, 하나하나 쉽게 풀어 설명할 예정이다. 처음 접하는 독자라도 차근차근
따라가다 보면, 어느새 함수 근사법이 무엇이고 왜 중요한지 자연스럽게 이해할 수 있을 것이다.