편미분과 경사하강법은 다양한 책과 인터넷 자료에서 서로 다른 방식으로 표현된다. 예를
들어, 함수명을 f, J, L 등으로 다르게 쓸 수 있고, 사용하는 변수도 x, y 또는
w, θ 등으로 바뀔 수 있다. 이는 저자마다 사용하는 표현 방식의 차이일 뿐, 수식이 의미하는 바는 대부분 동일하다.
강화학습을 공부하는 입장에서는 이러한 다양한 표현들 중에서도 특히 데이비드 실버(David
Silver) 교수님의 강의 자료에서 사용하는 표기 방식에 익숙해지는 것이 유리하다. 그의
교재는 강화학습 분야에서 널리 사용되는 표준 자료로, 많은 다른 강의나 자료들도 이 표현 방식을 따르고
있다.
강화학습에서 편미분과 경사하강법의 표기법
앞에서는 x와 y라는 두 변수만을 사용했지만, 실제 강화학습에서는 훨씬 더 많은 변수를 다루게 된다. 이 때문에
강화학습에서는 일반적으로 변수 전체를 하나의 벡터 w로 표현한다. w는 w₁부터 wₙ까지의 모든 변수들을 포함하며, 시스템이 학습하는 모든 파라미터를 의미한다.
또한 함수는 목적 함수 또는 성능 함수를 의미하는 J로 표현하며, J(w)라는 형태로 나타낸다. 이와 같은 표현은 여러 변수를 가진
함수의 최적화 과정을 수식적으로 더 간결하게 표현할 수 있게 해준다.
예를 들어, 일반적인 수학에서의 편미분과 경사하강법은 다음과 같이 나타낼 수 있다:
∇f(x, y) =
(∂f/∂x, ∂f/∂y)
Δ(x, y) = -½ ∝ ∇f
반면, 강화학습에서는 이를 다음과 같이 일반화한다:
∇wJ(w) =
(∂J(w)/∂w₁, ..., ∂J(w)/∂wₙ)
Δw = -½ ∝ ∇wJ(w)
이처럼 표기 방식은 다르지만 핵심 개념은 동일하다. 다양한 표현에 익숙해지는 것은 이론을 더 잘 이해하고, 실제 알고리즘을 구현하는 데 매우 큰 도움이 된다.