log likelihood(이것에 대한 부연 설명 생략)를 이용하여 분산 성분을 추정하는 세 가지 방법 1) 미분 없이 derivative free 2) 1차 미분 EM-REMl 3) 2차 미분(AI-REML)
AI-REML 설명을 위하여 observed information matrix, expected information matrix 및 average information matrix를 이전 포스트에서 설명하였다. 여기서는 average information matrix(2차 미분)를 이용하여 분산 성분을 추정하는 과정과 그 과정에서 Newton-Raphson 이라는 방법이 동원되는데 그것에 대해서 간략히 설명한다.
먼저 Newton-Raphson 방법은 해를 풀어서 구하기 힘들 때 점근적으로 (여러 라운드에 걸쳐서) 해를 구하는 방법이다. 현재의 해(또는 초기값)를 Xn이라고 하고 다음 번 해를 Xn+1이라고 할 때 새로운 해를 구할 때(또는 갱신할 때) Newton-Raphson 방법을 이용한다는 뜻이다. 해가 여러 개인 다차원 문제는 그림으로 이해하기 어려우므로 해가 1개인 방정식(f(x))을 2차원적으로 이해해 보자. 초기 해(Xn 또는 X0)가 있을 때, 방정식의 y 즉 f(Xn)을 구한다. 점(Xn, f(Xn))은 방정식의 위 점이 된다. 이 점에서 이 방정식의 접선의 식을 구해보자. 그러러면 기울기가 필요한데 미분을 한 식에 Xn을 대입하면 된다. 미분한 식을 f'(X)라 하면 접선의 기울기는 f'(Xn)이 된다. 그러면 접선의 식은 y - f(Xn) = f'(Xn)(X - Xn)이 된다. 이 접선이 y축과 만나는 점을 (Xn+1, 0)이라 하자. 이 점을 접선에 대입하면 0 - f(Xn) = f'(Xn)(Xn+1 - Xn)이 된다. 이것을 정리하면 Xn+1 = Xn - f(Xn)/f'(Xn) 이 된다. 이게 Newton-Raphson 식인데 설명을 하자면 현재값 Xn을 갱신하는 방법이 (현재 방정식 값)/(1차 미분 방정식 값)을 빼주는 방식이다.

위의 그림을 보면 만일 그래프가 뾰족하면 즉 접선의 기울기 절대값이 크면 갱신한 Xn+1이 그리 크게 변하지 않을 것이고, 그래프가 좀 완만하다면 즉 접선의 기울기 절대값이 작다면 갱신한 Xn+1이 크게 변한다는 것을 쉽게 알 수 있다. 그래서 AI-REML이 수렴값 근처에서 즉 점점 평평해 질 때 빠른 속으로 해에 더 가까워 진다는 것이고, EM-REML이 수렴의 방향만을 고려한다면 AI-REML은 방향뿐만 아니라 일종의 폭도 고려한다는 얘기다.
이제 다시 분산 성분 추정하는 문제로 돌아봐 보자. 우리가 1차 미분한 식을 0으로 놓고 해를 구한다고 했는데, 이렇게 된 해에 약간의 보정을 가하는 것이다. 즉 Newton-Raphson 방법을 동원하여 약간의 보정을 가하는 것이다. 그런데 위에서 Netwon-Raphson 방법을 이용하려면 미분을 해야하는데, 우리는 이미 1차 미분을 한 식을 이용하니, 여기에 한 번 더 미분 즉 2차 미분을 한 것이다. 위의 Newton-Raphson 식에서 f(Xn)이 1차 미분 log likelihood이고, f'(Xn)이 2차 미분 log likilihood, 즉 average information matrix이다. 그런데 위에서는 f(Xn)이나 f'(Xn+1)이 스칼라이므로 나누기를 했지만 우리가 다루는 분산 성분 추정에서는 스칼라가 아니라 vector이고 matrix가 된다. 다음과 같이 나누기가 아니라 벡터와 역행렬을 이용한 표기로 바뀐다.

분산 성분 갱신 공식은 위와 같은데 세타는 t, t + 1번째 분산 성분 벡터, M은 average information matrix의 역행렬, d는 경사 벡터(gradient vector) 또는 스코어 함수(score function)으로 1차 미분한 값이다. d가 방향이라면 M은 방향의 크기라고 할 수 있다.
마땅한 예제가 없어 예를 들어 보일 수는 없으나 AI-REML 방법은 다음과 같이 진행된다.
1) 초기값 설정
2) 육종가 추정(일종의 expectation)
3) 분산 성분 추정(일종의 maximization, 즉 여기까지는 EM-REML과 동일)
4) average information matrix 계산
5) Newton-Raphson 방법에 따라 분산 성분 업데이트
6) 수렴 여부 판단
이게 각 round 마다 벌어지는 일이다. 수렴이 되었으면 끝이지만 수렴이 안 되었으면 다시 육종가 추정스텝으로 간다. 수렴이 될 때까지 반복한다. 4번과 5번을 계산하느라 한 round의 시간은 길어지지만 전체적인 round가 줄어서 추정 시간이 준다는게 Gilmour 논문의 주장이다. 하나마나한 이야기지만 분석하는 형질의 수나, 모형의 복잡성에 달라질 것이다.
'Animal Breeding > REML Variance Component Estimation' 카테고리의 다른 글
| 평균 정보 행렬(average information matrix, AI matrix) (0) | 2025.10.29 | 
|---|---|
| 기대 정보 행렬의 유도(derivation of expected information matrix) (0) | 2025.10.29 | 
| 관측 정보 행렬의 유도(derivation of observed information matrix) (0) | 2025.10.24 | 
| REML log likelihood function을 미분하여 분산성분 추정하기(first derivatives of the natural log of the restricted likelihood function) (0) | 2025.09.18 | 
| Derivative Free REML - Simplex Method (1) | 2025.08.30 | 





















