통계학에서 평균과 분산을 공부하면서 약간 헷갈리는 것이 있었다. 우선 우리가 한우의 체중 데이터 10개를 구해서 평균과 분산을 구한다고 하자. 이건 고등학교만 나오면 할 수 있는 일이다. 그러나 유전평가를 하기 시작하면 10 마리의 분산-공분산 행렬을 구한다. 평균과 분산을 구할 때는 10개의 자료를 이용해서 하나의 분산을 구했는데, 유전평가를 할 때는 10개의 분산 그리고 많은 공분산을 생각한다. 이 둘 사이의 간극은 무엇일가?

 

바로 데이터를 표본 데이터로 볼 것인가와 확률 변수로 볼 것인가의 차이이다. 표본 데이터란 어떤 모집단에서 몇 개만을 뽑아온 것이다. 확률 변수란 것은 어떤 분포를 하는 집단에서 뽑아 오는 일종의 함수이다. 어떤 책에선 a random variabe is a real-valued function이라고 설명한다. 그러니까 10개의 체중 데이터를 표본 데이터라고 본다면 10개의 데이터를 이용하여 하나의 평균과 하나의 분산을 구한다. 그러나 유전평가를 할 때는 관점이 바뀐다. 개체하나 하나의 데이터는 어떤 분포(보통 정규분포를 한다고 가정)를 하는 집단에서 뽑혀져 나온 것이라 생각한다. 각각의 데이터를 (독립일수도 있고 독립이 아닐수도 있고, 보통 유전평가때는 독립이 아니라고 생각, Numerator Relationship Matrix로 각각의 개체의 공분산을 표현) 확률 변수라고 생각한다. 그래서 각 개체가 생산한 데이터는 하나이지만 한 개체의 분산을 생각하고, 개체 사이의 공분산을 생각한다.

 

그래서 표본 데이터의 평균과 분산을 얘기할 때는 표본 평균, 표본 분산이라는 표현을 쓰지만 확률 변수를 얘기할 때는 그 확률 변수가 나온 분포의 평균과 분산을 E(expectation), V(variance)란 기호로 나타내고, 확률 변수(일종의 함수)의 평균과 분산을 논하게 된다. 똑같은 데이터이지만 데이터를 바라볼 때의 시각의 차이에 따라 이런 현상이 발생하게 된다.

 

Understanding Animal Breeding 같은 책에서는 육종학을 주로 말로 설명한다. 그러나 Larry Schaeffer의 책에서는 육종학을 주로 수식으로 설명한다. 수식으로 설명하는 책에서는 개체의 데이터를 확률 변수로 바라 본다. 그래서 n개의 데이터에서 하나의 분산을 뽑아낼 것 같지만 그렇지 않고 n by n 분산-공분산 행렬을 생각하게 된다. 육종가를 추정하거나, 분산을 추정하거나 할 때 유도되는 모든 수식에선 데이터 하나 하나를 확률 변수로 바라본다는 점을 잊지 말자.

 

그래서 정규 분포 함수(정규 확률 변수(normal random variabe)의 확률 밀도 함수(probability density function, pdf))를 다룰 때, 관측치 벡터 y의 각각의 자료를 확률 변수로 봐서 multivariate normal denstity function(다변량 정규 확률 밀도 함수)을 다루게 되는 것이다. 즉 관측치 임의 벡터 y의 분산 공분산 행렬 V를 다루게 된다.(통계학에서는 sigma 기호로 표시하는 것 같다) 여기서 multivariate은 유전 평가에서 2개 이상의 형질을 다루는 multiple-traits 와는 아무 상관 없는 개념임을 알아 두어야 한다.

 

+ Recent posts