분산분석(=변량분석)
자료 간의 차이를 대조시키는 분석기법이다. 여기서 분산은 평균을 중심으로 데이터가 얼마나 퍼져있는지를 표현하는 통계량이다. 만약 데이터의 퍼짐이 없고 모든 개별 데이터값들이 동일하다면, 편차가 없으므로 분산은 '0'이 될 것이다.
A학급 경우가 바로 분산이 0이 되는 경우다. 각 대표 학생 4명의 점수가 모두 100점으로 평균이 100이라 편차가 없기 때문이다. 편차가 없다는 의미는 데이터가 좌표상에서 모두 한 점에 찍힌다는 말과 같다.
C학급과 D학급은 일단 평균이 같다. 그런데 학생별 점수 데이터를 확인해보면 C학급에 비해 D학급의 대표 학생별 점수 편차가 더 크다는 것을 확인할 수 있다. 실제로 공식에 대입해 편차를 구하고 분산을 계산해보면, C학급은 1,933, D학급은 10,600으로 확연한 차이를 보인다.
* 표본분산은 관측값에서 표본평균을 빼고 제곱한 값을 모두 더한 후 전체 데이터 개수 - 1로 나눠서 구한다.
D학급의 학생별 점수 편차가 커 분산의 차이도 매우 크게 나타났다. 좌표상에서 데이터 간 거리를 표현하기 위해 양수화(=제곱)를 한 것에 영향이다. 분산이란 통계량을 통해서 우리는 C학급과 D학급의 평균이 서로 같다 하더라도 데이터의 분포(형태)는 서로 다르다는 사실을 확인한 것이다.
평균을 중심으로 각 학급별 점수 분포의 대략적인 범위를 표준편차를 지름 삼아 원 그래프로 표현하면 아래 그림과 같다. 평균과는 달리 분산(표준편차 제곱) 통계량은 C와 D가 명백하게 다른 자료임을 말해준다.
첫 번째 분산, BV(Between Variance)
BV란 결국 '그룹 간'의 차이로 각 학급의 평균과 학교 전체평균의 거리비율인 것이다. A를 제외하고 B~D학급 각 평균의 거리(붉은 화살표)를 이용해 세 종류 이상의 그룹 간의 유사성을 분석할 수 있다. 계산은 전체평균-그룹평균의 제곱합을 n-1의 자유도(여기선, 3-1)로 나눈 값이다.
두 번째 분산, WV(Within Variance)와 F-value
WV란 '그룹 내'의 분산을 말한다. 이해를 돕기 위한 예제이므로 검정은 제외하고 F-값을 구하는데 의의를 두자. 계산은 그룹평균-샘플데이터의 제곱을 모두 합하여 전체 데이터 수-그룹 수(두번째 자유도, 여기선 8-3)로 나눈 값이다. F-값은 BV를 WV로 나누어 얻는다.
자유도에 따라 달리 봐야 할 것, F-분포표
ANOVA는 주로 3종 이상의 자료를 비교할 때 주로 사용된다. 따라서 t-검정과는 달리 F-검정은 비교할 자료의 수(=그룹 수)에 따라 참조할 분포표도 달라진다. 보통 그룹 수에서 -1한 경우의 F-분포표를 참조하면 된다. 아래는 그룹 간 분산(BV)의 자유도가 1일 때 그리고 그룹 내 분산(WV)의 자유도가 2일 때 참조할 분포표이다.
함께 보면 좋은 글
[빅데이터분석기사] 상관분석(Correlation Analysis)
[빅데이터분석기사] 주성분분석(Principal Component Analysis)
[빅데이터분석기사] 회귀분석(Regression Analysis)
[빅데이터분석기사] 로지스틱 회귀분석(Logistic Regression Analysis)
[빅데이터분석기사] 시계열분석(Time-series Analysis)
'빅데이터분석기사 > 개념' 카테고리의 다른 글
[빅데이터분석기사] 주성분분석(Principal Component Analysis) (0) | 2022.05.25 |
---|---|
[빅데이터분석기사] 상관분석(Correlation Analysis) (0) | 2022.05.24 |
[빅데이터분석기사] 교차분석(Cross-tabulation Analysis) (0) | 2022.05.22 |
[빅데이터분석기사] 교차분석(Cross-tabulation Analysis) (0) | 2021.11.19 |
[빅데이터분석기사] 연관규칙분석(Association Rule Analysis) (0) | 2021.11.19 |