빅데이터분석기사/개념

[빅데이터분석기사] 분산분석(Analysis of Variance, ANOVA)

EveningPrimrose 2022. 5. 23. 00:02
반응형

분산분석(=변량분석)

 

  자료 간의 차이를 대조시키는 분석기법이다. 여기서 분산은 평균을 중심으로 데이터가 얼마나 퍼져있는지를 표현하는 통계량이다. 만약 데이터의 퍼짐이 없고 모든 개별 데이터값들이 동일하다면, 편차가 없으므로 분산은 '0'이 될 것이다.

 

수학 과목 학급 대표 학생별 점수                       수학점수 학급별 평균

 

  A학급 경우가 바로 분산이 0이 되는 경우다. 각 대표 학생 4명의 점수가 모두 100점으로 평균이 100이라 편차가 없기 때문이다. 편차가 없다는 의미는 데이터가 좌표상에서 모두 한 점에 찍힌다는 말과 같다.

 

  C학급과 D학급은 일단 평균이 같다. 그런데 학생별 점수 데이터를 확인해보면 C학급에 비해 D학급의 대표 학생별 점수 편차가 더 크다는 것을 확인할 수 있다. 실제로 공식에 대입해 편차를 구하고 분산을 계산해보면, C학급은 1,933, D학급은 10,600으로 확연한 차이를 보인다.

* 표본분산은 관측값에서 표본평균을 빼고 제곱한 값을 모두 더한 후 전체 데이터 개수 - 1로 나눠서 구한다.

 

  D학급의 학생별 점수 편차가 커 분산의 차이도 매우 크게 나타났다. 좌표상에서 데이터 간 거리를 표현하기 위해 양수화(=제곱)를 한 것에 영향이다. 분산이란 통계량을 통해서 우리는 C학급과 D학급의 평균이 서로 같다 하더라도 데이터의 분포(형태)는 서로 다르다는 사실을 확인한 것이다.

 

  평균을 중심으로 각 학급별 점수 분포의 대략적인 범위를 표준편차를 지름 삼아 원 그래프로 표현하면 아래 그림과 같다. 평균과는 달리 분산(표준편차 제곱) 통계량은 C와 D가 명백하게 다른 자료임을 말해준다.

 

Between Variance

 

 

첫 번째 분산, BV(Between Variance)

 

  BV란 결국 '그룹 간'의 차이로 각 학급의 평균과 학교 전체평균의 거리비율인 것이다. A를 제외하고 B~D학급 각 평균의 거리(붉은 화살표)를 이용해 세 종류 이상의 그룹 간의 유사성을 분석할 수 있다. 계산은 전체평균-그룹평균의 제곱합을 n-1의 자유도(여기선, 3-1)로 나눈 값이다.

 

 

두 번째 분산, WV(Within Variance)와 F-value

 

WV란 '그룹 내'의 분산을 말한다. 이해를 돕기 위한 예제이므로 검정은 제외하고 F-값을 구하는데 의의를 두자. 계산은 그룹평균-샘플데이터의 제곱을 모두 합하여 전체 데이터 수-그룹 수(두번째 자유도, 여기선 8-3)로 나눈 값이다. F-값은  BV를 WV로 나누어 얻는다.

 

F-value의 계산

 

 

자유도에 따라 달리 봐야 할 것, F-분포표

 

  ANOVA는 주로 3종 이상의 자료를 비교할 때 주로 사용된다. 따라서 t-검정과는 달리 F-검정은 비교할 자료의 수(=그룹 수)에 따라 참조할 분포표도 달라진다. 보통 그룹 수에서 -1한 경우의 F-분포표를 참조하면 된다. 아래는 그룹 간 분산(BV)의 자유도가 1일 때 그리고 그룹 내 분산(WV)의 자유도가 2일 때 참조할 분포표이다.

 

F-분포표

 

 

함께 보면 좋은 글

 

[빅데이터분석기사] 상관분석(Correlation Analysis)

 

[빅데이터분석기사] 상관분석(Correlation Analysis)

상관분석 상관분석은 x와 y변수 간에 관계가 어떤 선형적인 관계를 갖고 있는지를 파악한다. 두 변수 간의 관계의 강도도 계산할 수 있다. 두 변수가 변하는 패턴이 얼마나 비슷한가를 확인하는

it-utopia.tistory.com

 

[빅데이터분석기사] 주성분분석(Principal Component Analysis)

 

[빅데이터분석기사] 주성분분석(Principal Component Analysis)

주성분분석 여러 특성(feature) 가운데 대표 특성을 찾아 분석하는 방식으로, 대표 특성의 선별은 자료의 차원을 고차원에서 하위 차원으로 축소하는(차원축소) 기법을 활용한다. 차원축소기법에

it-utopia.tistory.com

 

[빅데이터분석기사] 회귀분석(Regression Analysis)

 

[빅데이터분석기사] 회귀분석(Regression Analysis)

회귀분석 일반적으로 예측을 목표하는 통계 분석이다. 예측을 하는 방법에 핵심이 되는 개념이 바로 '추세선'이다. 좌표상에서 데이터의 분포와 앞으로의 변화를 가장 잘 설명할 수 있는 하나의

it-utopia.tistory.com

 

[빅데이터분석기사] 로지스틱 회귀분석(Logistic Regression Analysis)

 

[빅데이터분석기사] 로지스틱 회귀분석(Logistic Regression Analysis)

로지스틱 회귀 데이터가 어떤 범주에 속할 확률을 0에서 1 사이의 값으로 예측하고, 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류하는 기법이다. 0.5 보다 크면 어떤 사건이 일어

it-utopia.tistory.com

 

[빅데이터분석기사] 시계열분석(Time-series Analysis)

 

[빅데이터분석기사] 시계열분석(Time-series Analysis)

시계열분석 시간에 따라 변화되는 자료의 패턴을 밝혀 가까운 미래를 예측하는 방법이다. 시계열분석을 위해서는 시계열 데이터가 준비돼야 한다. 시간의 경과만 한 축(x)을 구성하는 것이 아니

it-utopia.tistory.com

 

반응형