상관분석 2

[빅데이터분석기사] 회귀분석(Regression Analysis)

회귀분석 일반적으로 예측을 목표하는 통계 분석이다. 예측을 하는 방법에 핵심이 되는 개념이 바로 '추세선'이다. 좌표상에서 데이터의 분포와 앞으로의 변화를 가장 잘 설명할 수 있는 하나의 선을 그려내는 것이 회귀분석의 궁극적인 목적이 된다. 추세선의 의미 직선의 추세선을 수식으로 표현하면, y=ax+b와 같은 1차 방정식이 된다. 여기서 x와 y는 이미 알고 있는 데이터값이다. 여기서 수식을 활용해 데이터 변화의 추세를 확인하는 방법은 x와 y에 들어오는 값을 기준으로 해당 수식을 충족시키는 a(=기울기), b(=절편) 값을 찾는 것이다. 즉, 추세선을 통한 회귀적 예측이란 곧 a, b를 구하는 과정을 말하는 것이다. 여기서 a와 b를 '회귀계수'라 한다. 회귀의 시작, 최소제곱법(=최소자승법 Ordin..

[빅데이터분석기사] 상관분석(Correlation Analysis)

상관분석 상관분석은 x와 y변수 간에 관계가 어떤 선형적인 관계를 갖고 있는지를 파악한다. 두 변수 간의 관계의 강도도 계산할 수 있다. 두 변수가 변하는 패턴이 얼마나 비슷한가를 확인하는 과정이 상관분석이다. 상관관계에 따른 산포도는 아래 그림과 같이 나타낼 수 있으며, x축과 y축으로 구성하여 흩어진 정도를 표현할 수 있다. 공분산(Covariance), X축 분산과 Y축 분산의 평균으로 방향을 알다 상관관계를 표현하는 통계량의 일종으로 x의 분산과 y의 분산을 곱한 것의 기댓값이다. x의 편차와 y의 편차를 서로 곱한 개념임을 수식을 통해 알 수 있다. 만약 첫 번째 항이 (+)이고 두 번째 항이 (+)라면 공분산값은 (+)로 계산된다. 두 항 모두 (-)라도 (+)로 공분산이 나오게 된다. 그러므..