시계열분석
시간에 따라 변화되는 자료의 패턴을 밝혀 가까운 미래를 예측하는 방법이다. 시계열분석을 위해서는 시계열 데이터가 준비돼야 한다. 시간의 경과만 한 축(x)을 구성하는 것이 아니라 시간 경과가 일정한 시차로 정돈되어 있을 때 이를 시계열 데이터로 본다.
시계열 데이터의 필수 조건, 정상성(Stationary)
정상성이란 '데이터 변동의 안정성'으로 달리 표현할 수 있다. 시간의 흐름에 따라 관측된 결과에서 세로축(y) 값의 변동이 지나치게 크다면 그 다음 예측에 관한 정확도가 높을 수 있을까? 그렇지 않을 것이다.
회귀분석에서 살펴보았듯이, 데이터의 분포가 추세선을 기준으로 잘 모여 있을 때(=표준오차가 작을 때), 해당 추세선이 보다 예측력이 높다고 배웠다. 마찬가지로 어떤 시계열 자료가 정확한 간격으로 데이터를 관측했다 할지라도 변동성이 너무 크게 나타난다면 다음 관측 결과에 대한 예측의 의미가 퇴색될 것이다. 따라서 올바은 시계열 분석을 위해 '비정상' 시계열 자료를 '정상' 시계열 자료로 전처리하는 과정이 분석 만큼이나 중요하다.
정상성을 확보하는 방법, 차분(Difference)과 변환(Transformation)
정상 시계열로 조정하는 방법이다. 일반적으로 평균 변동이 크면 직전 값에서 현재 값을 빼는 차분의 과정을 거치고, 분산이 시점에 따라 다르면 변환 과정을 거쳐 정상성을 충족시킨다. 변환을 통해 정상성을 높이는 방법에는 이동평균법, 지수평활법 등이 있다.
시계열분석 모형
시계열분석은 기본적으로 선형 예측을 전제로 한다. 시간을 가로축에 놓은 회귀분석이라고 할 수 있다. 뚜렷한 상관관계를 바탕으로 하는 선형 회귀분석은 미래는 과거를 닮는다는 전제를 바탕으로 시계열 분석으로 응용되었다.
직전 데이터와 지금 데이터의 평균, MA(Moving-average)
이동평균은 직전 데이터와 지금 데이터의 평균을 의미한다. 아래 표는 서울의 W 의료기관의 외래 환자를 월 단위로 정리하고 월별 이동평균을 구해 그래프로 나타낸 내용이다. 이동평균은 급격한 변동을 보다 완화해 표현하는 특징이 있다.
시계열 변동 요인
W 의료기관 상반기 외래 환자 수와 이동평균 그래프를 참고하면, 3월 외래환자 수가 급감한 현황을 확인할 수 있다. 여기서 우리는 겨울에서 봄으로 계절이 변화하면서 감기 환자 수가 감소했고 그 결과 3월부터 외래 환자 수가 감소한다는 예상을 해 볼 수 있다. 만약 매년 계절 변화로 큼지막한 환자 수 변동이 발생한다면 우리는 이를 시계열 자료에 내재된 계절변동(Seasonal Variation) 요인이라 말한다(그 외 추세변동, 순환변동, 불규칙변동을 더해 총 4가지 변동 요인이 있다).
지수평활법
모든 시계열 자료를 사용해 평균을 구하고 시간 흐름에 따라 최근 시계열에 더 높은 가중치를 부여해 추세를 계산한다.
차분과 ARIMA(Auto-regressive Integrated Moving-average)
이동평균을 활용해 월별 데이터의 평활화를 실시했지만, 아직 정상 시계열 자료로서 정상성이 높다고 보기 어렵다. 이동평균값을 일정 수준으로 계속 차분(Differencing)하여 회귀분석(=추세선 예측)하는 것이 ARIMA이다.
함께 보면 좋은 글
[빅데이터분석기사] 최근접 이웃(K-Nearest Neighbors)
[빅데이터분석기사] 의사결정나무(Decision Tree)
[빅데이터분석기사] 랜덤포레스트(Random Forest)
'빅데이터분석기사 > 개념' 카테고리의 다른 글
[빅데이터분석기사] 의사결정나무(Decision Tree) (0) | 2022.05.30 |
---|---|
[빅데이터분석기사] 최근접 이웃(K-Nearest Neighbors) (0) | 2022.05.29 |
[빅데이터분석기사] 로지스틱 회귀분석(Logistic Regression Analysis) (0) | 2022.05.27 |
[빅데이터분석기사] 회귀분석(Regression Analysis) (0) | 2022.05.26 |
[빅데이터분석기사] 주성분분석(Principal Component Analysis) (0) | 2022.05.25 |