빅데이터분석기사/개념

[빅데이터분석기사] 시계열분석(Time-series Analysis)

EveningPrimrose 2022. 5. 28. 00:01
반응형

시계열분석

 

  시간에 따라 변화되는 자료의 패턴을 밝혀 가까운 미래를 예측하는 방법이다. 시계열분석을 위해서는 시계열 데이터가 준비돼야 한다. 시간의 경과만 한 축(x)을 구성하는 것이 아니라 시간 경과가 일정한 시차로 정돈되어 있을 때 이를 시계열 데이터로 본다.

 

 

시계열 데이터의 필수 조건, 정상성(Stationary)

 

  정상성이란 '데이터 변동의 안정성'으로 달리 표현할 수 있다. 시간의 흐름에 따라 관측된 결과에서 세로축(y) 값의 변동이 지나치게 크다면 그 다음 예측에 관한 정확도가 높을 수 있을까? 그렇지 않을 것이다.

 

  회귀분석에서 살펴보았듯이, 데이터의 분포가 추세선을 기준으로 잘 모여 있을 때(=표준오차가 작을 때), 해당 추세선이 보다 예측력이 높다고 배웠다. 마찬가지로 어떤 시계열 자료가 정확한 간격으로 데이터를 관측했다 할지라도 변동성이 너무 크게 나타난다면 다음 관측 결과에 대한 예측의 의미가 퇴색될 것이다. 따라서 올바은 시계열 분석을 위해 '비정상' 시계열 자료를 '정상' 시계열 자료로 전처리하는 과정이 분석 만큼이나 중요하다.

 

 

정상성을 확보하는 방법, 차분(Difference)과 변환(Transformation)

 

  정상 시계열로 조정하는 방법이다. 일반적으로 평균 변동이 크면 직전 값에서 현재 값을 빼는 차분의 과정을 거치고, 분산이 시점에 따라 다르면 변환 과정을 거쳐 정상성을 충족시킨다. 변환을 통해 정상성을 높이는 방법에는 이동평균법, 지수평활법 등이 있다.

 

비정상자료의 정상성 확보

 

시계열분석 모형

 

  시계열분석은 기본적으로 선형 예측을 전제로 한다. 시간을 가로축에 놓은 회귀분석이라고 할 수 있다. 뚜렷한 상관관계를 바탕으로 하는 선형 회귀분석은 미래는 과거를 닮는다는 전제를 바탕으로 시계열 분석으로 응용되었다.

 

시계열분석 모형의 대표적인 종류

 

직전 데이터와 지금 데이터의 평균, MA(Moving-average)

 

  이동평균은 직전 데이터와 지금 데이터의 평균을 의미한다. 아래 표는 서울의 W 의료기관의 외래 환자를 월 단위로 정리하고 월별 이동평균을 구해 그래프로 나타낸 내용이다. 이동평균은 급격한 변동을 보다 완화해 표현하는 특징이 있다.

 

W 의료기관 상반기 외래 환자 수와 이동평균

 

시계열 변동 요인

 

  W 의료기관 상반기 외래 환자 수와 이동평균 그래프를 참고하면, 3월 외래환자 수가 급감한 현황을 확인할 수 있다. 여기서 우리는 겨울에서 봄으로 계절이 변화하면서 감기 환자 수가 감소했고 그 결과 3월부터 외래 환자 수가 감소한다는 예상을 해 볼 수 있다. 만약 매년 계절 변화로 큼지막한 환자 수 변동이 발생한다면 우리는 이를 시계열 자료에 내재된 계절변동(Seasonal Variation) 요인이라 말한다(그 외 추세변동, 순환변동, 불규칙변동을 더해 총 4가지 변동 요인이 있다).

 

ARIMA와 SARIMA 결과

 

지수평활법

 

  모든 시계열 자료를 사용해 평균을 구하고 시간 흐름에 따라 최근 시계열에 더 높은 가중치를 부여해 추세를 계산한다.

 

차분과 ARIMA(Auto-regressive Integrated Moving-average)

 

  이동평균을 활용해 월별 데이터의 평활화를 실시했지만, 아직 정상 시계열 자료로서 정상성이 높다고 보기 어렵다. 이동평균값을 일정 수준으로 계속 차분(Differencing)하여 회귀분석(=추세선 예측)하는 것이 ARIMA이다.

 

 

함께 보면 좋은 글

 

[빅데이터분석기사] 최근접 이웃(K-Nearest Neighbors)

 

[빅데이터분석기사] 최근접 이웃(K-Nearest Neighbors)

최근접 이웃 알고리즘은 우리가 예측하려고 하는 임의의 데이터와 가장 가까운 데이터 K개를 찾아 다수결에 의해 데이터를 예측하는 방법이다. 위 그림과 같이 두 그룹의 데이터가 있을 때 주어

it-utopia.tistory.com

 

[빅데이터분석기사] 의사결정나무(Decision Tree)

 

[빅데이터분석기사] 의사결정나무(Decision Tree)

의사결정나무 일종의 분류 기법이다. 전체 집단을 계속 양분하는 분류기법으로써 분기가 발생하는 포인트(=노드)에는 기준이 되는 질문이 있어 기준 질문에 부합하냐(YES), 부합하지 않느냐(NO)에

it-utopia.tistory.com

 

[빅데이터분석기사] 랜덤포레스트(Random Forest)

 

[빅데이터분석기사] 랜덤포레스트(Random Forest)

랜덤포레스트(RF) 의사결정나무를 여러개 모아서 데이터 분류 및 예측을 수행하는 AI알고리즘이다. 어떤 데이터 집단에 대한 분류나 예측을 실시한다고 할 때, 하나의 결정트리를 사용하는 것보

it-utopia.tistory.com

 

[빅데이터분석기사] 앙상블(Ensemble)

 

[빅데이터분석기사] 앙상블(Ensemble)

앙상블 학습(Ensemble Learning) 그동안 우리는 여러 기계학습 모델들을 살펴보았다. 이렇게 개별적으로 동작하는 모델들을 모아 종합적으로 의사결정을 한다면 어떨까? 앙상블은 프랑스어로 전체적

it-utopia.tistory.com

 

[빅데이터분석기사] 서포트벡터머신(SVM)

 

[빅데이터분석기사] 서포트벡터머신(SVM)

서포트벡터머신(SVM) 분류를 위한 기준선을 정의하는 모델이다. 분류되지 않은 새로운 점이 나타나면 어느 쪽에 속하는지 확인을 위해서 결정 경계를 정한다. 데이터에 2개 속성(feature)만 있다면

it-utopia.tistory.com

 

반응형