회귀분석 5

[빅데이터분석기사] 빅분기 제6회 실기 시험 합격 후기

안녕하세요! 3회차 빅데이터분석기사 필기시험을 합격한 다음에 가볍게 시도한 3회차 실기 시험에 떨어지고 주구장창 다른 자격증 시험에 푹 빠져있다가 6회차 시험이 되서야 실기시험에 다시 응시하게 되었습니다. 그런데 하필이면 이번 6회차 시험부터 단답형 유형이 없어지고 통계분석 관련 작업형 3유형이 추가되었는데요, 이번 6회 실기시험에서는 이 3유형이 말도 많고 탈도 많더라구요. 자세한 이야기는 빅데이터분석기사 시험을 한번 소개해드리고 적어보겠습니다! 빅데이터분석기사란? 빅데이터분석기사는 한국데이터산업진흥원에서 주관하는 기사 시험으로 필기시험과 실기시험을 차례로 합격하시면 자격을 얻게 됩니다. 실기시험은 작업형1~3 유형의 문제들을 파이썬이나 R로 풀어내셔야하며 컴퓨터가 있는 고사장에서 코딩을 하면서 푸는 ..

[빅데이터분석기사] 최근접 이웃(K-Nearest Neighbors)

최근접 이웃 알고리즘은 우리가 예측하려고 하는 임의의 데이터와 가장 가까운 데이터 K개를 찾아 다수결에 의해 데이터를 예측하는 방법이다. 위 그림과 같이 두 그룹의 데이터가 있을 때 주어진 임의의 데이터가 어느 그룹에 속할 것인지를 K-NN 알고리즘으로 풀 수 있다. 별 데이터로부터 가장 가까운 K개 데이터들이 더 많이 속한 그룹으로 별 모양 데이터를 분류하는 알고리즘이다. K가 3이라면 3개의 데이터를 확인해 더 많은 데이터가 있는 B그룹으로 주어진 임의의 데이터를 분류한다. K의 선택 기준은 학습의 난이도와 데이터의 개수이며, 보통 훈련 데이터 개수의 제곱근으로 설정한다. K와 별 모양 데이터 간 좌표상 거리도 고려해야 한다. K를 4로 설정했다면 별 모양 데이터를 기준으로 4개의 데이터 간 떨어진 ..

[빅데이터분석기사] 시계열분석(Time-series Analysis)

시계열분석 시간에 따라 변화되는 자료의 패턴을 밝혀 가까운 미래를 예측하는 방법이다. 시계열분석을 위해서는 시계열 데이터가 준비돼야 한다. 시간의 경과만 한 축(x)을 구성하는 것이 아니라 시간 경과가 일정한 시차로 정돈되어 있을 때 이를 시계열 데이터로 본다. 시계열 데이터의 필수 조건, 정상성(Stationary) 정상성이란 '데이터 변동의 안정성'으로 달리 표현할 수 있다. 시간의 흐름에 따라 관측된 결과에서 세로축(y) 값의 변동이 지나치게 크다면 그 다음 예측에 관한 정확도가 높을 수 있을까? 그렇지 않을 것이다. 회귀분석에서 살펴보았듯이, 데이터의 분포가 추세선을 기준으로 잘 모여 있을 때(=표준오차가 작을 때), 해당 추세선이 보다 예측력이 높다고 배웠다. 마찬가지로 어떤 시계열 자료가 정확..

[빅데이터분석기사] 로지스틱 회귀분석(Logistic Regression Analysis)

로지스틱 회귀 데이터가 어떤 범주에 속할 확률을 0에서 1 사이의 값으로 예측하고, 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류하는 기법이다. 0.5 보다 크면 어떤 사건이 일어난다.(성공확률) 0.5 보다 작으면 어떤 사건이 일어나지 않는다.(실패확률) 합격/불합격, 성공/실패, 생존/사망, 진실/거짓 등 이분법적인 결과를 도출하기 위해 주로 사용되는 회귀분석 방식으로 예측을 주목적으로 하는 회귀분석과 차이가 있다. 로지스틱 회귀분석 방법 로지스틱 회귀 분석은 이진 분류를 수행한믄 데 사용된다. 즉, 데이터 샘플을 양성(1) 또는 음성(0) 클래스 둘 중 어디에 속하는지 예측한다. 각 속성(feature)들의 계수 log-odds를 구한 후 시그모이드 함수를 적용하여 실제로 데이터가 해..

[빅데이터분석기사] 회귀분석(Regression Analysis)

회귀분석 일반적으로 예측을 목표하는 통계 분석이다. 예측을 하는 방법에 핵심이 되는 개념이 바로 '추세선'이다. 좌표상에서 데이터의 분포와 앞으로의 변화를 가장 잘 설명할 수 있는 하나의 선을 그려내는 것이 회귀분석의 궁극적인 목적이 된다. 추세선의 의미 직선의 추세선을 수식으로 표현하면, y=ax+b와 같은 1차 방정식이 된다. 여기서 x와 y는 이미 알고 있는 데이터값이다. 여기서 수식을 활용해 데이터 변화의 추세를 확인하는 방법은 x와 y에 들어오는 값을 기준으로 해당 수식을 충족시키는 a(=기울기), b(=절편) 값을 찾는 것이다. 즉, 추세선을 통한 회귀적 예측이란 곧 a, b를 구하는 과정을 말하는 것이다. 여기서 a와 b를 '회귀계수'라 한다. 회귀의 시작, 최소제곱법(=최소자승법 Ordin..