RandomForest 3

[빅데이터분석기사] 빅분기 제6회 실기 시험 합격 후기

안녕하세요! 3회차 빅데이터분석기사 필기시험을 합격한 다음에 가볍게 시도한 3회차 실기 시험에 떨어지고 주구장창 다른 자격증 시험에 푹 빠져있다가 6회차 시험이 되서야 실기시험에 다시 응시하게 되었습니다. 그런데 하필이면 이번 6회차 시험부터 단답형 유형이 없어지고 통계분석 관련 작업형 3유형이 추가되었는데요, 이번 6회 실기시험에서는 이 3유형이 말도 많고 탈도 많더라구요. 자세한 이야기는 빅데이터분석기사 시험을 한번 소개해드리고 적어보겠습니다! 빅데이터분석기사란? 빅데이터분석기사는 한국데이터산업진흥원에서 주관하는 기사 시험으로 필기시험과 실기시험을 차례로 합격하시면 자격을 얻게 됩니다. 실기시험은 작업형1~3 유형의 문제들을 파이썬이나 R로 풀어내셔야하며 컴퓨터가 있는 고사장에서 코딩을 하면서 푸는 ..

[빅데이터분석기사] 작업형 2유형 예시문제 풀이

import pandas as pd X_test = pd.read_csv("data/X_test.csv") X_train = pd.read_csv("data/X_train.csv") y_train = pd.read_csv("data/y_train.csv") # X_train에 적용한 전처리를 X_test에 동일하게 적용해야 함. # Data Science에서는 X_train과 X_test를 합친 데이터로 전처리를 하는 것은 Data Leakage 위배 # 기본적으로 X_train은 현재만 알 수 있는 정보이고, X_test는 알 수 없는 정보이기 때문에 합쳐서 전처리를 하는 것은 대뢰나 공모전에서 실격 사유에 해당. # LabelEncoding -> text 형태의 데이터를 정수 형태로 인코딩(ex. 강..

[빅데이터분석기사] 랜덤포레스트(Random Forest)

랜덤포레스트(RF) 의사결정나무를 여러개 모아서 데이터 분류 및 예측을 수행하는 AI알고리즘이다. 어떤 데이터 집단에 대한 분류나 예측을 실시한다고 할 때, 하나의 결정트리를 사용하는 것보다 여러 트리를 결합해서 사용하면 보다 높은 성능의 알고리즘 모형을 만들 수 있다. 여러 나무와 하나의 포레스트, 배깅(Bagging, Bootstrap Aggregationg) 결정트리를 독립병렬 결합하는 방식을 배깅이라고 한다. 원 자료에서 하위 데이터 세트를 만드는 부트스트랩 과정을 포함한다. 데이터 건수는 동일하게 그리고 데이터 무작위 추출 시 중복은 허용(복원추출)하여 각 트리 모형들이 학습할 데이터 세트를 그 수에 맞게 준비해야 한다. 가령 결정트리 서른 개를 사용한다면, 전체 자료에서 데이터를 추출하여 30..