랜덤포레스트 3

[빅데이터분석기사] 랜덤포레스트(Random Forest)

랜덤포레스트(RF) 의사결정나무를 여러개 모아서 데이터 분류 및 예측을 수행하는 AI알고리즘이다. 어떤 데이터 집단에 대한 분류나 예측을 실시한다고 할 때, 하나의 결정트리를 사용하는 것보다 여러 트리를 결합해서 사용하면 보다 높은 성능의 알고리즘 모형을 만들 수 있다. 여러 나무와 하나의 포레스트, 배깅(Bagging, Bootstrap Aggregationg) 결정트리를 독립병렬 결합하는 방식을 배깅이라고 한다. 원 자료에서 하위 데이터 세트를 만드는 부트스트랩 과정을 포함한다. 데이터 건수는 동일하게 그리고 데이터 무작위 추출 시 중복은 허용(복원추출)하여 각 트리 모형들이 학습할 데이터 세트를 그 수에 맞게 준비해야 한다. 가령 결정트리 서른 개를 사용한다면, 전체 자료에서 데이터를 추출하여 30..

[빅데이터분석기사] 제3회 실기 시험 불합격 후기

안녕하세요! 일전에 빅데이터분석기사 필기시험에 응시해서 합격한 후 지난 12월 4일에 빅데이터분석기사 실기시험에 응시하고 왔습니다! 저는 IT 전공자에 전산실 기획업무를 담당하고 있지만 파이썬이나 R 언어를 다룰일이 없어 시험이 어렵게만 느껴졌던거 같습니다(물론 공부를 더 하면 됐겠지만..). 빅데이터분석기사 시험이 익숙치 않은분들을 위해 소개를 먼저 해드리고, 후기도 작성해드리겠습니다! 빅데이터분석기사 시험이란? 빅데이터분석기사 시험은 한국데이터산업진흥원(K-Data)에서 주관하는 기사급 시험으로 필기시험과 실기시험 두가지를 차례로 합격하시면 자격이 주어지게 됩니다. 실기시험은 빅데이터 분석 실무 관련 단답형과 작업형 문제들을 풀어내셔야 하는데 종이에 적어서 제출하는 방식이 아니라 컴퓨터가 있는 고사장..

[빅데이터분석기사] 파이썬 머신러닝(ML) 기본 틀 맛보기

일단 아래의 머신러닝 전 과정을 한번 훑고, 세부적으로 공부할 것 ---분석데이터 검토--- import pandas as pd data=pd.read_csv('데이터명', encoding='utf-8') data.head() print(data.shape()) ---특성(X)과 레이블(y) 나누기--- X1=data[['a', 'b', 'c']] y=data[['z']] ---train, test 데이터셋 나누기--- from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X1, y, stratify=y, random_state=42) ---정규화(MinMax)--- fr..