ensemble 5

[빅데이터분석기사] 작업형 2유형 연습문제 #3

생존여부 예측모델 만들기 학습용 데이터(X_train, y_train)을 이용하여 생존 예측 모형을 만든 후, 이를 평가용 데이터(X_test)에 적용하여 얻은 예측값을 다음과 같은 형식의 CSV 파일로 생성하시오(제출한 모델의 성능은 accuracy 평가지표에 따라 채점) (가) 제공 데이터 목록 - y_train : 생존여부(학습용) - X_train, X_test : 승객 정보(학습용 및 평가용) (나) 데이터 형식 및 내용 - y_train (712명 데이터) 시험환경 세팅은 예시문제와 동일한 형태의 X_train, y_train, X_test 데이터를 만들기 위함임 유의사항 - 성능이 우수한 예측모형을 구축하기 위해서는 적절한 데이터 전처리, 피처엔지니어링, 분류알고리즘, 하이퍼파라미터 튜닝, ..

[빅데이터분석기사] 실기 4회 2유형 풀이(Python)

자동차 시장 세분화 - 자동차 회사는 새로운 전략을 수립하기 위해 4개의 시장으로 세분화했습니다. - 기존 고객 분류 자료를 바탕으로 신규 고객이 어떤 분류에 속할지 예측해주세요! - 예측할 값(y) : "Segmentation" (1, 2, 3, 4) - 평가 : Macro f1-score - data : train.csv, test.csv - 제출형식 답안 제출 참고 - 아래 코드 예측변수와 수험번호를 개인별로 변경하여 활용 - pd.DataFrame({'ID' : test.ID, 'Segmentation' : pred})).to_csv('003000000.csv', index=False) 노트북 구분 - basic : 수치형 데이터만 활용 -> 학습 및 test 데이터 예측 - intermediat..

[빅데이터분석기사] 작업형 2유형 연습문제 #2

데이터 출처 : https://www.kaggle.com/datasets/arashnic/hr-analytics-job-change-of-data-scientists HR Analytics: Job Change of Data Scientists Predict who will move to a new job www.kaggle.com import pandas as pd x_train = pd.read_csv("https://raw.githubusercontent.com/Datamanim/datarepo/main/HRdata/X_train.csv") y_train = pd.read_csv("https://raw.githubusercontent.com/Datamanim/datarepo/main/HRdata/y..

[빅데이터분석기사] 작업형 2유형 연습문제 #1

데이터 출처 : https://www.kaggle.com/datasets/shubh0799/churn-modelling Churn Modelling Deep Learning Artificial Neural Network Used. www.kaggle.com import pandas as pd x_train = pd.read_csv("https://raw.githubusercontent.com/Datamanim/datarepo/main/churnk/X_train.csv") y_train = pd.read_csv("https://raw.githubusercontent.com/Datamanim/datarepo/main/churnk/y_train.csv") x_test= pd.read_csv("https://r..

[빅데이터분석기사] 앙상블(Ensemble)

앙상블 학습(Ensemble Learning) 그동안 우리는 여러 기계학습 모델들을 살펴보았다. 이렇게 개별적으로 동작하는 모델들을 모아 종합적으로 의사결정을 한다면 어떨까? 앙상블은 프랑스어로 전체적인 어울림이나 통일을 의미하며 음악에서 2인 이상의 가창이나 합주를 의미하기도 한다. 예측력을 높이기 위해 여러 가지 학습알고리즘이 어울려 성능을 높이는 방식을 기계학습 분야에서 앙상블(Ensemble) 학습이라 한다. 앙상블 종류 앙상블 학습 방식에는 크게 Voting, Bagging, Boosting의 3가지로 나눌 수 있다. Voting(투표) 방식은 여러 모델로부터 나온 후보 결과들 중 다수가 나온 결과를 채택하는 방식이다. Bagging은 같은 모델을 사용하지만 훈련세트에서 중복을 허용한 여러 부분..