train_test_split 4

[빅데이터분석기사] 작업형 2유형 연습문제 #3

생존여부 예측모델 만들기 학습용 데이터(X_train, y_train)을 이용하여 생존 예측 모형을 만든 후, 이를 평가용 데이터(X_test)에 적용하여 얻은 예측값을 다음과 같은 형식의 CSV 파일로 생성하시오(제출한 모델의 성능은 accuracy 평가지표에 따라 채점) (가) 제공 데이터 목록 - y_train : 생존여부(학습용) - X_train, X_test : 승객 정보(학습용 및 평가용) (나) 데이터 형식 및 내용 - y_train (712명 데이터) 시험환경 세팅은 예시문제와 동일한 형태의 X_train, y_train, X_test 데이터를 만들기 위함임 유의사항 - 성능이 우수한 예측모형을 구축하기 위해서는 적절한 데이터 전처리, 피처엔지니어링, 분류알고리즘, 하이퍼파라미터 튜닝, ..

[빅데이터분석기사] 작업형 2유형 연습문제 #2

데이터 출처 : https://www.kaggle.com/datasets/arashnic/hr-analytics-job-change-of-data-scientists HR Analytics: Job Change of Data Scientists Predict who will move to a new job www.kaggle.com import pandas as pd x_train = pd.read_csv("https://raw.githubusercontent.com/Datamanim/datarepo/main/HRdata/X_train.csv") y_train = pd.read_csv("https://raw.githubusercontent.com/Datamanim/datarepo/main/HRdata/y..

[빅데이터분석기사] 작업형 2유형 연습문제 #1

데이터 출처 : https://www.kaggle.com/datasets/shubh0799/churn-modelling Churn Modelling Deep Learning Artificial Neural Network Used. www.kaggle.com import pandas as pd x_train = pd.read_csv("https://raw.githubusercontent.com/Datamanim/datarepo/main/churnk/X_train.csv") y_train = pd.read_csv("https://raw.githubusercontent.com/Datamanim/datarepo/main/churnk/y_train.csv") x_test= pd.read_csv("https://r..

[빅데이터분석기사] 작업형 2유형 예시문제 풀이

import pandas as pd X_test = pd.read_csv("data/X_test.csv") X_train = pd.read_csv("data/X_train.csv") y_train = pd.read_csv("data/y_train.csv") # X_train에 적용한 전처리를 X_test에 동일하게 적용해야 함. # Data Science에서는 X_train과 X_test를 합친 데이터로 전처리를 하는 것은 Data Leakage 위배 # 기본적으로 X_train은 현재만 알 수 있는 정보이고, X_test는 알 수 없는 정보이기 때문에 합쳐서 전처리를 하는 것은 대뢰나 공모전에서 실격 사유에 해당. # LabelEncoding -> text 형태의 데이터를 정수 형태로 인코딩(ex. 강..