import pandas as pd X_test = pd.read_csv("data/X_test.csv") X_train = pd.read_csv("data/X_train.csv") y_train = pd.read_csv("data/y_train.csv") # X_train에 적용한 전처리를 X_test에 동일하게 적용해야 함. # Data Science에서는 X_train과 X_test를 합친 데이터로 전처리를 하는 것은 Data Leakage 위배 # 기본적으로 X_train은 현재만 알 수 있는 정보이고, X_test는 알 수 없는 정보이기 때문에 합쳐서 전처리를 하는 것은 대뢰나 공모전에서 실격 사유에 해당. # LabelEncoding -> text 형태의 데이터를 정수 형태로 인코딩(ex. 강..