머신러닝 6

[빅데이터분석기사] 모델평가

1. 데이터 불러오기 및 데이터셋 분할 # 분석 데이터 불러오기 import warnings warnings.filterwarnings("ignore") import pandas as pd data = pd.read_csv('Fvote.csv', encoding='utf-8') # 특성치와 레이블 데이터셋 구분 X = data[data.columns[1:13]] y = data[['vote']] # 훈련 데이터, 테스트 데이터 분할 from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=42) 2. Grid Search..

[빅데이터분석기사] 모델훈련과 튜닝

1. 데이터 불러오기 및 데이터셋 분할 # 분석 데이터 불러오기 import warning warning.filterwarnings("ignore") import pandas as pd data = pd.read_csv('Fvote.csv', encoding='utf-8') # 특성치와 레이블 데이터셋 구분 X = data[data.columns[1:13]] y = data[['vote']] # 훈련 데이터, 테스트 데이터 분할 from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, statify=y, random_state=42) 2. Grid Search # ..

[빅데이터분석기사] 데이터 스케일링

1. 데이터 불러오기 및 확인 # 분석데이터(선거행동) 불러와서 데이터 확인 import pandas as pd data = pd.read_csv("Fvote.csv', encoding='utf-8') data.head() data.describe() data.hist(figsize=(20, 10)) 2. 특성(X)과 레이블(y) 나누기 # 특성 변수와 레이블 변수 나누기 X = data.loc[:, 'gender_female':'score_intention'] y = data[['vote']] # 특성변수와 레이블 변수 행열확인 print(X.shape) print(y.shape) (211, 13) (211, 1) 3. train-test 데이터셋 나누기 # 학습용 데이터(train)와 테스트용 데이터..

[빅데이터분석기사] 데이터셋 분할과 모델검증

1. 특성치(X), 레이블(y) 나누기 # 데이터셋 불러오기 및 확인 import warnings warning.filterwarnings("ignore") import pandas as pd data = pd.read_csv('Fvote.csv', encoding='utf-8') data.head() # 특성변수 데이터셋 나누기 # 방법1 : 특성이름으로 데이터셋 나누기 X = data[['gender_female', gender_male', 'region_Chungcheong', 'region_Honam' 'region_Others', region_Sudo', 'region_Youngnam', 'edu', 'income', 'age', 'score_gov', 'score_pregress', 'scor..

[빅데이터분석기사] 범주변수의 변환(one-hot-encoding)

1. 데이터범주-연속-레이블로 나누기 # vote(유권자 선거행동) 데이터셋 불러오기 및 확인 import pandas as pd data = pd.read_csv('vote.csv', encoding='utf-8') data.head() # 범주변수와 기타 변수를 각각 X1과 XY로 나누기 X1 = data[['gender', 'region']] XY = data[['edu', 'income', 'age', 'score_gov', 'score_progress', 'score_intention', 'vote', 'parties']] 2. 범주형 변수의 One-hot-encoding 변환 # 성별(gender)과 출신지역(region)의 숫자를 문자로 변환 X1['gender'] = X1['gender']..

[빅데이터분석기사] 파이썬 머신러닝(ML) 기본 틀 맛보기

일단 아래의 머신러닝 전 과정을 한번 훑고, 세부적으로 공부할 것 ---분석데이터 검토--- import pandas as pd data=pd.read_csv('데이터명', encoding='utf-8') data.head() print(data.shape()) ---특성(X)과 레이블(y) 나누기--- X1=data[['a', 'b', 'c']] y=data[['z']] ---train, test 데이터셋 나누기--- from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X1, y, stratify=y, random_state=42) ---정규화(MinMax)--- fr..