빅데이터분석기사/코드 31

[빅데이터분석기사] 모델평가

1. 데이터 불러오기 및 데이터셋 분할 # 분석 데이터 불러오기 import warnings warnings.filterwarnings("ignore") import pandas as pd data = pd.read_csv('Fvote.csv', encoding='utf-8') # 특성치와 레이블 데이터셋 구분 X = data[data.columns[1:13]] y = data[['vote']] # 훈련 데이터, 테스트 데이터 분할 from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=42) 2. Grid Search..

[빅데이터분석기사] 모델훈련과 튜닝

1. 데이터 불러오기 및 데이터셋 분할 # 분석 데이터 불러오기 import warning warning.filterwarnings("ignore") import pandas as pd data = pd.read_csv('Fvote.csv', encoding='utf-8') # 특성치와 레이블 데이터셋 구분 X = data[data.columns[1:13]] y = data[['vote']] # 훈련 데이터, 테스트 데이터 분할 from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, statify=y, random_state=42) 2. Grid Search # ..

[빅데이터분석기사] 데이터 스케일링

1. 데이터 불러오기 및 확인 # 분석데이터(선거행동) 불러와서 데이터 확인 import pandas as pd data = pd.read_csv("Fvote.csv', encoding='utf-8') data.head() data.describe() data.hist(figsize=(20, 10)) 2. 특성(X)과 레이블(y) 나누기 # 특성 변수와 레이블 변수 나누기 X = data.loc[:, 'gender_female':'score_intention'] y = data[['vote']] # 특성변수와 레이블 변수 행열확인 print(X.shape) print(y.shape) (211, 13) (211, 1) 3. train-test 데이터셋 나누기 # 학습용 데이터(train)와 테스트용 데이터..

[빅데이터분석기사] 데이터셋 분할과 모델검증

1. 특성치(X), 레이블(y) 나누기 # 데이터셋 불러오기 및 확인 import warnings warning.filterwarnings("ignore") import pandas as pd data = pd.read_csv('Fvote.csv', encoding='utf-8') data.head() # 특성변수 데이터셋 나누기 # 방법1 : 특성이름으로 데이터셋 나누기 X = data[['gender_female', gender_male', 'region_Chungcheong', 'region_Honam' 'region_Others', region_Sudo', 'region_Youngnam', 'edu', 'income', 'age', 'score_gov', 'score_pregress', 'scor..

[빅데이터분석기사] 범주변수의 변환(one-hot-encoding)

1. 데이터범주-연속-레이블로 나누기 # vote(유권자 선거행동) 데이터셋 불러오기 및 확인 import pandas as pd data = pd.read_csv('vote.csv', encoding='utf-8') data.head() # 범주변수와 기타 변수를 각각 X1과 XY로 나누기 X1 = data[['gender', 'region']] XY = data[['edu', 'income', 'age', 'score_gov', 'score_progress', 'score_intention', 'vote', 'parties']] 2. 범주형 변수의 One-hot-encoding 변환 # 성별(gender)과 출신지역(region)의 숫자를 문자로 변환 X1['gender'] = X1['gender']..

[빅데이터분석기사] 데이터탐색과 데이터정제 실습 (2)

4. 변수 변환 4-1. log 변환 import numpy as np data['log_salary'] = np.log(data['salary']) data['log_sales'] = np.log(data['sales']) data['log_roe'] = np.log(data['roe']) data.head() data.hist(bins=50, figsize=(20, 15)) data.corr() 4-2. 제곱근 변환 data['sqrt_salary'] = np.sqrt(data['salary']) data['sqrt_sales'] = np.sqrt(data['sales']) data['sqrt_roe'] = np.sqrt(data['roe']) data.head() data.hist(bins=50, ..

[빅데이터분석기사] 데이터탐색과 데이터정제 실습 (1)

1. 데이터탐색: 단변량 import pandas as pd data=pd.read_csv('Ex_CEOSalary.csv', encoding='utf-8') data.info() data.head() 1-1. 범주형 자료의 탐색 data['industry'].value_counts() data['industry'] = data['industry'].replace([1, 2, 3, 4], ['Service', 'IT', 'Finance', 'Others']) data['industry'].value_counts() %matplotlib inline data['industry'].value_counts().plot(kind="pie") data['industry'].value_counts().plot(ki..

[빅데이터분석기사] 파이썬 데이터 정제 실습

1. 데이터 불러오기 및 탐색 import pandas as pd data = pd.read_csv('house_raw.csv') data.head() data.describe() data.hist(bins=50, figsize=(20, 15)) array([, ], [ ], [, ]], dtype=object) 2. 선형회귀 적용(정제 전 데이터) # 특성데이터셋, 레이블 데이터셋 나누기 X = data[data.column[0:5]] y = data[["house_value"]] # 학습용 데이터(tarin)와 테스트용 데이터(test) 구분을 위한 라이브러리 불러오기 from sklearn.model_selection import train_test_split X_train, X_test, y_tr..

[빅데이터분석기사] 파이썬(Python) 기초 - 자료형 if문 반복문

1. 숫자형(number) # 정수형, 실수형 a = 123 b = -123.4 a+b -0.4000000000000057 # 8진수 c = 0o34 d = 0o24 c+d 48 # 16진수 e = 0x2A f = 0xFF e+f 297 2. 문자형(String) # 문자열 s = 'WiseInCompany' s1 = 'WiseInCompany' s2 = '''WiseInCompany' s3 = "123" print(s) print(s1) print(s2) print(s3) print(type(s3)) WiseInCompany WiseInCompany WiseInCompany 123 # 문자열 연산하기 a = "Wise" b = "InCompany" print(a+b) a = "WiseInCompany"..

[빅데이터분석기사] 파이썬 머신러닝(ML) 기본 틀 맛보기

일단 아래의 머신러닝 전 과정을 한번 훑고, 세부적으로 공부할 것 ---분석데이터 검토--- import pandas as pd data=pd.read_csv('데이터명', encoding='utf-8') data.head() print(data.shape()) ---특성(X)과 레이블(y) 나누기--- X1=data[['a', 'b', 'c']] y=data[['z']] ---train, test 데이터셋 나누기--- from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X1, y, stratify=y, random_state=42) ---정규화(MinMax)--- fr..