pandas 9

[빅데이터분석기사] 작업형 1유형 예시문제 풀이

# pandas 문법으로 풀이 import pandas as pd a = pd.read_csv('data/mtcars.csv', index_col=0) # Min Max Scale은 (X-min) / (max-min) qsec_max = a['qsec'].max() qsec_min = a['qsec'].min() a['minmax_scaled_qsec'] = (a['qsec'] - qsec_min) / (qsec_max - qsec_min) over_0_5 = a[a['minmax_scaled_qsec'] > 0.5] nrows = over_0_5.shape[0] print(f'Pandas 문법 사용 했을 때 0.5보다 큰 레코드 수는 {nrows}') # sklearn의 MinMaxScaler 사용 i..

[빅데이터분석기사] 모델훈련과 튜닝

1. 데이터 불러오기 및 데이터셋 분할 # 분석 데이터 불러오기 import warning warning.filterwarnings("ignore") import pandas as pd data = pd.read_csv('Fvote.csv', encoding='utf-8') # 특성치와 레이블 데이터셋 구분 X = data[data.columns[1:13]] y = data[['vote']] # 훈련 데이터, 테스트 데이터 분할 from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, statify=y, random_state=42) 2. Grid Search # ..

[빅데이터분석기사] 데이터 스케일링

1. 데이터 불러오기 및 확인 # 분석데이터(선거행동) 불러와서 데이터 확인 import pandas as pd data = pd.read_csv("Fvote.csv', encoding='utf-8') data.head() data.describe() data.hist(figsize=(20, 10)) 2. 특성(X)과 레이블(y) 나누기 # 특성 변수와 레이블 변수 나누기 X = data.loc[:, 'gender_female':'score_intention'] y = data[['vote']] # 특성변수와 레이블 변수 행열확인 print(X.shape) print(y.shape) (211, 13) (211, 1) 3. train-test 데이터셋 나누기 # 학습용 데이터(train)와 테스트용 데이터..

[빅데이터분석기사] 범주변수의 변환(one-hot-encoding)

1. 데이터범주-연속-레이블로 나누기 # vote(유권자 선거행동) 데이터셋 불러오기 및 확인 import pandas as pd data = pd.read_csv('vote.csv', encoding='utf-8') data.head() # 범주변수와 기타 변수를 각각 X1과 XY로 나누기 X1 = data[['gender', 'region']] XY = data[['edu', 'income', 'age', 'score_gov', 'score_progress', 'score_intention', 'vote', 'parties']] 2. 범주형 변수의 One-hot-encoding 변환 # 성별(gender)과 출신지역(region)의 숫자를 문자로 변환 X1['gender'] = X1['gender']..

[빅데이터분석기사] 데이터탐색과 데이터정제 실습 (1)

1. 데이터탐색: 단변량 import pandas as pd data=pd.read_csv('Ex_CEOSalary.csv', encoding='utf-8') data.info() data.head() 1-1. 범주형 자료의 탐색 data['industry'].value_counts() data['industry'] = data['industry'].replace([1, 2, 3, 4], ['Service', 'IT', 'Finance', 'Others']) data['industry'].value_counts() %matplotlib inline data['industry'].value_counts().plot(kind="pie") data['industry'].value_counts().plot(ki..

[빅데이터분석기사] 파이썬 데이터 정제 실습

1. 데이터 불러오기 및 탐색 import pandas as pd data = pd.read_csv('house_raw.csv') data.head() data.describe() data.hist(bins=50, figsize=(20, 15)) array([, ], [ ], [, ]], dtype=object) 2. 선형회귀 적용(정제 전 데이터) # 특성데이터셋, 레이블 데이터셋 나누기 X = data[data.column[0:5]] y = data[["house_value"]] # 학습용 데이터(tarin)와 테스트용 데이터(test) 구분을 위한 라이브러리 불러오기 from sklearn.model_selection import train_test_split X_train, X_test, y_tr..

[빅데이터분석기사] 넘파이(numpy) 판다스(pandas)

1. numpy 배열 생성 # numpy 배열 기본 import numpy as np v1 = np.array([1, 2, 3, 4]) print(v1) [1 2 3 4] # 연속되거나 일정한 규칙을 가진 숫자 v1 = np.arange(5) print(v1) # 연속되거나 일정한 규칙을 가진 숫자, 데이터 형태 지정 v2 = np.arange(1, 10, 2, dtype=int) v3 = np.arange(3.5, 10.5, 2, dtype=float) print(v2) print(v3) # 제곱값 생성 v4 = np.arange(1, 10, 2)**2 print(v4) # 세제곱값 생성 v5 = np.arange(1, 10, 2)**3 print(v5) [0 1 2 3 4] [1 3 5 7 9] [3..

[빅데이터분석기사] 연관규칙분석(Association Rule Analysis)

연관분석 연관분석이란, 대량의 트랜잭션 정보로부터 개별 데이터(변수) 사이에서 연관규칙(x면 y가 발생)을 찾는 것을 말한다. 가령 슈퍼마켓의 구매내역에서 특정 물건의 판매 발생 빈도를 기반으로 'A 물건을 구매하는 사람들은 B 물건을 구매하는 경향이 있다.'라는 규칙을 찾을 수 있다. 다른 말로 장바구니 분석(Market Basket)이라 한다. 연관규칙 조건 결과의 빈도수를 기반으로 표현되기 때문에 비교적 결과를 쉽게 이해할 수 있다. 구매내역의 자료 구조를 가지기 때문에 특별한 전처리 과정을 필요로 하지 않는다. 그러나 품목의 개수가 늘어남에 따라 분석에 필요한 계산의 수가 기하급수적으로 증가하는 단점이 있다. 넷플릭스(Netflex)도 연관규칙을 추천 알고리즘에 적용했다. A영화에 대한 시청 결과..

[빅데이터분석기사] 실기 시험 준비 전 꿀팁

안녕하세요! 요전번에 빅데이터분석기사 필기 시험에 합격하고 본격적으로 빅데이터분석기사 실기 시험에 대비하려고 하는데, 한국데이터산업진흥원에서 빅데이터분석기사 실기시험 응시 가이드 문서를 올려준게 있더라구요! ※ 원문은 아래 파일을 참고 제약사항에서 몇가지 팁이 있어서 공유하고자 글을 적습니다! 1. 라인별 실행, 그래프 기능, 단축키, 자동완성 기능 미제공 → 라인별 실행이 되지 않는다는 것은 전체 분석 코드를 한 번에 실행하라는 의미이므로, 분석을 하면서 각 단계별 코드 결과를 확인하기보다 데이터 불러오기부터 머신러닝 수행까지 전체 핵심코드를 한번에 수행해야 함 → 단축키와 자동완성 기능이 제공되지 않는다는 것은 코드를 외워서 응시해야한다는 의미 2. 코드 실행 시간은 1분으로 제한 → 수 만건 이상의..