ISNULL 4

[빅데이터분석기사] 실기 4회 2유형 풀이(Python)

자동차 시장 세분화 - 자동차 회사는 새로운 전략을 수립하기 위해 4개의 시장으로 세분화했습니다. - 기존 고객 분류 자료를 바탕으로 신규 고객이 어떤 분류에 속할지 예측해주세요! - 예측할 값(y) : "Segmentation" (1, 2, 3, 4) - 평가 : Macro f1-score - data : train.csv, test.csv - 제출형식 답안 제출 참고 - 아래 코드 예측변수와 수험번호를 개인별로 변경하여 활용 - pd.DataFrame({'ID' : test.ID, 'Segmentation' : pred})).to_csv('003000000.csv', index=False) 노트북 구분 - basic : 수치형 데이터만 활용 -> 학습 및 test 데이터 예측 - intermediat..

[빅데이터분석기사] 실기 3회 1유형 풀이(Python)

문제1 - 2022년 데이터 중 2022년 중앙값보다 큰 값의 데이터 수 - data : t1-data2.csv import pandas as pd df = pd.read_csv("../input/big-data-analytics-certification/t1-data2.csv", index_col='year') m = df.loc["2022년"].median() print(sum(df.loc["2022년", :] > m)) 문제2 - 결측치 데이터(행)을 제거하고, 앞에서부터 60% 데이터만 활용해, 'f1' 컬럼 3사분위 값을 구하시오. - 60%가 소수점일 경우 절사(예 : 36.6 일 때 36으로 계산) import pandas as pd df = pd.read_csv("../input/big-d..

[빅데이터분석기사] 실기 2회 1유형 풀이(Python)

문제 1 - 데이터셋(basic1.csv)의 'f5' 컬럼을 기준으로 상위 10개의 데이터를 구하고, - 'f5' 컬럼 10개 중 최소값으로 데이터를 대체한 후, - 'age' 컬럼에서 80 이상인 데이터의 'f5' 컬럼 평균값 구하기 # 라이브러리 및 데이터 불러오기 import pandas as pd df = pd.read_csv('../input/bigdatacertificationkr/basic1.csv') df.head() # f5 컬럼을 기준으로 내림차순 정렬 df = df.sort_value('f5' ascending = False) df.head(10) # 최소값 찾기 min = df['f5'][:10].min() min df.iloc[:10, -1] = min df.head(10) # 8..

[빅데이터분석기사] 데이터탐색과 데이터정제 실습 (2)

4. 변수 변환 4-1. log 변환 import numpy as np data['log_salary'] = np.log(data['salary']) data['log_sales'] = np.log(data['sales']) data['log_roe'] = np.log(data['roe']) data.head() data.hist(bins=50, figsize=(20, 15)) data.corr() 4-2. 제곱근 변환 data['sqrt_salary'] = np.sqrt(data['salary']) data['sqrt_sales'] = np.sqrt(data['sales']) data['sqrt_roe'] = np.sqrt(data['roe']) data.head() data.hist(bins=50, ..