빅데이터분석기사/코드 31

[빅데이터분석기사] 실기 3회 1유형 풀이(Python)

문제1 - 2022년 데이터 중 2022년 중앙값보다 큰 값의 데이터 수 - data : t1-data2.csv import pandas as pd df = pd.read_csv("../input/big-data-analytics-certification/t1-data2.csv", index_col='year') m = df.loc["2022년"].median() print(sum(df.loc["2022년", :] > m)) 문제2 - 결측치 데이터(행)을 제거하고, 앞에서부터 60% 데이터만 활용해, 'f1' 컬럼 3사분위 값을 구하시오. - 60%가 소수점일 경우 절사(예 : 36.6 일 때 36으로 계산) import pandas as pd df = pd.read_csv("../input/big-d..

[빅데이터분석기사] 실기 2회 2유형 풀이(Python)

전자상거래 배송 데이터 제품 배송 시간에 맞춰 배송되었는지 예측모델 만들기 학습용 데이터 (X_train, y_train)을 이용하여 배송 예측 모형을 만든 후, 이를 평가용 데이터(X_test)에 적용하여 얻는 예측 확률값을 다음과 같은 형식의 CSV 파일로 생성하시오.(제출한 모델의 성능은 ROC-AUC 평가지표에 따라 채점) (유의사항) - 성능이 우수한 예측모형을 구현하기 위해서는 적절한 데이터 전처리, 피처엔지니어링, 분류알고리즘, 하이퍼파라미터 튜닝, 모형 앙상블 등이 수반되어야 한다. - 수험번호.csv 파일이 만들어지도록 코드를 제출한다. - 제출한 모델의 성능은 ROC-AUC 형태로 읽어들인다. 데이터 파일 읽기 예제 - import pandas as pd - X_test = pd.rea..

[빅데이터분석기사] 실기 2회 1유형 풀이(Python)

문제 1 - 데이터셋(basic1.csv)의 'f5' 컬럼을 기준으로 상위 10개의 데이터를 구하고, - 'f5' 컬럼 10개 중 최소값으로 데이터를 대체한 후, - 'age' 컬럼에서 80 이상인 데이터의 'f5' 컬럼 평균값 구하기 # 라이브러리 및 데이터 불러오기 import pandas as pd df = pd.read_csv('../input/bigdatacertificationkr/basic1.csv') df.head() # f5 컬럼을 기준으로 내림차순 정렬 df = df.sort_value('f5' ascending = False) df.head(10) # 최소값 찾기 min = df['f5'][:10].min() min df.iloc[:10, -1] = min df.head(10) # 8..

[빅데이터분석기사] 작업형 2유형 연습문제 #2

데이터 출처 : https://www.kaggle.com/datasets/arashnic/hr-analytics-job-change-of-data-scientists HR Analytics: Job Change of Data Scientists Predict who will move to a new job www.kaggle.com import pandas as pd x_train = pd.read_csv("https://raw.githubusercontent.com/Datamanim/datarepo/main/HRdata/X_train.csv") y_train = pd.read_csv("https://raw.githubusercontent.com/Datamanim/datarepo/main/HRdata/y..

[빅데이터분석기사] 작업형 2유형 연습문제 #1

데이터 출처 : https://www.kaggle.com/datasets/shubh0799/churn-modelling Churn Modelling Deep Learning Artificial Neural Network Used. www.kaggle.com import pandas as pd x_train = pd.read_csv("https://raw.githubusercontent.com/Datamanim/datarepo/main/churnk/X_train.csv") y_train = pd.read_csv("https://raw.githubusercontent.com/Datamanim/datarepo/main/churnk/y_train.csv") x_test= pd.read_csv("https://r..

[빅데이터분석기사] 작업형 1유형 연습문제 #2

데이터 출처(유튜브 공범컨텐츠 동영상 데이터) : https://www.kaggle.com/kukuroo3/youtube-episodic-contents-kr youtube ep contents statistics(interval 10min) monitoring Mafia GAME(daily update) www.kaggle.com 데이터 URL : dataurl1 (비디오 정보) = https://raw.githubusercontent.com/Datamanim/datarepo/main/youtube/videoInfo.csv dataurl2 (참가자 채널 정보) = https://raw.githubusercontent.com/Datamanim/datarepo/main/youtube/channelInfo...

[빅데이터분석기사] 작업형 1유형 연습문제 #1

데이터 출처(유튜브 데일리 인기동영상) : https://www.kaggle.com/rsrishav/youtube-trending-video-dataset?select=KR_youtube_trending_data.csv YouTube Trending Video Dataset (updated daily) YouTube Trending Video data-set which gets updated daily. www.kaggle.com 데이터 URL : https://raw.githubusercontent.com/Datamanim/datarepo/main/youtube/youtube.csv import pandas as pd df = pd.read_csv("https://raw.githubusercontent..

[빅데이터분석기사] 작업형 2유형 예시문제 풀이

import pandas as pd X_test = pd.read_csv("data/X_test.csv") X_train = pd.read_csv("data/X_train.csv") y_train = pd.read_csv("data/y_train.csv") # X_train에 적용한 전처리를 X_test에 동일하게 적용해야 함. # Data Science에서는 X_train과 X_test를 합친 데이터로 전처리를 하는 것은 Data Leakage 위배 # 기본적으로 X_train은 현재만 알 수 있는 정보이고, X_test는 알 수 없는 정보이기 때문에 합쳐서 전처리를 하는 것은 대뢰나 공모전에서 실격 사유에 해당. # LabelEncoding -> text 형태의 데이터를 정수 형태로 인코딩(ex. 강..

[빅데이터분석기사] 작업형 1유형 예시문제 풀이

# pandas 문법으로 풀이 import pandas as pd a = pd.read_csv('data/mtcars.csv', index_col=0) # Min Max Scale은 (X-min) / (max-min) qsec_max = a['qsec'].max() qsec_min = a['qsec'].min() a['minmax_scaled_qsec'] = (a['qsec'] - qsec_min) / (qsec_max - qsec_min) over_0_5 = a[a['minmax_scaled_qsec'] > 0.5] nrows = over_0_5.shape[0] print(f'Pandas 문법 사용 했을 때 0.5보다 큰 레코드 수는 {nrows}') # sklearn의 MinMaxScaler 사용 i..

[빅데이터분석기사] 6회 실기시험부터 적용되는 작업형 3유형 풀이

안녕하세요! 빅데이터분석기사 3회 필기시험에 붙고나서 3회 실기시험에 떨어지고, 한동안 빅데이터분석기사를 쳐다도 안보다가 이제 슬슬 공부하려던 차인데 갑자기 한국데이터산업진흥원 측에서 출제 유형이 변경된다고 올리셨더라구요! 바로 단답형 유형이 없어지고, 작업형 제3유형이 추가된 것인데요, 작업형으로만 이루어진 실기시험이 더 좋을지는 본격적으로 공부해봐야 알 수 있을 것 같네요. 각설하고, 한국데이터산업진흥원에서 올린 작업형 제3유형 문제는 아래와 같습니다! 통계분석 파트인데, 첫 출제이니만큼 쉽게 나올런지.. 알수가 없습니다. import pandas as pd a = pd.read_csv("data/blood_pressure.csv") # (a) (치료 후 혈압 - 치료 전 혈압)의 평균 mu = (a..