빅데이터분석기사 55

[빅데이터분석기사] 실기 3회 2유형 풀이(Python)

여행 보험 패키지 데이터 - 예측할 값(y) : TravelInsurance (여행보험 패키지를 구매했는지 여부, 0:구매안함, 1:구매) - 평가 : roc-auc 평가지표 - data : t2-1-train.csv, t2-a-test.csv - 제출형식 # 라이브러리 불러오기 import pandas as pd # 데이터 불러오기 train = pd.read_csv("../input/big-data-analytics-certification/t2-1-train.csv") test = pd.read_csv("../input/big-data-analytics-certification/t2-1-test.csv") # EDA # 데이터 사이즈 train.shape, test.shape # 샘플 확인 trai..

[빅데이터분석기사] 실기 3회 1유형 풀이(Python)

문제1 - 2022년 데이터 중 2022년 중앙값보다 큰 값의 데이터 수 - data : t1-data2.csv import pandas as pd df = pd.read_csv("../input/big-data-analytics-certification/t1-data2.csv", index_col='year') m = df.loc["2022년"].median() print(sum(df.loc["2022년", :] > m)) 문제2 - 결측치 데이터(행)을 제거하고, 앞에서부터 60% 데이터만 활용해, 'f1' 컬럼 3사분위 값을 구하시오. - 60%가 소수점일 경우 절사(예 : 36.6 일 때 36으로 계산) import pandas as pd df = pd.read_csv("../input/big-d..

[빅데이터분석기사] 실기 2회 2유형 풀이(Python)

전자상거래 배송 데이터 제품 배송 시간에 맞춰 배송되었는지 예측모델 만들기 학습용 데이터 (X_train, y_train)을 이용하여 배송 예측 모형을 만든 후, 이를 평가용 데이터(X_test)에 적용하여 얻는 예측 확률값을 다음과 같은 형식의 CSV 파일로 생성하시오.(제출한 모델의 성능은 ROC-AUC 평가지표에 따라 채점) (유의사항) - 성능이 우수한 예측모형을 구현하기 위해서는 적절한 데이터 전처리, 피처엔지니어링, 분류알고리즘, 하이퍼파라미터 튜닝, 모형 앙상블 등이 수반되어야 한다. - 수험번호.csv 파일이 만들어지도록 코드를 제출한다. - 제출한 모델의 성능은 ROC-AUC 형태로 읽어들인다. 데이터 파일 읽기 예제 - import pandas as pd - X_test = pd.rea..

[빅데이터분석기사] 실기 2회 1유형 풀이(Python)

문제 1 - 데이터셋(basic1.csv)의 'f5' 컬럼을 기준으로 상위 10개의 데이터를 구하고, - 'f5' 컬럼 10개 중 최소값으로 데이터를 대체한 후, - 'age' 컬럼에서 80 이상인 데이터의 'f5' 컬럼 평균값 구하기 # 라이브러리 및 데이터 불러오기 import pandas as pd df = pd.read_csv('../input/bigdatacertificationkr/basic1.csv') df.head() # f5 컬럼을 기준으로 내림차순 정렬 df = df.sort_value('f5' ascending = False) df.head(10) # 최소값 찾기 min = df['f5'][:10].min() min df.iloc[:10, -1] = min df.head(10) # 8..

[빅데이터분석기사] 작업형 2유형 연습문제 #2

데이터 출처 : https://www.kaggle.com/datasets/arashnic/hr-analytics-job-change-of-data-scientists HR Analytics: Job Change of Data Scientists Predict who will move to a new job www.kaggle.com import pandas as pd x_train = pd.read_csv("https://raw.githubusercontent.com/Datamanim/datarepo/main/HRdata/X_train.csv") y_train = pd.read_csv("https://raw.githubusercontent.com/Datamanim/datarepo/main/HRdata/y..

[빅데이터분석기사] 작업형 2유형 연습문제 #1

데이터 출처 : https://www.kaggle.com/datasets/shubh0799/churn-modelling Churn Modelling Deep Learning Artificial Neural Network Used. www.kaggle.com import pandas as pd x_train = pd.read_csv("https://raw.githubusercontent.com/Datamanim/datarepo/main/churnk/X_train.csv") y_train = pd.read_csv("https://raw.githubusercontent.com/Datamanim/datarepo/main/churnk/y_train.csv") x_test= pd.read_csv("https://r..

[빅데이터분석기사] 작업형 1유형 연습문제 #3

데이터 출처(월드컵 출전선수 골기록 데이터) : https://www.kaggle.com/darinhawley/fifa-world-cup-goalscorers-19302018 FIFA World Cup Goalscorers 1930-2018 List of all FIFA World Cup goalscoreres 1930-2018 www.kaggle.com 데이터 URL : https://raw.githubusercontent.com/Datamanim/datarepo/main/worldcup/worldcupgoals.csv import pandas as pd df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/worldcu..

[빅데이터분석기사] 작업형 1유형 연습문제 #2

데이터 출처(유튜브 공범컨텐츠 동영상 데이터) : https://www.kaggle.com/kukuroo3/youtube-episodic-contents-kr youtube ep contents statistics(interval 10min) monitoring Mafia GAME(daily update) www.kaggle.com 데이터 URL : dataurl1 (비디오 정보) = https://raw.githubusercontent.com/Datamanim/datarepo/main/youtube/videoInfo.csv dataurl2 (참가자 채널 정보) = https://raw.githubusercontent.com/Datamanim/datarepo/main/youtube/channelInfo...

[빅데이터분석기사] 작업형 1유형 연습문제 #1

데이터 출처(유튜브 데일리 인기동영상) : https://www.kaggle.com/rsrishav/youtube-trending-video-dataset?select=KR_youtube_trending_data.csv YouTube Trending Video Dataset (updated daily) YouTube Trending Video data-set which gets updated daily. www.kaggle.com 데이터 URL : https://raw.githubusercontent.com/Datamanim/datarepo/main/youtube/youtube.csv import pandas as pd df = pd.read_csv("https://raw.githubusercontent..

[빅데이터분석기사] 작업형 2유형 예시문제 풀이

import pandas as pd X_test = pd.read_csv("data/X_test.csv") X_train = pd.read_csv("data/X_train.csv") y_train = pd.read_csv("data/y_train.csv") # X_train에 적용한 전처리를 X_test에 동일하게 적용해야 함. # Data Science에서는 X_train과 X_test를 합친 데이터로 전처리를 하는 것은 Data Leakage 위배 # 기본적으로 X_train은 현재만 알 수 있는 정보이고, X_test는 알 수 없는 정보이기 때문에 합쳐서 전처리를 하는 것은 대뢰나 공모전에서 실격 사유에 해당. # LabelEncoding -> text 형태의 데이터를 정수 형태로 인코딩(ex. 강..