반응형

작업형 20

[빅데이터분석기사] 실기 3회 1유형 풀이(Python)

문제1 - 2022년 데이터 중 2022년 중앙값보다 큰 값의 데이터 수 - data : t1-data2.csv import pandas as pd df = pd.read_csv("../input/big-data-analytics-certification/t1-data2.csv", index_col='year') m = df.loc["2022년"].median() print(sum(df.loc["2022년", :] > m)) 문제2 - 결측치 데이터(행)을 제거하고, 앞에서부터 60% 데이터만 활용해, 'f1' 컬럼 3사분위 값을 구하시오. - 60%가 소수점일 경우 절사(예 : 36.6 일 때 36으로 계산) import pandas as pd df = pd.read_csv("../input/big-d..

[빅데이터분석기사] 실기 2회 1유형 풀이(Python)

문제 1 - 데이터셋(basic1.csv)의 'f5' 컬럼을 기준으로 상위 10개의 데이터를 구하고, - 'f5' 컬럼 10개 중 최소값으로 데이터를 대체한 후, - 'age' 컬럼에서 80 이상인 데이터의 'f5' 컬럼 평균값 구하기 # 라이브러리 및 데이터 불러오기 import pandas as pd df = pd.read_csv('../input/bigdatacertificationkr/basic1.csv') df.head() # f5 컬럼을 기준으로 내림차순 정렬 df = df.sort_value('f5' ascending = False) df.head(10) # 최소값 찾기 min = df['f5'][:10].min() min df.iloc[:10, -1] = min df.head(10) # 8..

[빅데이터분석기사] 작업형 1유형 연습문제 #3

데이터 출처(월드컵 출전선수 골기록 데이터) : https://www.kaggle.com/darinhawley/fifa-world-cup-goalscorers-19302018 FIFA World Cup Goalscorers 1930-2018 List of all FIFA World Cup goalscoreres 1930-2018 www.kaggle.com 데이터 URL : https://raw.githubusercontent.com/Datamanim/datarepo/main/worldcup/worldcupgoals.csv import pandas as pd df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/worldcu..

[빅데이터분석기사] 작업형 1유형 연습문제 #2

데이터 출처(유튜브 공범컨텐츠 동영상 데이터) : https://www.kaggle.com/kukuroo3/youtube-episodic-contents-kr youtube ep contents statistics(interval 10min) monitoring Mafia GAME(daily update) www.kaggle.com 데이터 URL : dataurl1 (비디오 정보) = https://raw.githubusercontent.com/Datamanim/datarepo/main/youtube/videoInfo.csv dataurl2 (참가자 채널 정보) = https://raw.githubusercontent.com/Datamanim/datarepo/main/youtube/channelInfo...

[빅데이터분석기사] 작업형 1유형 연습문제 #1

데이터 출처(유튜브 데일리 인기동영상) : https://www.kaggle.com/rsrishav/youtube-trending-video-dataset?select=KR_youtube_trending_data.csv YouTube Trending Video Dataset (updated daily) YouTube Trending Video data-set which gets updated daily. www.kaggle.com 데이터 URL : https://raw.githubusercontent.com/Datamanim/datarepo/main/youtube/youtube.csv import pandas as pd df = pd.read_csv("https://raw.githubusercontent..

[빅데이터분석기사] 작업형 2유형 예시문제 풀이

import pandas as pd X_test = pd.read_csv("data/X_test.csv") X_train = pd.read_csv("data/X_train.csv") y_train = pd.read_csv("data/y_train.csv") # X_train에 적용한 전처리를 X_test에 동일하게 적용해야 함. # Data Science에서는 X_train과 X_test를 합친 데이터로 전처리를 하는 것은 Data Leakage 위배 # 기본적으로 X_train은 현재만 알 수 있는 정보이고, X_test는 알 수 없는 정보이기 때문에 합쳐서 전처리를 하는 것은 대뢰나 공모전에서 실격 사유에 해당. # LabelEncoding -> text 형태의 데이터를 정수 형태로 인코딩(ex. 강..

[빅데이터분석기사] 작업형 1유형 예시문제 풀이

# pandas 문법으로 풀이 import pandas as pd a = pd.read_csv('data/mtcars.csv', index_col=0) # Min Max Scale은 (X-min) / (max-min) qsec_max = a['qsec'].max() qsec_min = a['qsec'].min() a['minmax_scaled_qsec'] = (a['qsec'] - qsec_min) / (qsec_max - qsec_min) over_0_5 = a[a['minmax_scaled_qsec'] > 0.5] nrows = over_0_5.shape[0] print(f'Pandas 문법 사용 했을 때 0.5보다 큰 레코드 수는 {nrows}') # sklearn의 MinMaxScaler 사용 i..

[컴퓨터그래픽스운용기능사] 2023년 1회 컴퓨터그래픽스운용기능사 실기 실격 후기

안녕하세요! 지난번 컴퓨터그래픽스운용기능사 필기시험에 이어 실기 시험을 보고 왔습니다. 필기시험 포스팅이 궁금하신 분들은 아래 링크를 참고하세요! [컴퓨터그래픽스운용기능사] 2023년 1회 컴퓨터그래픽스운용기능사 필기 비전공자 합격 후기 안녕하세요! 지난 웹디자인기능사 필기 합격 후기 포스팅에 이어서 컴퓨터그래픽스운용기능사 필기 합격 후기도 적어보도록 하겠습니다. 혹시 지난 포스팅이 궁금하신 분들은 아래 링크를 참 it-utopia.tistory.com 컴퓨터그래픽스운용기능사 실기는 GTQ와 비슷하면서도 차이가 있는데요, GTQ는 GTQ 일반(포토샵), GTQ 일러스트(일러스트레이터), GTQ 인디자인(인디자인)으로 시험별로 나뉘어 있는 반면, 컴퓨터그래픽스운용기능사는 한 시험에 포토샵+일러스트레이터+인..

[빅데이터분석기사] 제3회 실기 시험 불합격 후기

안녕하세요! 일전에 빅데이터분석기사 필기시험에 응시해서 합격한 후 지난 12월 4일에 빅데이터분석기사 실기시험에 응시하고 왔습니다! 저는 IT 전공자에 전산실 기획업무를 담당하고 있지만 파이썬이나 R 언어를 다룰일이 없어 시험이 어렵게만 느껴졌던거 같습니다(물론 공부를 더 하면 됐겠지만..). 빅데이터분석기사 시험이 익숙치 않은분들을 위해 소개를 먼저 해드리고, 후기도 작성해드리겠습니다! 빅데이터분석기사 시험이란? 빅데이터분석기사 시험은 한국데이터산업진흥원(K-Data)에서 주관하는 기사급 시험으로 필기시험과 실기시험 두가지를 차례로 합격하시면 자격이 주어지게 됩니다. 실기시험은 빅데이터 분석 실무 관련 단답형과 작업형 문제들을 풀어내셔야 하는데 종이에 적어서 제출하는 방식이 아니라 컴퓨터가 있는 고사장..

[빅데이터분석기사] 파이썬 머신러닝(ML) 기본 틀 맛보기

일단 아래의 머신러닝 전 과정을 한번 훑고, 세부적으로 공부할 것 ---분석데이터 검토--- import pandas as pd data=pd.read_csv('데이터명', encoding='utf-8') data.head() print(data.shape()) ---특성(X)과 레이블(y) 나누기--- X1=data[['a', 'b', 'c']] y=data[['z']] ---train, test 데이터셋 나누기--- from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X1, y, stratify=y, random_state=42) ---정규화(MinMax)--- fr..

반응형