유의수준 4

[빅데이터분석기사] 6회 실기시험부터 적용되는 작업형 3유형 풀이

안녕하세요! 빅데이터분석기사 3회 필기시험에 붙고나서 3회 실기시험에 떨어지고, 한동안 빅데이터분석기사를 쳐다도 안보다가 이제 슬슬 공부하려던 차인데 갑자기 한국데이터산업진흥원 측에서 출제 유형이 변경된다고 올리셨더라구요! 바로 단답형 유형이 없어지고, 작업형 제3유형이 추가된 것인데요, 작업형으로만 이루어진 실기시험이 더 좋을지는 본격적으로 공부해봐야 알 수 있을 것 같네요. 각설하고, 한국데이터산업진흥원에서 올린 작업형 제3유형 문제는 아래와 같습니다! 통계분석 파트인데, 첫 출제이니만큼 쉽게 나올런지.. 알수가 없습니다. import pandas as pd a = pd.read_csv("data/blood_pressure.csv") # (a) (치료 후 혈압 - 치료 전 혈압)의 평균 mu = (a..

[빅데이터분석기사] 로지스틱 회귀분석(Logistic Regression Analysis)

로지스틱 회귀 데이터가 어떤 범주에 속할 확률을 0에서 1 사이의 값으로 예측하고, 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류하는 기법이다. 0.5 보다 크면 어떤 사건이 일어난다.(성공확률) 0.5 보다 작으면 어떤 사건이 일어나지 않는다.(실패확률) 합격/불합격, 성공/실패, 생존/사망, 진실/거짓 등 이분법적인 결과를 도출하기 위해 주로 사용되는 회귀분석 방식으로 예측을 주목적으로 하는 회귀분석과 차이가 있다. 로지스틱 회귀분석 방법 로지스틱 회귀 분석은 이진 분류를 수행한믄 데 사용된다. 즉, 데이터 샘플을 양성(1) 또는 음성(0) 클래스 둘 중 어디에 속하는지 예측한다. 각 속성(feature)들의 계수 log-odds를 구한 후 시그모이드 함수를 적용하여 실제로 데이터가 해..

[빅데이터분석기사] 교차분석(Cross-tabulation Analysis)

교차분석 교차분석이란, 비교 대상이 되는 항목들의 빈도를 이용하여 자료 간 관계의 유의성을 파악할 때 사용한다. 주로 '범주형' 자료 간의 관계를 확인하는 데 쓰이며, 전체 비율을 통해 예산빈도를 구하여 실제빈도와의 차이를 대조하는 방식이다. 아래는 당뇨 환자 25명과 당뇨가 없는 정상인 75명의 인원 총 100명의 비만 유무를 조사한 결과이다. 100명 가운데 비만(20)과 정상(80) 체중의 구성비가 1:4이므로 당뇨환자군 안에서 비만과 정상의 비율 역시 1:4, 비환자군 안에서도 1:4의 비율로 환자 수가 도출될 것을 예상해 볼 수 있다. 이를 기대빈도(예상빈도)라 한다. 당연히 실제로 빈도수는 예상과 다를 것이다. 관측빈도 부분을 보면 당뇨환자 25명 중 비만인 사람은 10명, 정상체중인 사람은 ..

[빅데이터분석기사] 교차분석(Cross-tabulation Analysis)

교차분석(Cross-tabulation Anlaysis) 비교 대상이 되는 항목들의 빈도를 이용하여 자료 간 관계의 유의성을 파악할 때 사용한다. 주로 '범주형' 자료 간의 관계를 확인하는 데 쓰이며, 전체 비율을 통해 예상빈도를 구하여 실제빈도와의 차이를 대조하는 방식이다. 아래는 당뇨환자 25명과 당뇨가 없는 정상인 75명의 인원 총 100명의 비만 유무를 조사한 결과이다. 100명 가운데 비만(20)과 정상(80) 체중의 구성비가 1:4이므로 당뇨환자군 안에서 비만과 정상의 비율 역시 1:4, 비환자군 안에서도 1:4의 비율로 환자 수가 도출될 것을 예상해 볼 수 있다. 이를 기대빈도(예상빈도)라 한다. 당연히 실제로 빈도수는 예상과 다를 것이다. 관측빈도 부분을 보면 당뇨환자 25명 중 비만인 사..