[빅데이터분석기사] 범주변수의 변환(one-hot-encoding)

빅데이터분석기사/코드

[빅데이터분석기사] 범주변수의 변환(one-hot-encoding)

EveningPrimrose 2022. 6. 11. 00:02

1. 데이터범주-연속-레이블로 나누기

# vote(유권자 선거행동) 데이터셋 불러오기 및 확인
import pandas as pd
data = pd.read_csv('vote.csv', encoding='utf-8')
data.head()

# 범주변수와 기타 변수를 각각 X1과 XY로 나누기
X1 = data[['gender', 'region']]
XY = data[['edu', 'income', 'age', 'score_gov', 'score_progress', 'score_intention', 'vote', 'parties']]

2. 범주형 변수의 One-hot-encoding 변환

# 성별(gender)과 출신지역(region)의 숫자를 문자로 변환
X1['gender'] = X1['gender'].replace([1, 2], ['male', 'female'])
X1['region'] = X1['region'].replace([1, 2, 3, 4, 5], ['Sudo', 'Chungcheung', 'Honam', 'Youngnam', 'Others'])

# 변환된 범주형 데이터(X1) 확인
X1.head()

# 범주변수를 one-hot-encoding으로 변환 및 확인
X1_dum = pd.get_dummires(X1)
X1_dum.head()

3. 자료 통합 및 저장하기

# 변환 데이터와 기타 변수를 한 데이터셋으로 통합 및 확인
Fvote = pd.concat([X1_dum, XY], axis=1)
Fvote.head()

# 통합된 데이터를 'Fvote.csv' 파일로 저장 내보내기
Fvote.to_csv('Fvote.csv', index=False, sep=',', encoding='utf-8')

저작자표시 비영리 변경금지

'빅데이터분석기사 > 코드' 카테고리의 다른 글

[빅데이터분석기사] 데이터 스케일링 (0)	2022.06.13
[빅데이터분석기사] 데이터셋 분할과 모델검증 (0)	2022.06.12
[빅데이터분석기사] 데이터탐색과 데이터정제 실습 (2) (0)	2022.06.07
[빅데이터분석기사] 데이터탐색과 데이터정제 실습 (1) (0)	2022.06.06
[빅데이터분석기사] 파이썬 데이터 정제 실습 (0)	2022.06.03

현재글[빅데이터분석기사] 범주변수의 변환(one-hot-encoding)

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

이상향

[빅데이터분석기사] 범주변수의 변환(one-hot-encoding)

1. 데이터범주-연속-레이블로 나누기

2. 범주형 변수의 One-hot-encoding 변환

3. 자료 통합 및 저장하기

'빅데이터분석기사 > 코드' 카테고리의 다른 글

'빅데이터분석기사/코드'의 다른글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

[빅데이터분석기사] 범주변수의 변환(one-hot-encoding)

1. 데이터범주-연속-레이블로 나누기

2. 범주형 변수의 One-hot-encoding 변환

3. 자료 통합 및 저장하기

'빅데이터분석기사 > 코드' 카테고리의 다른 글

'빅데이터분석기사/코드'의 다른글

관련글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역