본문 바로가기
IT/파이썬(Python)

파이썬 자료의 구분(수치형, 범주형 자료)

by 깡타의 컴맹인생 2023. 3. 11.
반응형

파이썬 자료의 구분(수치형, 범주형 자료)

데이터를 분석하고 시각화할 때 데이터가 어떤 형태의 자료인지 파악하고 그 특성에 맞는 분석 기법을 사용해야 한다. 자료는 기본적으로 수치형 자료와 범주형 자료로 나뉘는데 오늘은 그 개념에 대해 알아보도록 한다.

목차
1. 수치형 자료(Numerical data)
   └ 1.1. 연속형 자료(Continuous data)
   └ 1.2. 이산형 자료(Discrete data)

2. 범주형 자료(Categorical data)
   └ 2.1. 연속형 자료(Ordinal data)
   └ 2.2. 이산형 자료(Nominal data)

1. 수치형 자료(Numerical data)

수치로 측정이 가능한 양적 자료(Quantitative data)다. 예를 들어 키, 몸무게, 시험 점수, 나이 등에 해당한다. 선형 회귀 분석 등에 사용한다. 수치형 자료는 연속형 자료와 이산형 자료로 나뉜다.


1.1. 연속형 자료(Continuous data)

연속적인 관측값을 가지는 데이터다. 예를 들어 원주율(3.141592···), 시간(15:23:54···) 등이 있다. 정확한 값을 찾을 수 없다. 키를 측정한다고 할 때 우리는 소수점 반올림을 한다. 반올림을 하지 않고 키가 정확히 몇이다라고 말할 수 없다. 이처럼 연속되고 있는 상태를 관측한 데이터를 연속형 자료라고 한다. 데이터가 어느 범위에 속해있는지 알고 있지만 정확한 값을 알 수 없다. 반올림하여 숫자로 부르는 경우에는 이산형 자료가 된다.


1.2. 이산형 자료(Discrete data)

셀 수 있는 관측값을 가지는 자료다. 예를 들어 유튜브 동영상 조회수 같은 경우에는 반올림을 하지 않아도 정확히 얼마의 값을 갖는다고 말할 수 있다. 또 연속형 자료를 반올림하면 이산형 자료가 된다.



2. 범주형 자료(Categorical data)

질적 자료(Qualitative data)다. 범주형 자료는 순위형 자료와 명목형 자료로 나뉜다. 범주형 자료 자체는 수치로 측정이 불가능한 자료이며 성별, 지역, 혈액형 등이 이에 해당한다. 로지스틱 회귀 분석 등에 사용한다. 수치로 측정이 불가능할 뿐이지 숫자로 표현은 할 수 있다. 예를 들어 남자를 숫자 '1'로 대체하고, 여자를 숫자 '0'으로 대체하는 경우 숫자 1과 0으로 표현하지만 실제로는 범주형 자료다.

또한 수치형 자료는 범주형 자료가 될 수 있다. 수치형 자료의 특정 범위를 하나의 구간으로 정해 범주형 자료라고 할 수 있다. 예를 들어 나이를 20대, 30대로 나누면 20대와 30대가 각각 하나의 범주형 자료에 해당한다.


2.1. 순위형 자료(Ordinal data)

범주 사이의 순서에 의미가 있는 자료다. 예를 들어 대학교에서 학점을 받을 때 A+는 B+ 보다 높은 점수다.


2.2. 명목형 자료(Nominal data)

범주 사이의 순서에 의미가 없는 자료다. 예를 들어 혈액형 같은 경우에는 순서가 의미 없다. 혈액형은 단순히 A, B, AB, O로 구분되는 것이다.


반응형