본문 바로가기
IT/파이썬(Python)

파이썬 수치형 자료의 요약법(히스토그램, 줄기-잎 그림)

by 깡타의 컴맹인생 2023. 3. 18.
반응형

파이썬 수치형 자료의 요약법

이번 시간에는 수치형 자료를 요약할 때 사용하는 그래프 함수들에 대해 알아보려고 한다. 참고로 수치형 자료는 정확히 셀 수 있으면 이산형 자료, 그렇지 못한다면 연속형 자료라고 한다.

목차
1. 히스토그램(Histogram)
2. 줄기-잎 그림(Stem-and-leaf Plot)

1. 히스토그램(Histogram)

plt.hist()

하나의 변수에 대한 데이터의 빈도를 측정하는데 쓰이는 그래프다. 비슷하게 생긴 막대그래프는 각각의 항목 크기를 정확히 파악하는데 쓰이는데 히스토그램은 집단의 분포 상태를 파악하거나 비교할 때 사용된다. X축은 계급을 나타내고 Y축은 빈도를 나타낸다.

 

  • 자료의 분포를 알 수 있다.
  • 계급구간과 막대의 높이로 그린다.
  • 모든 계급구간의 폭이 같으면 도수, 상대도수를 막대 높이로 사용한다.

  • 계급(Class) : 위에서 나눈 구간
  • 계급구간 : 각 계급에 포함되는 값의 범위
  • 계급구간의 폭 : 계급구간의 크기
  • 도수(Frequency) : 각 범주에 속하는 관측값의 개수
  • 상대도수(Relative Frequency) : 도수를 자료의 전체 개수로 나눈 비율


2. 줄기-잎 그림(Stem-and-leaf Plot)

plt.stem(줄기, 관측값)

표와 그래프의 혼합 형태로 데이터를 표현하는 방법이다. 관측값을 보고 앞의 단위와 뒷 단위를 정한다. 그러고 나서 앞 단위를 줄기로 하여 세로로 배열하고 수직선을 그린다. 뒷 단위는 잎이 되고 앞 단위 오른쪽에 오름차순으로 기입된다. 자료의 분포를 시각적으로 쉽게 파악할 수 있고 각 관측값도 유지 가능하다. X축은 줄기고, Y축은 잎이다. 예를 들어 관측값이 35라면 줄기가 3이고 잎이 5다.

 

■ 장점

  • 관측값을 보여주므로 최댓값, 최솟값 위치 파악이 쉽다.
  • 순서대로 배열된 관측값의 장점과 히스토그램의 장점을 모두 가지고 있다.
  • 그리기 쉽다.

■ 단점

  • 관측값의 개수가 많아지면 그리기 불가능하다.
  • 관측값이 많이 흩어져 있으면 그리기 부적절하다.

반응형