반응형
이번 시간에는 수치형 자료를 요약할 때 사용하는 그래프 함수들에 대해 알아보려고 한다. 참고로 수치형 자료는 정확히 셀 수 있으면 이산형 자료, 그렇지 못한다면 연속형 자료라고 한다.
목차
1. 히스토그램(Histogram)
2. 줄기-잎 그림(Stem-and-leaf Plot)
1. 히스토그램(Histogram)
plt.hist()
하나의 변수에 대한 데이터의 빈도를 측정하는데 쓰이는 그래프다. 비슷하게 생긴 막대그래프는 각각의 항목 크기를 정확히 파악하는데 쓰이는데 히스토그램은 집단의 분포 상태를 파악하거나 비교할 때 사용된다. X축은 계급을 나타내고 Y축은 빈도를 나타낸다.
- 자료의 분포를 알 수 있다.
- 계급구간과 막대의 높이로 그린다.
- 모든 계급구간의 폭이 같으면 도수, 상대도수를 막대 높이로 사용한다.
- 계급(Class) : 위에서 나눈 구간
- 계급구간 : 각 계급에 포함되는 값의 범위
- 계급구간의 폭 : 계급구간의 크기
- 도수(Frequency) : 각 범주에 속하는 관측값의 개수
- 상대도수(Relative Frequency) : 도수를 자료의 전체 개수로 나눈 비율
2. 줄기-잎 그림(Stem-and-leaf Plot)
plt.stem(줄기, 관측값)
표와 그래프의 혼합 형태로 데이터를 표현하는 방법이다. 관측값을 보고 앞의 단위와 뒷 단위를 정한다. 그러고 나서 앞 단위를 줄기로 하여 세로로 배열하고 수직선을 그린다. 뒷 단위는 잎이 되고 앞 단위 오른쪽에 오름차순으로 기입된다. 자료의 분포를 시각적으로 쉽게 파악할 수 있고 각 관측값도 유지 가능하다. X축은 줄기고, Y축은 잎이다. 예를 들어 관측값이 35라면 줄기가 3이고 잎이 5다.
■ 장점
- 관측값을 보여주므로 최댓값, 최솟값 위치 파악이 쉽다.
- 순서대로 배열된 관측값의 장점과 히스토그램의 장점을 모두 가지고 있다.
- 그리기 쉽다.
■ 단점
- 관측값의 개수가 많아지면 그리기 불가능하다.
- 관측값이 많이 흩어져 있으면 그리기 부적절하다.
반응형
'IT > 파이썬(Python)' 카테고리의 다른 글
파이썬 웹 크롤링(requests, bs4) (0) | 2023.03.25 |
---|---|
파이썬 문자열과 리스트 상호 변환 방법 (0) | 2023.03.19 |
파이썬 튜플의 정의, 특징 (0) | 2023.03.17 |
파이썬 시퀀스 관련 함수 정리(pop, count, split, join) (0) | 2023.03.17 |
파이썬 리스트 관련 함수 정리(append 추가, insert 삽입, remove 삭제, sort 정렬) (0) | 2023.03.16 |