본문 바로가기
IT/파이썬(Python)

파이썬 데이터 분석과 데이터 과학 비교

by 깡타의 컴맹인생 2023. 7. 22.
반응형

파이썬 데이터 분석 데이터 과학

목차
1. 데이터 분석(Data Analysis)
   └ 1.1. 데이터 분석 작업
   └ 1.2. 데이터 분석을 위한 도구

2. 데이터 과학(Data Science)

1. 데이터 분석(Data Analysis)

올바른 의사 결정을 돕기 위한 통찰을 제공하는데 초점을 맞춘다. 데이터 분석은 크게 3가지로 나눌 수 있다.

유용한 정보를 발견하고 결론을 유추하거나, 의사 결정을 돕기 위해 데이터를 조사, 정제, 변환, 모델링하는 과정
- 위키피디아 -
  1. 기술통계 : 관측이나 실험을 통해 수집한 데이터를 정량화하거나 요약하는 기법
  2. 탐색적 데이터 분석(EDA) : 데이터를 시각적으로 표현하여 주요 특징을 찾고 분석하는 방법
  3. 가설검정 : 주어진 데이터를 기반으로 특정 가정이 합당한 지 평가하는 통계 방법

1.1. 데이터 분석 작업

데이터 분석가 : 프로그래밍 기술을 갖추고 있고 통계학을 이해하며 정보를 시각적으로 잘 표현하는 사람

좁은 의미의 데이터 분석 : 기술통계, 탐색적 데이터 분석, 가설검정

넓은 의미의 데이터 분석 : 데이터 수집, 데이터 처리, 데이터 정제, 모델링


1.2. 데이터 분석을 위한 도구

데이터 분석에 많이 사용하는 프로그래밍 언어는 다음과 같다.

  1. 파이썬 : 문법이 단순하고 처음 프로그래밍을 접하는 사람도 쉽게 배울 수 있으며 오픈소스다.
  2. R : 통계 계산을 위해 개발된 언어로 아주 많은 통계 패키지와 훌륭한 그래프를 만들 수 있다. (적용이 어려움)
  3. SQL : 데이터가 데이터베이스 형태인 경우 사용할 수 있다. (데이터베이스를 다루기 위해 고안된 언어)

 

또한 필수로 사용하는 패키지들은 다음과 같다. 패키지는 유용한 기능이 구현된 파일을 묶어서 유통시키는 단위다. 파이썬 패키지는 PyPl 사이트에서 찾을 수 있다.

  1. Numpy : Numerical python의 줄임말로 고성능 과학 계산과 다차원 배열(array) 생성
  2. Pandas : 데이터 분석을 위한 전문 패키지로 데이터 프레임을 생성할 수 있고 데이터 처리와 분석 관련 기능 제공
  3. Matplotlib : 데이터 시각화를 위한 패키지로 정적 혹은 동적인 그래프를 그릴 수 있고 다른 과학 패키지와 호환 가능
  4. Scipy : Numpy를 기반으로 구축된 수학과 과학 계산 전문 패키지(미분, 적분, 확률, 선형대수, 최적화 등)
  5. Scikit-learn : 파이썬의 독보적인 머신러닝 패키지로 가장 널리 사용되는 머신러닝 패키지라 해도 과언이 아님

2. 데이터 과학(Data Science)

데이터 마이닝(Data Mining)과 유사하게 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는 과정에서 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합 분야다.
- 위키피디아 -

데이터 과학은 통계학, 데이터 분석, 머신러닝, 데이터 마이닝 등을 아우르는 큰 개념이라고 볼 수 있다.

특징 데이터 분석 데이터 과학
범주 비교적 소규모 대규모
목표 의사 결정을 돕기 위한 통찰 제공 문제 해결을 위해 최선의 솔루션을 만드는 것
주요 기술 컴퓨터 과학, 통계학, 시각화 등 컴퓨터 과학, 통계학, 머신러닝, 인공지능 등
빅데이터 사용함 사용함

 

반응형