본문 바로가기

파이썬53

파이썬 데이터 프레임 그룹화 groupby() 위와 같은 엑셀 데이터가 있다고 하자. 이 데이터를 pandas 라이브러리를 활용해 데이터 프레임의 형태로 만든 다음, 과일의 이름별로 그룹화를 해보려고 한다. 그룹화는 간단한 집계를 넘어서서 조건부로 집계하고 싶은 경우에 사용한다. 1 2 3 4 5 6 7 import pandas as pd df = pd.read_excel('230412.xlsx') display(df) df = df.groupby(['이름', '원산지']).sum() display(df) cs read_excel() 함수를 사용하여 데이터 프레임을 형성한 결과는 위와 같다. 참고로 그룹화의 기준이 될 열은 여러 개 선택할 수 있다. 이 데이터 프레임에서 '이름'과 '원산지' 열을 기준으로 그룹화를 한 결과는 다음과 같다. 귤과 원산.. 2023. 4. 14.
윈도우 txt, log, csv 파일 하나로 합치기 목차 1. txt 파일 합치기 2. log 파일 합치기 3. csv 파일 합치기 1. txt 파일 합치기 txt 확장자를 갖는 파일은 윈도우 텍스트 파일이다. 어떤 데이터를 추출하다 보면 위와 같이 날짜별로 별개의 파일이 생성될 때가 있다. 이럴 경우 데이터를 하나로 합쳐야 하는데 방법을 모르면 난감한 경우가 많다. 이 문제를 해결할 수 있는 방법은 간단하다. 먼저 하나로 합치려고 하는 폴더에서 새로운 텍스트 문서를 만들어준다. 그리고 내용은 위와 같이 입력한다. copy *.txt total.txt *는 접두어라고 생각하면 된다. 따라서 어떤 접두어가 오든 간에. txt라는 확장자를 갖는 파일이라면 대상에 해당된다. copy 명령어는 A라는 파일의 내용을 B라는 파일로 복사하라는 것이다. txt 파일을.. 2023. 4. 13.
주피터 노트북, 주피터 랩 파이썬 데이터 프레임 출력 display() 함수 파이썬에서 pandas는 정말 유용한 라이브러리다. 이 라이브러리를 통해 데이터 프레임을 생성할 수 있는데 데이터 프레임을 출력할 때 특유의 형태가 있다. 위는 주피터 랩에서 데이터 프레임을 출력한 결과다. 하지만 위와 같은 형태로 데이터 프레임을 보기 위해서 어떤 함수를 사용해야 하는지 모른다. 이때 활용하는 함수는 display()다. 위와 같은 데이터가 담긴 엑셀 파일이 있다고 하자. 우리는 먼저 read_excel() 함수를 사용해서 위의 데이터를 데이터 프레임 형태로 생성할 수 있다. 1 2 3 4 5 import pandas as pd df = pd.read_excel('230412.xlsx') print(df) cs 이름 가격 0 사과 200 1 바나나 150 2 포도 600 3 귤 500 .. 2023. 4. 12.
파이썬 데이터 프레임 정렬하기 sort_values() 함수 sort_values sort_values('기준 열', ascending = True) sort_values(['기준 열1', '기준 열2'] ascending = True) sort_values('기준 열', ascending = False) sort_values(['기준 열1', '기준 열2'] ascending = False) 위의 표를 담고 있는 엑셀 파일이 있다고 하자. read_excel() 함수를 사용하여 생성한 데이터 프레임의 형태는 다음과 같다. 우리는 sort_values()라는 함수를 사용하여 특정 열을 기준으로 데이터를 정렬할 수 있다. 1 2 3 4 5 6 7 import pandas as pd df = pd.read_.. 2023. 4. 12.
파이썬 데이터 프레임 인덱싱, 슬라이싱(loc, iloc) 목차 1. loc 2. iloc 1. loc 데이터 프레임.loc['인덱스명'] 명시적인 인덱스를 참조하는 인덱싱, 슬라이싱 방법이다. 1 2 3 4 5 6 7 8 9 10 11 12 import pandas as pd a = pd.Series([10, 20, 30, 40, 50]) b = pd.Series([124,523,125,324,754]) df = pd.DataFrame(data = [a, b], index = ['a', 'b']) print(df) print('') print(df.loc['a']) print('') print(df.loc['b']) Colored by Color Scripter cs 0 1 2 3 4 a 10 20 30 40 50 b 124 523 125 324 754 0 1.. 2023. 4. 6.
파이썬 Pandas 라이브러리 Series, DataFrame 정의 목차 1. Pandas의 정의, 사용법 2. Series의 정의, 사용법 3. DataFrame의 정의, 사용법 1. Pandas의 정의, 사용법 파이썬 라이브러리 중 하나다. 구조화된 데이터를 효과적으로 처리하고 저장할 수 있으며 Array 계산에 특화된 Numpy를 기반으로 설계되었다. pip install pandas 명령 프롬프트 창에서 위의 명령어를 입력하여 pandas 라이브러리를 설치할 수 있다. 1 import pandas as pd cs 또한 파이썬에서는 위의 코드를 통해 라이브러리를 불러올 수 있다. 보통 pandas라는 이름 별칭으로 pd를 사용한다. 2. Series의 정의, 사용법 Numpy array가 보강된 형태로 데이터와 인덱스를 가지고 있다. 인덱스를 통해 각각의 데이터에 .. 2023. 4. 5.
파이썬 함수 지역변수와 전역변수 예전에 파이썬 함수의 정의, 구조, 형태에 대해 글을 쓴 적이 있다. 그 연장선으로 이제는 전역변수와 지역변수에 대해 알아보려고 한다. 함수에서 정의한 변수는 어떻게 처리될까? https://ggangtalife.tistory.com/37 파이썬 함수(Function) 정의, 구조, 형태 목차 1. 함수(Function)란? 2. 함수의 구조 3. 다양한 함수의 형태 1. 함수(Function)란? 동일한 작업을 수행하는 코드들의 집합이다. 6가지 변수들을 각각 더하고 그 결과 값을 표출해야 하는 작업이 필 ggangtalife.tistory.com 목차 1. 전역변수 2. 지역변수 1. 전역변수 1 2 3 4 5 6 a = 'Hello' def func(): print(a) func() cs Hello.. 2023. 4. 4.
파이썬 Numpy 집계함수(sum, max, min, mean) 파이썬 Numpy 배열을 위한 집계함수가 존재한다. 복잡하게 반복문을 활용할 필요업이 집계함수 하나면 시간을 절약할 수 있다. 이번에는 그 집계함수들에 대해서 알아보려고 한다. 합계 : np.sum(배열) 최대 : np.max(배열) 최소 : np.min(배열) 평균 : np.mean(배열) 1 2 3 4 5 6 7 8 import numpy as np a = np.arange(10) print('a = \n', a, '\n') print('np.sum(a)\n =', np.sum(a), '\n') print('np.max(a)\n =', np.max(a), '\n') print('np.min(a)\n =', np.min(a), '\n') print('np.mean(a)\n =', np.mean(a), .. 2023. 4. 3.
파이썬 Numpy 배열 연산(기본 연산, 행렬 간 연산, 브로드캐스팅, 마스킹 연산) 목차 1. 기본 연산 2. 행렬 간 연산 3. 브로드캐스팅 4. 마스킹 연산 1. 기본 연산 array는 +(더하기), -(빼기), *(곱하기), /(나누기)에 대한 기본 연산을 지원한다. 1 2 3 4 5 6 7 8 9 10 11 12 13 import numpy as np a = np.arange(8) print('a =', a, '\n') print('a =', a+5, '\n') print('a =', a-5, '\n') print('a =', a*5, '\n') print('a =', a/5, '\n') cs a = [0 1 2 3 4 5 6 7] a = [ 5 6 7 8 9 10 11 12] a = [-5 -4 -3 -2 -1 0 1 2] a = [ 0 5 10 15 20 25 30 35] a.. 2023. 4. 2.
반응형