본문 바로가기

파이썬 데이터 프레임5

파이썬 데이터 프레임 집계 aggregate() 저번 포스팅에서는 groupby()라는 함수에 대해 알아보았다. 이번 시간에는 데이터 프레임 그룹화 이후에 최댓값, 최솟값과 같은 집계를 간단하게 한 번에 해낼 수 있는 방법에 대해 설명하려고 한다. https://ggangtalife.tistory.com/117 파이썬 데이터 프레임 그룹화 groupby() 위와 같은 엑셀 데이터가 있다고 하자. 이 데이터를 pandas 라이브러리를 활용해 데이터 프레임의 형태로 만든 다음, 과일의 이름별로 그룹화를 해보려고 한다. 그룹화는 간단한 집계를 넘어서서 ggangtalife.tistory.com 1 2 3 4 5 6 7 import pandas as pd df = pd.read_excel('230412.xlsx') display(df) df = df.grou.. 2023. 4. 14.
파이썬 데이터 프레임 그룹화 groupby() 위와 같은 엑셀 데이터가 있다고 하자. 이 데이터를 pandas 라이브러리를 활용해 데이터 프레임의 형태로 만든 다음, 과일의 이름별로 그룹화를 해보려고 한다. 그룹화는 간단한 집계를 넘어서서 조건부로 집계하고 싶은 경우에 사용한다. 1 2 3 4 5 6 7 import pandas as pd df = pd.read_excel('230412.xlsx') display(df) df = df.groupby(['이름', '원산지']).sum() display(df) cs read_excel() 함수를 사용하여 데이터 프레임을 형성한 결과는 위와 같다. 참고로 그룹화의 기준이 될 열은 여러 개 선택할 수 있다. 이 데이터 프레임에서 '이름'과 '원산지' 열을 기준으로 그룹화를 한 결과는 다음과 같다. 귤과 원산.. 2023. 4. 14.
파이썬 데이터 프레임 정렬하기 sort_values() 함수 sort_values sort_values('기준 열', ascending = True) sort_values(['기준 열1', '기준 열2'] ascending = True) sort_values('기준 열', ascending = False) sort_values(['기준 열1', '기준 열2'] ascending = False) 위의 표를 담고 있는 엑셀 파일이 있다고 하자. read_excel() 함수를 사용하여 생성한 데이터 프레임의 형태는 다음과 같다. 우리는 sort_values()라는 함수를 사용하여 특정 열을 기준으로 데이터를 정렬할 수 있다. 1 2 3 4 5 6 7 import pandas as pd df = pd.read_.. 2023. 4. 12.
파이썬 데이터 프레임 인덱싱, 슬라이싱(loc, iloc) 목차 1. loc 2. iloc 1. loc 데이터 프레임.loc['인덱스명'] 명시적인 인덱스를 참조하는 인덱싱, 슬라이싱 방법이다. 1 2 3 4 5 6 7 8 9 10 11 12 import pandas as pd a = pd.Series([10, 20, 30, 40, 50]) b = pd.Series([124,523,125,324,754]) df = pd.DataFrame(data = [a, b], index = ['a', 'b']) print(df) print('') print(df.loc['a']) print('') print(df.loc['b']) Colored by Color Scripter cs 0 1 2 3 4 a 10 20 30 40 50 b 124 523 125 324 754 0 1.. 2023. 4. 6.
파이썬 데이터 프레임 조건 검색(조건식, query 함수, str 함수) 데이터 프레임은 파이썬에서 매우 유용하게 활용된다. 연산도 가능하지만 조건식이나 특정 함수를 활용하여 원하는 조건을 만족하는 데이터만을 추출할 수도 있다.목차1. 조건식2. 데이터 프레임.query() 함수3. 데이터 프레임.str.contains 함수4. 데이터 프레임.str.match 함수1. 조건식데이터 프레임[(데이터 프레임['원하는 인덱스'] > 조건)]데이터 프레임[(데이터 프레임['원하는 인덱스'] > 조건 & (데이터 프레임['원하는 인덱스'] 1234567891011121314import numpy as npimport pandas as pd df = np.random.rand(6, 2)print(df)print(type(df), '\n'*2) df = pd.DataFrame(df, co.. 2023. 3. 29.
반응형