본문 바로가기

데이터 프레임4

파이썬 데이터 프레임 집계 aggregate() 저번 포스팅에서는 groupby()라는 함수에 대해 알아보았다. 이번 시간에는 데이터 프레임 그룹화 이후에 최댓값, 최솟값과 같은 집계를 간단하게 한 번에 해낼 수 있는 방법에 대해 설명하려고 한다. https://ggangtalife.tistory.com/117 파이썬 데이터 프레임 그룹화 groupby() 위와 같은 엑셀 데이터가 있다고 하자. 이 데이터를 pandas 라이브러리를 활용해 데이터 프레임의 형태로 만든 다음, 과일의 이름별로 그룹화를 해보려고 한다. 그룹화는 간단한 집계를 넘어서서 ggangtalife.tistory.com 1 2 3 4 5 6 7 import pandas as pd df = pd.read_excel('230412.xlsx') display(df) df = df.grou.. 2023. 4. 14.
파이썬 데이터 프레임 그룹화 groupby() 위와 같은 엑셀 데이터가 있다고 하자. 이 데이터를 pandas 라이브러리를 활용해 데이터 프레임의 형태로 만든 다음, 과일의 이름별로 그룹화를 해보려고 한다. 그룹화는 간단한 집계를 넘어서서 조건부로 집계하고 싶은 경우에 사용한다. 1 2 3 4 5 6 7 import pandas as pd df = pd.read_excel('230412.xlsx') display(df) df = df.groupby(['이름', '원산지']).sum() display(df) cs read_excel() 함수를 사용하여 데이터 프레임을 형성한 결과는 위와 같다. 참고로 그룹화의 기준이 될 열은 여러 개 선택할 수 있다. 이 데이터 프레임에서 '이름'과 '원산지' 열을 기준으로 그룹화를 한 결과는 다음과 같다. 귤과 원산.. 2023. 4. 14.
파이썬 데이터 프레임 인덱싱, 슬라이싱(loc, iloc) 목차 1. loc 2. iloc 1. loc 데이터 프레임.loc['인덱스명'] 명시적인 인덱스를 참조하는 인덱싱, 슬라이싱 방법이다. 1 2 3 4 5 6 7 8 9 10 11 12 import pandas as pd a = pd.Series([10, 20, 30, 40, 50]) b = pd.Series([124,523,125,324,754]) df = pd.DataFrame(data = [a, b], index = ['a', 'b']) print(df) print('') print(df.loc['a']) print('') print(df.loc['b']) Colored by Color Scripter cs 0 1 2 3 4 a 10 20 30 40 50 b 124 523 125 324 754 0 1.. 2023. 4. 6.
파이썬 Pandas 라이브러리 Series, DataFrame 정의 목차 1. Pandas의 정의, 사용법 2. Series의 정의, 사용법 3. DataFrame의 정의, 사용법 1. Pandas의 정의, 사용법 파이썬 라이브러리 중 하나다. 구조화된 데이터를 효과적으로 처리하고 저장할 수 있으며 Array 계산에 특화된 Numpy를 기반으로 설계되었다. pip install pandas 명령 프롬프트 창에서 위의 명령어를 입력하여 pandas 라이브러리를 설치할 수 있다. 1 import pandas as pd cs 또한 파이썬에서는 위의 코드를 통해 라이브러리를 불러올 수 있다. 보통 pandas라는 이름 별칭으로 pd를 사용한다. 2. Series의 정의, 사용법 Numpy array가 보강된 형태로 데이터와 인덱스를 가지고 있다. 인덱스를 통해 각각의 데이터에 .. 2023. 4. 5.
반응형