그룹화란?
동일한 값을 가진 것들끼리 합쳐서 통계 또는 평균 등의 값을 계산하기 위해 사용하는 방법
편의상 4. 파일 저장 및 열기에서 저장한 파일을 사용한다.
단순하게 groupby를 쓰면 아래와 같이 나온다.
다음은 '학교'를 그룹화 하고 '능남고'에 대한 데이터를 가져온 것이다.
다음은 학교 columnd으로 그룹화한 뒤 평균값을 구한 것이다.
이처럼 df.groupby('학교') 뒤에 붙이는 함수에 따라 결과가 달라진다.
size: 각 그룹의 크기
그룹화하는 것이 두 개일 경우
먼저 학년 데이터 정보를 추가해주자.
학교와 학년을 그룹화 해준 뒤 평균 데이터를 구한 것이다.
다음은 학년별로 그룹화해준 뒤 모든 column에 대해 평균 데이터를 구하고 '키' column에 대해 오름차순 정렬해준 것이다.
만약 오름차순이 아닌 내림차순으로 정렬하고 싶다면 ascending = False를 사용해주면 된다.
다음은 학교로 그룹화한 뒤 이름과 SW특기에 대해 데이터 개수를 세어준 것이다.
(단, NaN데이터는 개수에 포함되지 않는다.)
다음은 school에 df를 학교로 그룹화해준 것을 저장하고
school을 학년에 따른 데이터 개수를 정리해준 것이다. (학년별 학생수)
다음은 학교로 그룹화를 한 뒤에 능남고에 대해서 학년별 학생수를 가져온 것이다.
다음은 학교로 그룹화를 한 뒤에 북산고에 대해서 학년별로 데이터를 가져온 것인데
normalize = True를 활용하여 퍼센테이지로 나타낸 것이다.
'Jupyter Computer > Pandas' 카테고리의 다른 글
[Python] Pandas- 날짜 데이터 처리 1 (0) | 2022.05.06 |
---|---|
[Python] 15. Pandas - Quiz (0) | 2022.03.11 |
[Python] 13. Pandas - 함수 적용 (0) | 2022.03.06 |
[Python] 12. Pandas - 데이터 수정 (0) | 2022.03.06 |
[Python] 11. Pandas - 데이터 정렬 (0) | 2022.03.05 |